Soluzioni di inferenza IA

Inferenza IA più veloce e accurata

Ottieni prestazioni rivoluzionarie su scala di data center con le tue applicazioni e i tuoi servizi basati sull'IA.

Scopri il software

Scarica l'e-book | Benchmark delle prestazioni | Per sviluppatori

Panoramica
Vantaggi
Software
Hardware
Scenari di utilizzo
Testimonianze dei clienti
Risorse
Prossimi passi

Panoramica
Vantaggi
Software
Hardware
Scenari di utilizzo
Testimonianze dei clienti
Risorse
Prossimi passi

Operazioni preliminari

Panoramica

Qual è il modo intelligente per scalare l'inferenza con IA?

Un prompt. Un set di token per la risposta. Questa è l'inferenza con IA. Man mano che i modelli crescono in dimensioni e complessità, le organizzazioni hanno bisogno di un approccio full-stack e di strumenti completi per avere successo nnella nuova era delle leggi di scalabilità dell'IA.

Con i modelli di ragionamento che generano un numero di token IA esponenzialmente superiore, le esigenze di calcolo aumentano a dismisura. Per soddisfarle sono necessarie fabbriche IA, infrastrutture create appositamente e ottimizzate per l'inferenza su larga scala con NVIDIA Blackwell, progettate per offrire prestazioni, efficienza e ROI in tutti i settori.

L'ottimizzazione dell'inferenza full-stack è fondamentale per adottare un approccio intelligente all'IA scalabile nella fabbrica IA.

Mixture of Experts alimenta i modelli di IA di frontiera più intelligenti, funziona 10 volte più velocemente su NVIDIA Blackwell NVL72

Scopri perché l'estrema co-progettazione di NVIDIA Blackwell NVL72 è l'unico sistema rack-scale in grado di offrire un salto di prestazioni di inferenza di 10 volte su una vasta gamma di modelli Mixture of Experts (MoE), tra cui Kimi K2 Thinking, DeepSeek-R1 e Mistral Large 3.

Leggi l'annuncio

AWS, Google, Microsoft e OCI aumentano le prestazioni di inferenza IA per i clienti cloud con NVIDIA Dynamo

NVIDIA Dynamo collabora con Kubernetes per semplificare la gestione dell'inferenza IA sia a nodo singolo che a nodo multiplo. NVIDIA Grove, una nuova API in NVIDIA Dynamo, orchestra l'inferenza di sistema da una singola specifica di alto livello. Dynamo si integra nei servizi gestiti Kubernetes di tutti i principali fornitori di cloud, consentendo ai clienti di scalare su NVIDIA Blackwell.

Leggi il blog

NVIDIA Blackwell Maximizes ROI in AI Inference

NVIDIA Blackwell enables the highest AI factory revenue, including up to 15x ROI. This is a result of extreme codesign across NVIDIA Blackwell, NVLink™, and NVLink Switch for scale-out; NVFP4 for low-precision accuracy; and NVIDIA Dynamo and TensorRT™-LLM for speed and flexibility—as well as development with community frameworks SGLang, vLLM, and more.

DeepSeek-R1 8K/1K results show a 15x performance benefit and revenue opportunity for NVIDIA Blackwell GB200 NVL72 over Hopper H200.

NVIDIA TensorRT-LLM sees 60,000 TPS/GPU max throughput, 1,000 TPS/user max interactivity, and 5x performance improvement in two months on gpt-oss-120b.

Vantaggi

Scopri i vantaggi di NVIDIA AI per l'inferenza accelerata

Standardizzare la distribuzione

Standardizzazione della distribuzione dei modelli su applicazioni, framework IA, architetture di modelli e piattaforme.

Integrazione e scalabilità con facilità

Integrazione semplice con strumenti e piattaforme su cloud pubblici, nei data center locali e sui sistemi periferici.

Costi più bassi.

Throughput e utilizzo elevato dell'infrastruttura IA per ridurre i costi.

Alte prestazioni

Sperimenta prestazioni leader del settore con la piattaforma che ha costantemente stabilito diversi record in MLPerf

, il principale benchmark del settore per l'IA.

Software

Scopri il nostro software di inferenza IA

NVIDIA AI Enterpriseè composta da NVIDIA NIM™, NVIDIA Triton™ Inference Server, NVIDIA® TensorRT™ e altri strumenti per semplificare la creazione, la condivisione e la distribuzione di applicazioni di IA. Con supporto, stabilità, gestibilità e sicurezza di livello enterprise, le aziende possono accelerare il time to value eliminando i tempi di inattività non pianificati.

Scala e serve dinamicamente l'IA con l'inferenza distribuita

NVIDIA Dynamo è un software di inferenza open source per l'accelerazione della distribuzione dei modelli di IA su scala di fabbrica IA. Utilizzando il serving disaggregato, Dynamo suddivide le attività di inferenza in componenti più piccoli, instradando e reindirizzando dinamicamente i carichi di lavoro alle risorse di calcolo più ottimali disponibili in quel momento.

Scopri di più su NVIDIA Dynamo

Alimentare la nuova generazione di agenti IA

NVIDIA NIM è un set di microservizi di facile utilizzo progettato per l'implementazione sicura e affidabile di inferenze di modelli di IA ad alte prestazioni su cloud, data center e workstation.

Scopri di più su NVIDIA NIM

Un SDK per prestazioni di inferenza leader di settore

TensorRT-LLM è una libreria open source per l'inferenza LLM ad alte prestazioni e in tempo reale su GPU NVIDIA. Con un runtime Python modulare, un sistema nativo PyTorch per l'autore e un'API di produzione stabile, è ottimizzato per massimizzare il throughput, ridurre al minimo i costi e offrire esperienze utente rapide.

Scopri di più su TensorRT-LLM

NVIDIA DGX Cloud Serverless Inference

Una soluzione di inferenza IA e serverless ad alte prestazioni che accelera l'innovazione IA con un utilizzo della GPU scalabile ed efficiente, la flessibilità multi-cloud e la scalabilità semplice.

Scopri di più su inferenza serverless DGX Cloud

Hardware

Scopri la nostra infrastruttura di inferenza IA

Ottieni prestazioni di IA senza pari con il software di inferenza NVIDIA AI ottimizzato per l'infrastruttura accelerata da NVIDIA. Le tecnologie NVIDIA Blackwell Ultra, H200 GPU, NVIDIA RTX PRO™ 6000 Blackwell Server Edition e NVIDIA RTX™ offrono velocità ed efficienza eccezionali per i carichi di lavoro di inferenza IA in data center, cloud e workstation.

NVIDIA GB300 NVL72

La domanda di inferenza IA è in aumento e NVIDIA Blackwell Ultra è progettata per rispondere a questa esigenza. Offrendo 1,4 exaFLOPS in un singolo rack, NVIDIA GB300 NVL72 unifica 72 GPU NVIDIA Blackwell Ultra con NVIDIA NVLink™ e NVFP4 per alimentare modelli di grandi dimensioni con estrema efficienza, ottenendo un output della fabbrica IA 50 volte superiore, riducendo al contempo i costi dei token e accelerando il ragionamento in tempo reale su scala.

Scopri di più su GB300 NVL72

GPU NVIDIA H200

La GPU NVIDIA H200, parte della piattaforma NVIDIA Hopper, potenzia i carichi di lavoro dell'IA generativa e del calcolo ad alte prestazioni (HPC) con prestazioni e memoria rivoluzionarie. Come prima GPU con HBM3e, la memoria più grande e veloce dell’H200 alimenta l’accelerazione dell’IA generativa e dei modelli di linguaggio di grandi dimensioni (LLM), mentre fa progredire il calcolo scientifico per i carichi di lavoro HPC.

Scopri di più su H200

NVIDIA RTX PRO 6000 Blackwell Server Edition

La GPU RTX PRO 6000 Blackwell Server Edition offre prestazioni di inferenza potenziate in una vasta gamma di modelli di IA, ottenendo prestazioni fino a 5 volte superiori per applicazioni di IA per agenti e generativa su scala aziendale rispetto a NVIDIA L40S della generazione precedente. I server NVIDIA RTX PRO™, disponibili presso i partner di sistema globali, portano le prestazioni e l'efficienza dell'architettura Blackwell in ogni data center aziendale.

Scopri di più su RTX PRO 6000 Blackwell Server Edition

NVIDIA RTX PRO 6000 Blackwell Workstation Edition

La RTX PRO 6000 Blackwell Workstation Edition è la prima GPU desktop a offrire 96 GB di memoria GPU. La potenza dell'architettura GPU Blackwell, combinata con la memoria GPU di grandi dimensioni e lo stack software NVIDIA AI, consente alle workstation basate su RTX PRO di offrire un'incredibile accelerazione per l'IA generativa e l'inferenza LLM direttamente sul desktop.

Scopri di più su RTX PRO 6000 Blackwell Workstation Edition

Scopri la storia dietro l'IA su larga scala

Ti sei mai chiesto come i complessi compromessi dell'IA si traducono in risultati del mondo reale? Esplora diversi punti attraverso le curve di prestazioni qui sotto per vedere direttamente come le innovazioni nelle configurazioni hardware e di distribuzione hanno un impatto sull'efficienza dei data center e sull'esperienza utente.

TPS / utente

–

TPS / MW

–

Esperienza di chat simulata

DeepSeek R1 ISL = 32K, OSL = 8K, GB300 NVL72 con disaggregazione Dynamo FP4. H100 con batching continuo FP8. Prestazioni previste soggette a modifica.

Ti stai chiedendo come ogni configurazione si traduce in esperienze utente reali? Scopri le curve da solo o assistito da TJ, facendo clic su "Scopri con TJ" e guardale prendere vita nella chat simulata a destra.

Scopri di più con NVIDIA Dynamo AI Configurator

Testimonianze dei clienti

Come i leader del settore stanno guidando l'innovazione con l'inferenza IA

Altre storie dei clienti

Amdocs

Accelerare le prestazioni dell'IA generativa e ridurre i costi

Leggi come Amdocs ha creato amAIz, una piattaforma di intelligenza artificiale generativa specifica per il dominio per le aziende di telecomunicazioni, utilizzando i microservizi di inferenza NVIDIA DGX™ Cloud e NVIDIA NIM per migliorare la latenza, aumentare la precisione e ridurre i costi.

Leggi il caso di studio

Snapchat

Migliorare lo shopping con l'IA

Scopri come Snapchat ha migliorato l'esperienza di acquisto di abbigliamento e il riconoscimento ottico dei caratteri con emoji utilizzando Triton Inference Server per scalare, ridurre i costi e accelerare i tempi di produzione.

Leggi il caso di studio

Amazon

Accelerare la soddisfazione del cliente

Scopri come Amazon ha migliorato la soddisfazione dei clienti accelerando la loro inferenza 5 volte più velocemente con TensorRT.

Leggi il caso di studio

Risorse

Le ultime novità in risorse di inferenza IA

Blog
Sessioni
Formazione
Video

Vedi altri blog

Visualizza altre sessioni

Inizia a utilizzare l'inferenza su NVIDIA LaunchPad

Hai un progetto IA esistente? Fai domanda per ottenere esperienza pratica di test e prototipazione delle tue soluzioni di IA.

Candidati ora

Scopri i percorsi di apprendimento di IA generativa e LLM

Migliora le tue competenze tecniche nell'IA generativa e nei modelli linguistici di grandi dimensioni con i nostri percorsi di apprendimento completi.

Esplora ora

Inizia a utilizzare l'inferenza generativa dell'IA su NVIDIA LaunchPad

Accelera gratuitamente il tuo percorso di IA generativa con l'accesso immediato e a breve termine ai microservizi di inferenza NVIDIA NIM e ai modelli di IA.

Operazioni preliminari

Visualizza più corsi di formazione

Visualizza altri video

Prossimi passi

Vuoi iniziare?

Scopri tutto ciò di cui hai bisogno per iniziare a sviluppare la tua applicazione IA, tra cui la documentazione più recente, i tutorial, i blog tecnici e molto altro.

Contattaci

Parla con uno specialista di prodotto NVIDIA per passare dal progetto pilota alla produzione grazie alla sicurezza, alla stabilità delle API e al supporto di NVIDIA AI Enterprise.

Contatti

Ottieni le ultime notizie su NVIDIA AI

Iscriviti per ricevere le ultime notizie, gli aggiornamenti e altro da NVIDIA.

Resta informato

Prossimi passi

Vuoi iniziare?

Scopri tutto ciò di cui hai bisogno per iniziare a sviluppare la tua applicazione IA, tra cui la documentazione più recente, i tutorial, i blog tecnici e molto altro.

Inizia a sviluppare Start Building

Contattaci

Parla con uno specialista di prodotto NVIDIA per passare dal progetto pilota alla produzione grazie alla sicurezza, alla stabilità delle API e al supporto di NVIDIA AI Enterprise.

Contattaci

Ricevi le ultime notizie su NVIDIA AI Inference

Iscriviti per ricevere le ultime notizie e gli ultimi annunci aziendali e altro da NVIDIA.

Ricevi gli ultimi aggiornamenti

Inferenza IA più veloce e accurata

Panoramica

Qual è il modo intelligente per scalare l'inferenza con IA?

Mixture of Experts alimenta i modelli di IA di frontiera più intelligenti, funziona 10 volte più velocemente su NVIDIA Blackwell NVL72

AWS, Google, Microsoft e OCI aumentano le prestazioni di inferenza IA per i clienti cloud con NVIDIA Dynamo

NVIDIA Blackwell Maximizes ROI in AI Inference

Vantaggi

Scopri i vantaggi di NVIDIA AI per l'inferenza accelerata

Standardizzare la distribuzione

Integrazione e scalabilità con facilità

Costi più bassi.

Alte prestazioni

Software

Scopri il nostro software di inferenza IA

Scala e serve dinamicamente l'IA con l'inferenza distribuita

Alimentare la nuova generazione di agenti IA

Un SDK per prestazioni di inferenza leader di settore

NVIDIA DGX Cloud Serverless Inference

Hardware

Scopri la nostra infrastruttura di inferenza IA

NVIDIA GB300 NVL72

GPU NVIDIA H200

NVIDIA RTX PRO 6000 Blackwell Server Edition

NVIDIA RTX PRO 6000 Blackwell Workstation Edition

Scopri la storia dietro l'IA su larga scala

Testimonianze dei clienti

Come i leader del settore stanno guidando l'innovazione con l'inferenza IA

Accelerare le prestazioni dell'IA generativa e ridurre i costi

Migliorare lo shopping con l'IA

Accelerare la soddisfazione del cliente

Risorse

Le ultime novità in risorse di inferenza IA

Inizia a utilizzare l'inferenza su NVIDIA LaunchPad

Scopri i percorsi di apprendimento di IA generativa e LLM

Inizia a utilizzare l'inferenza generativa dell'IA su NVIDIA LaunchPad

Prossimi passi

Vuoi iniziare?

Contattaci

Ottieni le ultime notizie su NVIDIA AI

Prossimi passi

Vuoi iniziare?

Contattaci

Ricevi le ultime notizie su NVIDIA AI Inference

Ricevi le ultime notizie di NVIDIA sull'interferenza IA