NVIDIA TensorRT Hyperscale-Inferenzplattform

Unterstützt neue Möglichkeiten für KI-basierte Dienste

KI muss ständig mit rasant wachsenden Datenvolumen mithalten und gleichzeitig schnell reagieren. Stellen Sie sich den Herausforderungen mit NVIDIA® Tesla®-GPUs und der NVIDIA TensorRT -Plattform, der weltweit schnellsten und effizientesten Rechenzentrums-Inferenzplattform. Tesla unterstützt alle Deep-Learning-Workloads und bietet die optimale Inferenzlösung, da es höchsten Durchsatz, beste Effizienz und optimale Flexibilität für ein KI-basiertes Erlebnis kombiniert. TensorRT ermöglicht die Nutzung des vollen Leistungsumfangs von Tesla-GPUs bei verschiedenen Anwendungen wie Videostreaming sowie Sprach- und Empfehlungssystemen und bietet eine Basis für das NVIDIA DeepStream-SDK.

RECHENZENTRUMSINFERENZ-PRODUKTE

TESLA T4

Die NVIDIA® Tesla® T4-GPU beschleunigt diverse Cloudworkloads, darunter High-Performance-Computing, Deep-Learning-Training und -Inferenz, maschinelles Lernen, Datenanalysen und Grafik. T4 basiert auf der neuen NVIDIA Turing(™)-Architektur, ist mit 70 Watt energieeffizient und bietet einen kleinen PCIe-Formfaktor. Sie ist für Scale-Out-Server und -Computingumgebungen optimiert. Des Weiteren beinhaltet sie Turing Tensor-Multipräzisions-Recheneinheiten sowie neue RT-Recheneinheiten, die in Kombination mit beschleunigter containerisierter Zusatzsoftware von NVIDIA GPU Cloud revolutionäre, skalierbare Leistung ermöglicht.

deep-learning-ai-inference-platform-t4-background-2560-0912-ud

TESLA T4

Die NVIDIA® Tesla® T4-GPU ist der effizienteste Inferenzbeschleuniger der Welt. NVIDIA Tesla T4 wird mit NVIDIA Turing Tensor-Recheneinheiten betrieben und bietet revolutionäre Multipräzisions-Inferenzleistung zum Beschleunigen diverser Anwendungen der modernen KI. T4 ist in einen energieeffizienten 75-Watt-PCIe-Formfaktor gepackt und für Scale-Out-Server optimiert sowie speziell für die Bereitstellung modernster Inferenz in Echtzeit konzipiert.

TESLA V100
Für den universellen Einsatz in Rechenzentren

Jeder Tesla V100-Grafikprozessor bietet eine Inferenzleistung von 125 TeraFLOPS. Mit einem einzigen Server mit acht Tesla V100-Grafikprozessoren kann eine Rechenleistung von einem PetaFLOP erreicht werden.

TESLA P4
Für ultraeffiziente Scale-Out-Server

Der Tesla P4 beschleunigt jeden Scale-Out-Server und bietet eine beeindruckende Energieeffizienz, welche die von CPUs um das 60-Fache übersteigt.

TESLA P40
Für Inferenz-Durchsatz-Server

Der Tesla P40 bietet herausragende Inferenzleistung, INT8-Präzision und 24 GB Onboard-Speicher und sorgt damit für eine erstklassige Nutzererfahrung.

NVIDIA-RECHENZENTRUM – RECHENSOFTWARE

NVIDIA TensorRT

NVIDIA TensorRT ist eine hochleistungsfähige Inferenzplattform für neuronale Hochleistungsnetzwerke zur Beschleunigung von Anwendungen wie Empfehlungs-, Spracherkennungs- und Maschinenübersetzungsdienste um das Vierzigfache im Vergleich zu reinen CPU-Architekturen. Mit TensorRT können neuronale Netzmodelle optimiert, Kalibrierungen für geringere Präzision mit hoher Genauigkeit vorgenommen und die Modelle für Produktionsumgebungen in Unternehmens- und Hyperscale-Rechenzentren bereitgestellt werden.


NVIDIA Triton Inference Server

Der NVIDIA Triton Inference Server, zuvor als TensorRT Inference Server bekannt, ist eine Open-Source-Software, die die Bereitstellung von Deep-Learning-Modellen in der Produktion vereinfacht. Mit dem Triton Inference Server können Teams trainierte KI-Modelle aus jedem Framework (TensorFlow, PyTorch, TensorRT Plan, Caffe, MXNet oder benutzerdefiniert) aus dem lokalen Speicher, der Google Cloud-Plattform oder AWS S3 auf jeder GPU- oder CPU-basierten Infrastruktur bereitstellen. Der Triton Inference Server führt mehrere Modelle gleichzeitig auf einem einzelnen Grafikprozessor aus, um die Auslastung zu maximieren, und ist zur Orchestrierung sowie für Metriken und automatische Skalierung mit Kybernetes integriert.

Kubernetes bei NVIDIA-GPUs

Mit Kubernetes bei NVIDIA-GPUs kann in Unternehmen die Trainings- und Inferenzbereitstellung in Multi-Cloud-GPU-Clustern nahtlos nach oben skaliert werden. Mit Kubernetes können grafikprozessorbeschleunigte Deep-Learning-Anwendungen und High Performance Computing(HPC)-Anwendungen direkt in Multi-Cloud-GPU-Clustern bereitgestellt werden.

DeepStream-SDK

NVIDIA DeepStream für Tesla ist ein SDK zur Erstellung von Deep-Learning-basierten, skalierbaren Intelligent Video Analytics(IVA)-Anwendungen für Smart Cities und Hyperscale-Rechenzentren. Es vereint NVIDIA TensorRT-Optimierungs- und Laufzeit-Engines für Inferenz, Video-Codec-SDK für Transcode, Vorverarbeitung und Datenkurations-APIs, um so das gesamte Potenzial von Tesla-GPUs auszuschöpfen. So können Sie mit Tesla P4-GPUs beispielsweise bis zu 30 HD-Videostreams gleichzeitig und in Echtzeit dekodieren und analysieren.

LEISTUNGSMERKMALE UND VORTEILE

Die fortschrittlichste KI-Inferenz-Plattform

Tesla T4 mit NVIDIA Turing Tensor-Recheneinheiten bietet eine bahnbrechende Leistung für Deep Learning-Trainings in den FP32-, FP16-, INT8- und INT4-Precisions für Inferenz. Mit 130 TeraOPS (TOPS) von INT8 und 260 TOPS von INT4 hat T4 die weltweit höchste Inferenzeffizienz mit dem bis zu 40-Fachen Wert im Vergleich zu CPUs. Tesla T4 kann simultan bis zu 39 HD-Videostreams in Echtzeit analysieren, dank dedizierter hardwarebeschleunigter Videotranscode-Engines. Entwickler können mit Inferenz intelligente, innovative Funktionen auf einem völlig neuen Niveau anbieten, die eine einfachere Videosuche sowie andere Dienste im Videobereich ermöglichen. Tesla T4 bietet diese herausragende Leistung bei gerade einmal 70 Watt (W) und ist somit die ideale Inferenzlösung für Scale-Out-Server in der Peripherie.

24-fach höherer Durchsatz zur Bewältigung immer größerer Datenvolumen

Tesla V100-Grafikprozessoren mit NVIDIA Volta™ ermöglichen in Rechenzentren eine erhebliche Steigerung des Durchsatzes von Deep-Learning-Workloads, sodass sich aus der heutigen gewaltigen Datenflut sinnvolle Informationen gewinnen lassen. Ein Server mit nur einem Tesla V100 kann bis zu 50 reine CPU-Server für Deep-Learning-Inferenz-Workloads ersetzen und bietet erheblich höheren Durchsatz bei geringeren Beschaffungskosten.

Leistungsmaximierung mit NVIDIA TensorRT und dem DeepStream-SDK

NVIDIA TensorRT-Optimierungs- und Laufzeit-Engines liefern hohen Durchsatz bei geringer Latenz für Anwendungen wie Empfehlungssystemen, Spracherkennung und maschineller Übersetzung. Mit TensorRT können Modelle, die mit 32-Bit- oder 16-Bit-Daten trainiert wurden, für INT8-Prozesse auf Tesla T4 und P4 oder FP16 auf Tesla V100 optimiert werden. Das NVIDIA DeepStream-SDK nutzt die Leistungsstärke von Tesla-Grafikprozessoren, um Videosignale gleichzeitig zu decodieren und zu analysieren.

Inferenz, die die GPU-Auslastung maximiert und alle wichtigen Frameworks unterstützt

Der NVIDIA Triton Inference Server bietet Rechenzentrum-Inferenzen mit hohem Durchsatz und hilft Ihnen dabei, Ihre GPUs bestmöglich zu nutzen. Der NVIDIA TensorRT-Inferenzserver wird in einem betriebsbereiten Container bereitgestellt. Er ist ein Mikroservice, mit dem Sie Inferenzen über eine API für jede beliebige Kombination von Modellen von Caffe2, NVIDIA TensorRT, TensorFlow und jedem Framework, das den ONNX-Standard unterstützt, auf einer oder mehreren GPUs durchführen können.

Leistungsdaten

Tesla T4: Der weltweit fortschrittlichste Inferenzbeschleuniger Tesla V100: Universeller Einsatz in Rechenzentren Tesla P4 für ultraeffiziente Scale-Out-Server Tesla P40 für Server mit hohem Inferenzdurchsatz
Single-Precision-Leistung (FP32) 8,1 TFLOPS 14 Teraflops (PCIe)
15,7 Teraflops (SXM2)
5,5 Teraflops 12 Teraflops
Half-Precision-Leistung (FP16) 65 FP16-TFLOPS 112 Teraflops (PCIe)
125 Teraflops (SXM2)
Integer-Operationen (INT8) 130 INT8-TOPS 22 TOPS* 47 TOPS*
GPU-Speicher 16GB 32/16GB HBM2 8GB 24GB
Speicherbandbreite 320GB/s 900GB/s 192GB/s 346GB/s
Systemschnittstelle/Formfaktor Low-Profile-PCI Express-Formfaktor PCI-Express-Formfaktor für zwei Steckplätze mit voller Höhe (SXM2/NVLink) Low-Profile-PCI Express-Formfaktor PCI-Express-Formfaktor für zwei Steckplätze mit voller Höhe
Leistung 70 W 250 W (PCIe)
300 W (SXM2)
50 W/75 W 250 W
Video-Engine mit Hardwarebeschleunigung 1 Decodier-Engine, 2 Decodier-Engines 1 Decodier-Engine, 2 Codier-Engines 1 Decodier-Engine, 2 Codier-Engines

* Tera-Operations per Second (Tera-Operationen pro Sekunde) mit Boost-Taktung

ERFOLGSGESCHICHTEN

Intelligentere, schnellere visuelle Suche

Mithilfe der NVIDIA-GPU-Technologie beschleunigt Bing die Objekterkennung und liefert in Echtzeit relevante Ergebnisse.

Bild- und -Videobearbeitung

Durchsatz mit maximaler Effizienz bei Workloads zur Bild- und -Videobearbeitung – mit dem NVIDIA DeepStream SDK auf Tesla-GPUs.

Empfehlungsdienste

Verbesserte Präzision der Prognosen von Empfehlungsdiensten dank auf Deep Learning basierender neuronaler kollaborativer Filter-Apps, die auf NVIDIA-GPU-Plattformen ausgeführt werden.

OPTIMIEREN SIE IHRE DEEP-LEARNING-INFERENZLÖSUNG NOCH HEUTE.

Die Grafikprozessoren Tesla V100, P40 und Tesla T4 sind ab sofort für Deep-Learning-Inferenz verfügbar.