A Primeira GPU Tensor Core
Encontrar as percepções escondidas em oceanos de dados pode transformar setores inteiros, desde a terapia personalizada do tratamento de câncer, passando à naturalização dos diálogos dos assistentes pessoais virtuais até a previsão do próximo grande furacão.
A NVIDIA® V100 Tensor Core é a GPU de data center mais avançada já desenvolvida para acelerar a AI, a computação de alto desempenho (HPC - High Performance Computing), a ciência de dados e os gráficos. Ela tem a tecnologia da arquitetura NVIDIA Volta, vem em configurações de 16GB e 32GB e oferece o desempenho de até 32 CPUs em uma única GPU. Os cientistas, pesquisadores e engenheiros de dados agora podem gastar menos tempo otimizando o uso de memória e mais tempo projetando a próxima inovação em AI.
Execute cargas de trabalho de AI e HPC em um ambiente virtual para melhorar a segurança e a capacidade de gerenciamento usando o software NVIDIA Virtual Compute Server (vCS)
Treinamento ResNet-50, conjunto de dados: Comparação ImageNet2012, BS=256 | NVIDIA V100: Servidor NVIDIA DGX-2™, 1x V100 SXM3-32GB, MXNet 1.5.1, container=19.11-py3, precisão mista, taxa de transferência: 1,525 imagens/seg | Comparação Intel: Supermicro SYS-1029GQ-TRT, 1 soquete Intel Gold 6240@2GHz/3.9Hz Turbo, Tensorflow 0.18, FP32 (somente precisão disponível), taxa de transferência: 48 imagens/seg
De reconhecimento de fala a treinamento de assistentes pessoais virtuais e ensino de carros autônomos a dirigir, os cientistas de dados estão assumindo desafios cada vez mais complexos com a AI. A solução desses tipos de problemas requer o treinamento de modelos de Deep Learning que estão aumentando exponencialmente em complexidade, em um período prático.
Com 640 Tensor Cores, a V100 é a primeira GPU do mundo a romper a barreira dos 100 teraFLOPS (TFLOPS) de desempenho em deep learning. A próxima geração do NVIDIA NVLink™ conecta várias GPUs V100 em até 300 GB/s para criar os servidores de processamento mais potentes do mundo. Os modelos de AI que usavam semanas de recursos de processamento em sistemas anteriores agora podem ser treinados em poucos dias. Com essa redução significativa no tempo de treinamento, um mundo totalmente novo de problemas agora será solucionado com a AI.
BERT Inferência de ajustes finos de base, conjunto de dados: SQuADv1.1, BS=1, comprimento da sequência=128 | Comparação NVIDIA V100: Supermicro SYS-4029GP-TRT, 1x V100-PCIE-16GB, contêiner de pré-lançamento, precisão mista, NVIDIA TensorRT™ 6.0, taxa de transferência: 557 frases/seg | Comparação Intel: 1 soquete Intel Gold 6240@2.6GHz/3.9Hz Turbo, FP32 (somente precisão disponível), OpenVINO MKL-DNN v0.18, taxa de transferência: 23,5 frases/seg
Para se conectar com as informações, os serviços e os produtos mais relevantes, as empresas de hiperescala começaram a explorar a AI. No entanto, acompanhar a demanda do usuário é um grande desafio. Por exemplo, a maior empresa de hiperescala do mundo estimou recentemente que precisaria dobrar sua capacidade de data center se todos os usuários gastassem apenas três minutos por dia usando seu serviço de reconhecimento de fala.
A V100 foi projetada para oferecer o máximo desempenho em racks de servidores de hiperescala existentes. Com a AI no seu núcleo, a GPU V100 oferece um desempenho de inferência 47X maior que um servidor com CPU. Esse grande salto na taxa de transferência e eficiência tornará o dimensionamento dos serviços de AI mais práticos.
Aplicativo (conjunto de dados): MILC (APEX médio) e Chroma (szscl21_24_128) | Servidor de CPU: Intel Xeon 8280 Platinum de dois soquetes (Cascade Lake)
O HPC é um pilar fundamental da ciência moderna. Da previsão do clima à descoberta de medicamentos e novas fontes de energia, os pesquisadores usam grandes sistemas de computação para simular e prever nosso mundo. A AI amplia o HPC tradicional, permitindo que os pesquisadores analisem grandes volumes de dados para obter insights rápidos, para os quais a simulação sozinha não consegue prever totalmente o mundo real.
A V100 foi projetada para a convergência de AI e HPC. Ela oferece uma plataforma para sistemas de HPC terem sucesso na ciência computacional para simulação científica e ciência de dados para encontrar insights nos dados. Ao juntar os núcleos NVIDIA CUDA® e os Tensor Cores em uma arquitetura unificada, um único servidor com GPUs V100 pode substituir centenas de servidores somente com CPUs por meio de HPC tradicionais e cargas de trabalho de AI. Todos os pesquisadores e engenheiros podem agora lidar com um supercomputador de AI para realizar seus trabalhos mais desafiadores.
Desempenho ideal para deep learning.
Maior versatilidade para todas as cargas de trabalho.
PRECISÃO DUPLA 7.8 teraFLOPS
PRECISÃO ÚNICA 15.7 teraFLOPS
Deep Learning 125 teraFLOPS
PRECISÃO DUPLA 7 teraFLOPS
PRECISÃO ÚNICA 14 teraFLOPS
Deep Learning 112 teraFLOPS
Double-Precision 8.2 teraFLOPS
Single-Precision 16.4 teraFLOPS
Deep Learning 130 teraFLOPS
NVLink 300 GB/s
PCIe 32 GB/s
CAPACIDADE 32/16 GB HBM2
LARGURA DE BANDA 900 GB/s
CAPACIDADE 32 GB HBM2
LARGURA DE BANDA 1134 GB/s
300 WATTS
250 WATTS
Os Aceleradores de GPU Mais Rápidos do Mundo Para HPC e Deep Learning.
Encontre um parceiro de processamento acelerado da NVIDIA pela rede de parceiros NVIDIA (NPN, NVIDIA Partner Network).