Por que a memória da RTX 3080 é de apenas 10 GB? Como estabeleceram que esse número seria suficiente, já que é o mesmo da geração anterior?
Link
[Justin Walker] Nós estamos sempre analisando os requisitos de memória dos games mais atuais e consultando os desenvolvedores de games periodicamente para entender as necessidades de memória deles para os games de hoje e do futuro. O objetivo da 3080 é oferecer um desempenho excelente em uma resolução em até 4K com todas as configurações máximas pelo melhor preço possível. Para fazer isso, é preciso ter uma placa de vídeo potente com memória de alta velocidade e memória suficiente para atender às necessidades dos games. Darei alguns exemplos: em Assassin’s Creed Odyssey, Metro Exodus, Wolfenstein Youngblood, Gears of War 5, Borderlands 3 e Red Dead Redemption 2, games que rodam em uma 3080 a 4K com configurações máximas (inclusive os pacotes relevantes de textura de alta resolução) e RTX On, se o game for compatível, a taxa de frames fica entre 60 e 100 FPS, e o uso da memória fica entre 4 e 6 GB. É sempre bom ter mais memória, mas o preço da placa de vídeo subiria, então precisamos encontrar um equilíbrio perfeito.
O slide mostra que a RTX 3070 é tão ou mais rápida que a 2080 Ti. Nesse caso, ele está se referindo à rasterização tradicional ou às cargas de trabalho de DLSS/RT? Seria ótimo se pudessem esclarecer isso, já que nenhum benchmark de rasterização tradicional foi apresentado, somente os de games compatíveis com RT/DLSS.
Link
[Justin Walker] Ele se refere às duas coisas. Games compatíveis somente com a rasterização tradicional e games compatíveis com RTX (RT + DLSS). O artigo sobre o lançamento traz uma explicação sobre o assunto.
A Ampere é compatível com HDMI 2.1 e uma largura de banda total de 48 Gbps?
Link
[Qi Lin] Sim. A arquitetura NVIDIA Ampere é compatível com a taxa de conexão HDMI 2.1 mais alta, de 12 Gbs/faixa, em todas as quatro faixas e com a tecnologia Display Stream Compression (DSC), oferecendo uma resolução de até 8K a 60 Hz em HDR.
Podem falar um pouco mais sobre o aumento do número de núcleos CUDA? Como ele afeta as arquiteturas gerais dos GPCs? É muito difícil fornecer energia a todas as unidades FP32? Que medidas foram tomadas para garantir a ocupação alta?
Link
[Tony Tamasi] Um dos principais objetivos do design dos Multiprocessadores Simultâneos (SM) Ampere da Série 30 é garantir o dobro da taxa de transferência de operações FP32 observada no SM Turing. Para cumprir esse objetivo, colocamos no SM Ampere novos designs de caminhos de dados para operações FP32 e INT32. Cada partição tem um caminho de dados formado por 16 núcleos CUDA FP32 capazes de executar 16 operações FP32 por clock. Também há outro caminho de dados formado por 16 núcleos CUDA FP32 e 16 núcleos INT32. Com esse novo design, cada partição do SM Ampere é capaz de executar 32 operações FP32 por clock ou 16 operações FP32 e 16 operações INT32 por clock. Juntas, as quatro partições do SM são capazes de executar 128 operações FP32 por clock, ou seja, o dobro da taxa FP32 do SM Turing ou 64 operações FP32 e 64 operações INT32 por clock.
Com o dobro da velocidade de processamento para operações FP32, o desempenho é superior em uma série de operações e algoritmos comuns de computação e gráficos. Geralmente, as cargas de trabalho modernas de shaders seguem instruções aritméticas FP32 diversas, como FFMA, adições em ponto flutuante (FADD) ou multiplicações em ponto flutuante (FMUL), juntamente com instruções mais simples, como adições de números inteiros para o encaminhamento e o resgate de dados, a comparação em ponto flutuante ou o cálculo do mínimo/máximo para o processamento de resultados etc. Dependendo da série de instruções, o desempenho superior pode variar no nível do shader e do software. Os shaders de redução de ruído com Ray Tracing são bons exemplos de recursos que melhorariam muito com o dobro da taxa de transferência FP32.
Foi preciso dobrar o número de caminhos de dados compatíveis para garantir o dobro da taxa de transferência de operações, e é por isso que o SM Ampere também apresenta o dobro da memória compartilhada e do desempenho do cache L1 (128 bytes/clock por SM Ampere em comparação com 64 bytes/clock no Turing). A largura de banda total do L1 da GeForce RTX 3080 é 219 GB/s, e a da GeForce RTX 2080 Super é 116 GB/s.
Assim como nas placas de vídeo NVIDIA anteriores, a Ampere é formada por clusters de processamento de gráficos (GPCs), clusters de processamento de texturas (TPCs), multiprocessadores de transmissão (SMs), operadores de rasterização (ROPs) e controladores de memória.
O GPC é o componente dominante e de alto nível do hardware que contém todas as principais unidades de processamento de gráficos localizadas no GPC. Cada GPC contém um mecanismo de rasterização dedicado, e agora também conta com duas partições de ROPs (cada partição contém oito unidades de ROPs), um novo recurso para as placas de vídeo GA10x da arquitetura NVIDIA Ampere. Há mais detalhes sobre a arquitetura NVIDIA Ampere no White Paper da Arquitetura Ampere da NVIDIA, que será publicado nos próximos dias.
Já sabem se o design de fluxo de ar duplo será ineficiente em gabinetes invertidos? Mais do que os designs anteriores? Ao que parece, ele seria útil para resfriar a CPU. Só que o cooler da CPU ainda resfriaria o gabinete. Talvez não seja tão ruim assim.
Outra pergunta. A 3090 é dez vezes mais silenciosa que a Titan. Isso quer dizer que ela é mais ou menos silenciosa que a 2080 Super (EVGA FX Ultra, por exemplo)?
Link
[Qi Lin] O novo design de resfriamento por fluxo de ar funciona muito bem, contanto que as ventoinhas do chassi estejam configuradas para soprar ar fresco em direção à placa de vídeo e expulsar do chassi o ar que flui pela placa. Não tem problema se o chassi estiver invertido.
A Founders Edition RTX 3090 é mais silenciosa que a Titan RTX e a Founders Edition RTX 2080 Super. Ela não foi testada em designs específicos de parceiros, mas acho que você se surpreenderá com o ruído que ela produz. Aliás, que ela não produz. :-)
As placas da Série 30 reproduzem uma taxa de frames de 120 FPS em 10 bits e 4:4:4? Geralmente, as placas de vídeo NVIDIA são compatíveis somente com monitores de 8 ou 12 bits, e não de 10 bits. A grande maioria dos monitores/televisões HDR no mercado são de 10 bits.
Link
[Qi Lin] A Série 30 é compatível com HDR de 10 bits. Na verdade, o HDMI 2.1 é compatível com resoluções de até 8K a 60 Hz com HDR de 12 bits, ou seja, com monitores HDR de 10 bits também.
Que inovação tecnológica possibilitou a mudança significativa da linha 2xxx para a 3xxx? Sabia que me surpreenderia, mas a eficiência e a potência dessas placas são muito maiores. As placas rodam imagens em 4K a 144 Hz?
Link
[Justin Walker] Foram realizados avanços consideráveis na arquitetura, na tecnologia de processamento e na tecnologia de memória das placas de vídeo, entre outras inovações. Uma RTX 3080 tem potência suficiente para executar alguns games com configurações máximas em 4K a 144 FPS, como Doom Eternal, Forza 4 e Wolfenstein Youngblood. Porém, outros, como Red Dead Redemption 2, Control e Borderlands 3, rodam em uma resolução mais próxima de 4K a 60 FPS com as configurações máximas.