NVIDIA RTX 3080首发评测 RTX IO技术实现“秒进游戏”

快科技
2021-01-15 17:49:29

一、前言：RTX 3080的到来和说好的完全不一样

3D图形卡领域的第一次革命是1999年NVIDIA公司推出的GeForce 256，它集成了T&L技术(硬件光影转换)，将光影处理从CPU中接手过来，解放了CPU的同时也极大的提高了游戏的性能以及画面的真实性。

T&L技术之后3D图形技术的另一次飞跃则是2006年的基于统一渲染构架的DX10。它将此前的Vertex Shader(顶点着色器)和Pixel Shader(像素着色器)统一为streaming processor(流处理器)，自此之后设计的GPU都不会再开辟独立的管线，而是所有的流处理器运算单元都可以任意处理任何一种Shader运算，使得GPU的运算效率得到了成倍的提升。

尔后10年，GPU领域没有突破性的技术出现，DX12属于雷声大雨点小，对性能的提升并没有想象中的那么美好，Physx则是曲高和寡。

直到2018年8月，实时光线追踪技术的出现，将3D游戏的画面推向了一个新的高度，玩家第一次在游戏中见到了如同科幻电影般的科幻电影般的光影世界。

图灵GPU发布之后，NVIDIA的市值一路飙升，甚至超越了Intel。财大气粗的老黄没有让我们等太久，仅仅二年的时间，NVIDIA再一次革新了GPU构架。

2020年9月4日发布的基于新一代Ampere安培架构的GeForce RTX 30系列显卡统一了INT32与FP32单元，原本只能做整数运算的INT32单元现在既能做整数运算，也能做单精度浮点运算。

这一项技术革新将传统意义上的流处理器数量直接翻倍，同时GPU的浮点运算能力也提升了一倍。于是我们就看到了RTX 3080的流处理器数量直接从RTX 2080的2954个暴增到了8704个，恍然间仿佛又回到了8800GTX时代。

完整的GA102共有7组GPC，每组GPC有12组SM单元外加16组ROP单元，总计是84组SM单元与112个ROP单元。

RTX 30系列显卡视乎规格不同启用的SM单元总数不同，RTX 3090是7组TPC、24组SM单元与112个ROP单元，RTX 3080是6组TPC、68组SM单元与96个ROP，RTX 3070是6组TPC、46组以及96个ROP。

这是GA102核心的SM单元构架，每个SM单元有64个INT32整数核心、64个FP32单精度浮点核心、2个FP64单元(未标示出来)、4个第三代TENSOR COREs以及以及1个第二代RT CORE。

这里的INT32单元可以根据需求进行单精度整数或者浮点运算，也就是说理论上一个SM单元可以拥有高达128个FP32单元。

融合了一级缓存与共享缓存，每SM单元中缓存总容量为128KB，可以按需灵活分配给一级缓存与共享缓存(Shared Memory)，可以是64KB+64KB的组合，也可以是32KB+96KB的组合。

此次NVIDIA一共发布了3款GA10X核心的显卡型号。

RTX 3090：拥有7组GPC，82组SM单元共计10496个流处理器、112个ROP、328个纹理单元、328个第三代Tensor Cores、82个第二代RT Cores。搭配24GB GDDR6X显存，显存频率19.5GHz、

位宽384Bit，带宽936GB/s。相比于Titan RTX快了50%，9月24日上市，售价11999元。

RTX 3080：拥有6组GPC，68组SM单元共计8704个流处理器、96个ROP、272个纹理单元、272个第三代Tensor Cores、68个第二代RT Cores。搭配10GB GDDR6X显存，显存频率19GHz、

位宽320Bit，带宽760GB/s。综合性能是RTX 2080的二倍，9月17日上市，售价5499元。

RTX 3070：GA104核心，拥有6组GPC，46组SM单元共计5888个流处理器、96个ROP、184个纹理单元、184个第三代Tensor Cores、46个第二代RT Cores。搭配8GB GDDR6显存，显存频率14GHz、位宽256Bit，带宽448GB/s。综合性能与RTX 2080 Ti但价格只有一半，10月份上市，售价3899元。

RTX3080 GPU-Z参数

RTX 3080的详细规格如下：

二、安培构架解析：流处理器数量翻倍是否言过其实?

在图灵诞生之前，GPU核心中并没有单独的INT32单元，从Kepler到Maxwell到再到Pascal,每一个CUDA核心都就是由FP32单元构成。

而Turing每一个CUDA核心除了有一个FP32的单精度浮点单元之外，还有对应有一个INT32的单精度整数单元。

在现代游戏(例如古墓丽影：暗影)中，每100条指令操作中有62条是浮点指令操作，38条是整数指令操作。以往GPU在只能单独、交替的执行浮点和整数运算，图灵构架加入了整数运算单元之后，可以与浮点单元一起并发执行，可以将流处理器的执行效率提升36%。

不过在游戏中整数运算量远远低于浮点运算量(38：62)，因此经常会有大量的INT32单元被闲置。为了解决这个问题，提升INT32单元的利用率，NVIDIA改进了INT32单元，使之不仅可以运行整数运算，也能进行单精度浮点运算。

如上图所示，在安培构架中，每个SM单元中的64个FP32单元依旧保留，而INT32单元则被赋予了更多的使命，它不仅能进行整数运算，但是在不需要进行整数运算的情况下，它也能和FP32一样进行单精度浮点运算。

也就是说，每个SM单元可以同时执行4x(16FP32+16FP32)=128个FP32运算，或者4x(16FP32+16INT32)=64个FP32+64个INT32运算。

在理想的情况将下，一个SM单元中的64个INT单元全部都做单精度浮点运算的话，那么流处理器(FP32单元)数量将会直接变成128个。相对而言，图灵构架一个SM单元只有固定的64个流处理器。

RTX 3080拥有68个SM单元，理论上能达到8704个流处理器的规模。很多同学可能怀疑NVIDIA在骗我们，这些流处理器是否能够同时工作还是个问号。

下面我们使用AIDA64 GPGPU进行验证，看看RTX 3080的8704个流处理器是否言过其实。

如果依据1710MHz的频率和8704个FP32单元来计算RTX 3080的理论浮点性能应当是29767GFLOPS。

实测RTX 3080的单精度浮点运算性能是29117GFLOPS，略低于理论值。这是因为320W TDP的限制，RTX 3080在进行GPGPU单精度浮点测试时，GPU核心的满载频率只有1672MHz并没有达到默频的1710MHz。

不过从这里可以看出，RTX 3080的的确确拥有8704个流处理器(FP32单元)，现在已经没有什么好质疑的了。

实测RTX 2080 Ti的单精度浮点运算性能是16626GFLOPS，接近RTX 3080的6成。

实际上，在进行GPGPU测试时，RTX 2080 Ti的运行频率达到了1910MHz，所以虽然流处理器数量只有一半，但是浮点性能却能达到6成。

RTX 2080在进行GPGPU测试时，运行频率更是高达1938MHz，单精度浮点运算性能达到了11416GFLOPS，约为RTX 3080的40%。要知道RTX 2080 2944个流处理器只相当于RTX 3080 8704个流处理器的1/3。

所以现在大家应该知道了RTX 3080 TDP如此之高的原因!即便是320W的TDP，也难以满足让8704个流处理器以较高的频率运行的功耗需求。

三、安培构架解析：RTX IO技术实现“秒进游戏”

多年以前，当笔者还在用机械硬盘的时候，想象着如果硬盘能像内存一样快，就可以秒进游戏，不用再等待漫长的加载了!

但实际上，可能很多同学已经发现了，从HDD升级到SSD之后，游戏的载入速度会有显著的提升。但是达到一个程度之后，无论是多快的SSD，都难以继续提升载入速度了。

这是因为游戏加载速度不仅仅只与SSD的读写速度有关，CPU的性能同样也是非常重要的影响因素。

索尼新一代的次世代主机PS5有一个卖点，凭借着读取速度高达5.5GB/s的高性能SSD，可以实现“秒进游戏功能”。

不过事实上，这里的秒进游戏是有限制的，它只是进入了游戏的菜单界面，并没有进入能够控制人物行动的游戏画面。并且实际上即便PS5的SSD读取速度再翻倍增长到10GB/s，也难以实现秒进游戏画面。

那么这是为什么呢?

传统的游戏数据，首先要从磁盘读取到内存。然而从硬盘复制过来的游戏数据包是无法直接使用的，需要CPU先将数据解包。特别是GPU要使用的时候，数据通过CPU解包之后再经由PCIe总线传递给显存。

当SSD速度足够快的时候，CPU解包速度就决定了游戏加载时间的长短。然而CPU只是一块通用处理器，进行专业计算时其运算性能极其有限。比如市面上常见的MMORPG以及电子竞技游戏，最强的i9-10900K处理器大概要经过10秒的运算才能完成全部的解包工作。

也就是说，即便使用超大容量DDR4内存做成虚拟硬盘，将整个游戏放入读写速度超过50GB/s的内存盘中进行读取，也需要10秒左右的时间才能完全进去游戏。

NVIDIA的RTX IO技术，可以让游戏在加载时完全规避CPU，数据包直接从SSD写入到GPU的显存中，由GPU替代CPU进行数据解包。GPU的整数/浮点性能数十倍于CPU，可以瞬间完成数据的解包工作。

此时若你当你配备了足够快速的SSD(比如Intel 905P)，就能实现秒进游戏的功能，从此不用再等待漫长的游戏加载过程。

RTX IO技术需要DirectStorage API的支持。根据微软的计划，DirectStorage在2021年会向游戏开发商递交开发预览，正式开始应用可能需要等到2022年。

四、安培构架解析：新的ROP单元、NVIDIA Reflex 、NVIDIA Broadcast

1、ROP单元的改变

也许很多同学不知道，以往的NVDIA GPU，ROP单元一直都是被集成在内存控制器中!

也就是说同样一颗GPU，如果位宽不变，只是阉割流处理器的话，它的ROP数量是不会变的。例如GTX 1080与GTX 1070同为GP104核心，位宽都是256Bit，所以他们的ROP数量都是64个。即便是GTX 1080有2560个流处理器，GTX 1070被阉割到了1920个也不会对ROP数量产生影响。

而同一颗GPU核心，如果阉割位宽的话，那么它的ROP数量相应地变少!例如GTX 1080 Ti与TITAN X Pascal同为GP102核心，TITAN X Pascal拥有完整的384Bit位宽，因而它的ROP数量也是完整的96个。而GTX 1080 Ti由于显存位宽被阉割到了352Bit，ROP数量也就减少到了88个。

从GA10x GPU开始，ROP单元正式成为了GPC的一部分，用于匹配流处理器，以改善抗锯齿性能。完整的GA102核心有7个GPC，每个GPC内置16个GPC，共112个ROP。

2、NVIDIA Reflex

游戏玩家，特别是网络游戏对延迟很敏感，这个延迟不仅仅跟网络、显卡性能有关，还跟系统有关，包括键鼠的输入延迟等。

NVIDIA Reflex就是一款可以降低延迟的工具，在支持该技术的游戏中，如《Apex英雄》、《使命召唤：战区》、《堡垒之夜》、《VALORANT》等热门电竞游戏，可将延迟降低50%。

此外，NVIDIA Reflex未来还会有个Reflex延迟分析器(Reflex Latency Analyzer)，它可监测鼠标点击，并测量屏幕上相应像素变化所需的时间，比如枪焰闪光，效果堪比超过7000美元的专用高速摄像机和设备。

3、NVIDIA Broadcast：游戏直播助手

如今游戏跟直播息息相关，NVIDIA Broadcast软件可以让游戏主播更加轻松省力，它通过显卡的AI加速实现了多种功能，比如噪音消除、虚拟背景、自动框显，从而提升麦克风和网络摄像头的效果。

关键词： NVIDIA RTX 3080

分享到: