NVIDIA Ampere架构解析：相比上一代显卡性能翻倍

发布时间：2020-12-14 16:12:32 文章来源：中关村在线

当前位置：主页 > 数码 > 正文

持续了一个月的“显卡发布季”已经告一段落，截止目前NVIDIA发布了GeForceRTX3060 Ti/3070/3080/3090共4个型号的显卡，相比上一代显卡，RTX 30系显卡再次做到了性能翻倍的神话。

除了性能上的提升，新的NVIDIA Ampere架构还带来了第二代RT Core和第三代Tensor，虽然RTX 30系显卡拥有诸多提升，但价格却与上一代显卡相同。

在9月2日发布会当天，虽然过程仅有短短的40分钟，却震惊了全世界的用户。

算力提升

下面我们就来看看，“有史以来最伟大性能提升”相比上一代的NVIDIA Turing架构，做了哪些提升。

首先来简单回顾一下在9月2日发布会的PPT上我们都看到了什么，相较于初代的Turing RTX架构，NVIDIAAmpere架构在算力上有着成倍的增长，每个时钟执行2次着色器运算。

而Turing为1次，着色器性能达到30 TFLOPS单精度性能，而Turing为11TFLOPS。

NVIDIAAmpere架构翻倍了光线与三角形的相交吞吐量，RT Core达到58 RTTFLOPS，而Turing为34RT TFLOPS。

另外在全新的Tensor Core中，可自动识别并消除不太重要的DNN权重，处理稀疏网络的速率是Turing的两倍，算力高达238 TensorTFLOPS，而Turing为89 TensorTFLOPS。

全新的NVIDIAAmpere GPU核心拥有280亿个晶体管，628平方毫米的面积，基于三星的8nm NVIDIA定制工艺，来自美光的GDDR6X显存，以及我们上面说的，三大处理核心均为初代Turing的两倍速率，构成了有史以来性能最强大的Ampere。

SM单元的改变

而NVIDIAAmpere架构的强大性能并不是NVIDIA一蹴而就，可以说在20系显卡中所采用的Turing架构功不可没，下面我们先来看看完整的GA102核心。

完整的GA102 GPU包含7个GPC(图形处理集群)42个TPC(纹理处理集群)以及84个SM(流处理器)组成。

GPC是占据主导地位的高级模块，拥有所有的关键图形处理单元，每个GPC包含一个专用光栅引擎。

在新的NVIDIA Ampere架构中，每个GPC还包含了两个ROP分区，每个分区包含8个ROP单元。下面我们来看看每个SM单元的变化。

在每个SM中，包含四个大的处理分区共128个CUDA核心，4个第三代Tensor Core，1个第二代RT Core，1个256 KB的缓存文件，1个128 KB的L1缓存，这个L1缓存可以根据不同的工作需求来调配缓存，工作效率发挥至最大。

另外大家都知道本次RTX 3080的CUDA数量暴增至8704个，而RTX 3090的CUDA数量更是达到了惊人的10496个。

但是大家要知道专业计算卡Tesla A100的GA100核心，拥有更大的核心面积，更多的晶体管数量，理论上只有8192个CUDA，那RTX 3080又是如何达到这种效果的呢?

其实是因为本次NVIDIAAmpere的SM在Turing基础上增加了一倍的FP32运算单元，这就使得每个SM的FP32运算单元数量提高了一倍。

我们在发布会中经常听到性能翻倍的说法，其实是因为本次NVIDIAAmpere的SM在Turing基础上增加了一倍的FP32运算单元，这就使得每个SM的FP32运算单元数量提高了一倍，同时吞吐量也就变为了一倍。

而通常我们计算显卡的CUDA数量，并不是把SM中的所有单元加起来计数，而是只统计FP32单元的数量，所以这样一来，SM中的【FP32 : INT32】从 1:1 变为 2:1。

如RTX 3080的8704个CUDA，其实它只有4352个INT32单元，但由于内部的FP32数量翻了一倍，所以最终实现了8704这个惊人的数字。

而这样粗暴的提升CUDA数量对于游戏有帮助吗?

答案是有，不仅有提升还很大。其实通常在游戏中浮点运算相比整数计算要常用的多，图形、算法以及各种计算操作中着色器工作负载通常需要混合使用FP32算数指令，而FP32的加速也有助于光线追踪降噪着色器。

第二代RT Core

在此次的NVIDIAAmpere架构中，NVIDIA官方宣布为第二代RT Core，它和第一代有什么不同呢。

首先要知道RT Core的工作原理是，着色器发出光线追踪的请求，交给RT Core来处理，它将进行两种测试，分别为边界交叉测试(Box Intersection testing)和三角形交叉测试(Triangle Intersectiontesting)。

基于BVH算法来判断，如果是方形，那么就返回缩小范围继续测试，如果是三角形，则反馈结果进行渲染。

而光线追踪最耗时的正是求交计算，因此，要提升光线追踪性能，主要是对两种求交(BVH/三角形求交)进行加速。

在Turing的RT Core中，可以每个周期完成5次BVH遍历、4次BVH求交以及一次三角形求交，在第二代RT Core 里，NVIDIA增加了一个新的三角形位置插值模块以及一个的额外的三角形求交模块，这样做的目的是为了提升诸如运动模糊特效时候的光线追踪性能。

第二代RT Core可以让光线追踪与着色同时进行，进行的光线追踪越多，加速就越快，它将光线相交的处理性能提升了一倍，在渲染有动态模糊的影像时，按照NVIDIA自己的实测，比Turing快8倍。

第三代Tensor Core

除了光线追踪的强化，Ampere架构的Tensor Core也得到了极大地加强，在第三代Tensor Core中，NVIDIA引入了稀疏化加速，可自动识别并消除不太重要的DNN(深度神经网络)权重，同时依然能保持不错的精度。

首先原始的密集矩阵会经过训练，删除掉稀疏矩阵，再经过训练稀疏矩阵，从而实现稀疏优化，进而提高Tensor Core的性能。

所以最终的结果就是Tensor Core在处理稀疏网络的速率是Turing的两倍，算力高达238 TensorTFLOPS，而Turing为89 TensorTFLOPS。

RTX IO

与此次RTX 30系显卡一同发布的还有一项新技术——RTX IO。目前很多游戏动辄几十G甚至百G的安装空间，对于存储空间的负担暂且不提，但存放在硬盘中的数据，如果显卡想要读取到，需要先由CPU从硬盘中读取压缩过的数据，经过解压缩再发送到显存中。

虽然随着NVMe SSD的推出，读取速度相较机械硬盘能够快20倍，但受制于传统I/O限制，NVMe高达7GB/秒的高速读写对于CPU是极大的负担。

在这个过程中，会占用多个CPU核心，压力急剧增大，占用较多的内存，而此时其实GPU是处于闲置状态的。

RTX IO的作用就是越过CPU解压再传输数据这一步，直接从PCIE总线读取硬盘上经过压缩的数据，并且完成解压，降低CPU占用，变向提升了性能。

当然这项技术作为系统底层的运行方式改变，还需要借助微软发布的DirectStorage来实现，对于目前容量的游戏来说，RTX IO的改善效果有限，但假以时日等游戏容量上百G成为常态的时候，这项技术将会发挥巨大的功效。

最快的显存

在RTX 3080中，采用了GDDR6X显存，GDDR6X拥有320bit的位宽以及19Gbps的带宽速度，与采用GDDR6的Turing相比可提升40%的速度，在相同时间内GDDR6X可以比GDDR6传输多2倍的数据。

这对于需要大量数据负载的工作尤为重要，如光线追踪的游戏、AI学习和8K视频渲染。

同时搭配新增的HDMI2.1接口，可以支持单线8K的视频输出，而上一代HDMI2.0仅支持4K 98Hz的视频输出，如果想要连接8K电视，则需要更多的线缆支持。

相信了解RTX 30系显卡的性能后，会有玩家会问，RTX 20系显卡如此“短寿”算不算失败的一代，我认为不算。

Turing为我们开创了光线追踪和AI学习的新世界，奠定了GPU未来的发展方向，真正意义上实现从性能的堆砌到质的改变。

而Ampere则是站在巨人的肩膀，将上一代的路走的更宽更扎实。(作者：曲楠)

标签： NVIDIA Ampere架构

券商ETF（512000）盘中获巨额买盘！财信证2022-01-18

公募基金春节前集中发红包742亿元交银施2022-01-18

宁德时代涨4.22%，双创ETF(159780)接连6日2022-01-18

中浩紫云荣获“2021年中国产业互联网领军企2022-01-18

Redmi Note 11将进军欧洲市场搭载高通2022-01-18

realme Book增强版Air笔记本上架：2K超清2022-01-18

ROG枪神6配置曝光：2.5K分辨率+支持240Hz高刷2022-01-18

小米MIX 5配置曝光：4800万像素5倍光变镜头2022-01-18

OPPO首款平板电脑跑分曝光：6GB运行内存加持2022-01-18

20万存款可以保本理财吗？保本保息的理财方2022-01-18

企业贷款需要什么手续和条件？企业贷款条件2022-01-18

上市银行业绩纷纷报喜银行股的“春天”要2022-01-18

紫金矿业预盈156亿增长140% 建成我国最大2022-01-18

服务贸易稳中向好创新开放作用明显2022-01-18

消费潜力释放 2021年内需对经济增长的贡献2022-01-18

上半年面积同比增28% 支撑全年规模再创新高2022-01-18

商品房投资、销售年度规模再创新高单月同2022-01-18

2021年全国房地产开发投资增长4.4% 商品房2022-01-18

2021年房地产增加值同比增长5.2% 拉动整体2022-01-18

新特能源涨超12% 2021年多晶硅销量大幅增长2022-01-18

半小时10亿！又有明星基金产品遭"抢购"2022-01-18

美团高开高走一度涨超5% 最新市值1.38万亿2022-01-18

中国化学拉升封涨停 2021年营收同比增长25.22%2022-01-18

AI景气度势如破竹创新奇智已超额认购逾1.4倍2022-01-18

天赐材料跌破千亿市值股价创近半年新低2022-01-18

王振滔现身杭州，中国鞋王又启新篇章2022-01-18

餐饮股反弹！九毛九、海底捞股价上涨2022-01-18

2021年云南省累计新增减税降费153亿元增2022-01-18

央行下调政策利率 LPR大概率同步下调2022-01-18

利润大增东鹏饮料预计2021年归母净利润增2022-01-18

聚焦

经济

信用卡春节营销大戏开场红包、补贴齐上阵

国民经济持续恢复发展 2021年中国经济增长8.1%

中国自有品牌认知大幅提升市场总体增长22.7%

“虎元素”年货商品走俏市场商品成交额同比增长9.4倍

年夜饭预订火热半成品、预制菜成为“新宠”

首次突破6万亿美元关口！中国外贸强势开局

最近更新