RTX2080/RTX2080Ti显卡全面评测 RTX20系电脑显卡怎么样?(4)
四、架构解析之Tensor核心、AI加速
NVIDIA在伏特架构上引入了全新的专用处理模块Tensor Core,也就是张量计算核心,重点用来支持深度学习、高性能计算(也是晶体管大户)。
图灵架构则是在游戏卡上引入Tensor Core,同时针对游戏图形应用做了大量的调整优化,尤其是浮点精度方面。
Tensor的意思是张量,不同于我们常见的标量(零维)、矢量(一维)、矩阵(三维),拥有三维或者更高维度,简单地说就是一个数据容器,可以包含多个维度的数据。
现在火热的深度学习,就运用了超大规模的数据运算,其中就经常会用到矩阵融合乘加(FMA)运算,Tensor核心就是为这种矩阵数学运算专门服务的。
它可以对两个4×4 FP16浮点矩阵进行相乘操作,然后将结果加入到另一个4×4 FP16/FP32浮点矩阵中,最终输出新的4×4 FP16/FP32矩阵,这叫做混合精度数学运算,因为输入矩阵是半精度,结果则可以达到全精度。
每个时钟周期内,图灵架构的Tensor核心可以执行64个FMA运算,从而大大加速矩阵运算,可用于新的神经实时图形渲染、深度学习训练和推理。
图灵架构每个SM阵列里有8个Tenor核心,总计576个,完整支持114TFlops FP16浮点运算(每秒114万亿次),同时支持228TOPS INT8、455TOPS INT4整数运算(每秒228亿次、455亿次),后者是伏特架构里没有的。
NVIDIA把看起来高深莫测的Tensor核心放到游戏卡里,显然不是做专业运算的,其深度学习能力也是为游戏服务的,结合新的神经图形框架(Neural Graphics Framework),简称NGX,可以在游戏中实现DLSS深度学习超采样抗锯齿、AI Super Rez超级分辨率、AI Slow-Mo慢动作、AI InPainting等等。
这些计算繁琐、资源消耗巨大的操作,在以往也可以实现,但会付出很大的代价,效果也不尽如人意,如今有了新的Tensor核心,就可以建立属于GPU核心自己的DNN深度神经网络,将AI融入游戏。
NVIDIA已经向游戏引擎开放NGX API,将其融入其中,实现底层加速。
另外和很多AI应用类似,NVIDIA GeForce Experience软件的作用也非常重要,它会自动匹配显卡型号,从云端训练的AI模型哪里下载相应的NGX软件包,并定期更新,达到越用越好、甚至是因人而异的效果。
AI Super Rez:有点类似高清视频中常见的Up Scaling,但是引入了人工智能和深度学习之后,可以实现近乎“无损放大”,原来的画面分辨率放大2倍、4倍乃至8倍,仍然清晰锐利。
AI Slow-Mo:超级慢动作我们并不陌生,现在不少高端手机都支持240FPS、480FPS乃至是960FPS的慢动作视频录制。图灵架构可以对普通的30FPS视频进行智能插帧运算,得到240FPS/480FPS的慢动作视频,也就是说你不需要专门的高帧率摄像头,就可以获得很流畅的慢动作视频。
AI InPainting:可以抹掉画面中不需要的内容,也可以智能补全缺失的内容,完全超越PS抠图的存在。它同样来自现实中大量真实世界图片的训练推理。
其实,慢动作和修图这两项在之前就曾有相关报道,显然NVIDIA在硬件、算法两个方面都实现了真正的突破。
接下来就是重中之重的DLSS(深度学习超采样抗锯齿)。
我们知道,传统的光栅化图形渲染画面会存在各总各样的锯齿(狗牙),所以GPU厂商都会在后期处理中加入各种各样的AA抗锯齿技术,但传统抗锯齿都是由GPU去运算的,效果参差不齐不说,最关键的是会消耗大量的GPU资源,开启之后让游戏卡得没法玩再正常不过了。
DLSS深度采样超采样抗锯齿则和传统抗锯齿技术走了一条完全不同的路,它是在NVIDIA超级计算机上进行训练,而不再消耗GPU本身的资源。
针对每一款游戏,NVIDIA会在运算建立对应的训练神经网络,收集大量的64x超采样数据,对像素点进行64次偏移着色合成输出,理论上可以获得近乎完美的抗锯齿平滑效果,同时还会对比和普通渲染画面之间的差异,调整网络权重,反复迭代,最后获得更合理的抗锯齿画面效果,还可以避免传统TAA时间抗锯齿的运动模糊等问题。
云端训练完成后,NVIDIA会通过GFE软件将成果分发给玩家,再用到游戏中,而且随着游戏运行得越多,DLSS学习效果就会越来越优化,甚至每个玩家都可以得到属于自己的不同效果。
当然了,这也意味着NVIDIA需要和每一款游戏或者每一个游戏引擎合作,去进行专门的优化,还是相当费时费力的,不过考虑到NVIDIA在游戏行业广泛深入的合作关系,这方面倒不必担心。
尤其是随着合作优化的深入,NVIDIA完全可以建立起属于自己的技术壁垒,让对手望尘莫及,进一步带动大量玩家忠实地跟随NVIDIA。
更神奇的是,DLSS因为基本不需要消耗GPU本地资源,因此可以大大释放GPU性能,让其专心渲染游戏,提升性能。
比如根据官方数据,Epic的《渗透者》(Infiltrator)游戏里,4K分辨率下1080 Ti开启TAA平均帧率还不到40FPS,2080 Ti开启DLSS则能达到80FPS,提升了整整一倍!
游戏支持方面也不是啥大事儿,RTX 20系列发布之初就有16款游戏(PPT上写错了),现在产品还没完全上市就已经增加到25款。
首发名单如下:
- 《方舟:生存进化》 (Ark: Survival Evolved)
- 《原子之心》 (Atomic Heart)
- 《无畏》 (Dauntless)
- 《最终幻想XV》 (Final Fantasy XV)
- 《破碎之地》 (Fractured Lands)
- 《杀手2》 (Hitman 2)
- 《奈恩群岛》 (Islands of Nyne)
- 《逆水寒》 (Justice)
- 《剑网3》 (JX3)
- 《机甲战士5:雇佣兵》 (Mechwarrior 5:Mercenaries)
- 《绝地求生》 (PlayerUnknown’s Battlegrounds)
- 《遗迹:灰烬重生》 (Remnant: From the Ashes)
- 《英雄萨姆4:星球恶棍》 (Serious Sam 4: PlanetBadass)
- 《古墓丽影:暗影》 (Shadow of the Tomb Raider)
- 《锻造竞技场》 (The Forge Arena)
- 《少数幸运儿》 (We Happy Few)
新增名单如下:
- 《暗黑血统3》(Darksiders 3)
- 《飞向月球:财富》(Deliver Us The Moon: Fortuna)
- 《恐惧群狼》(Fear the Wolves)
- 《地狱之刃:塞娜的献祭》(Hellblade: Senua's Sacrifice)
- 《KINETIK》
- 《前哨零》(Outpost Zero)
- 《超杀:行尸走肉》(Overkill's The Walking Dead)
- 《人渣》(SCUM)
- 《风暴奇兵》(Stormdivers)
这其中有5款游戏同时支持RTX光线追踪和DLSS抗锯齿技术,分别是《原子之心》、《逆水寒》、《剑网3》、《机甲战士5:雇佣兵》、《古墓丽影:暗影》。