北京时间8月14日早7点,在SIGGRPAH 2018上,NVIDIA公布了自己的最新显卡架构Turing,同时发布了首款基于Turing架构,并支持光线追踪的Quadro系列专业卡。目前,这张卡仅刚刚发布,并不知道这款Quadro系列的核心代号,但从NVIDIA公布的信息中依旧能管中窥豹。

大核心和GDDR6显存

Turing核心相比Pascal变大非常多,NVIDIA这里给出是与GP102(GTX TITAN XP P)的对比。整个核心的核心面积增大约60%,晶体管增加到18.6亿。

大核心有很多优点,例如散热好,布线方便。但有一个最大的缺点,良品率低。其原因是因为一块晶圆上切出的核心有限,大核心能切出的核心更少,而且其瑕疵几乎以伪平均出现时,大核心分到的瑕疵更多,自然报废的也更多。NVIDIA这次加大的核心面积,自然和其增加功能密不可分。

除了常规的视频解码升级,L2的改进之外。NVIDIA还在核心中放进了NVlink和RT core,并保留了Tensor core。RT core的主要用途是加速对于光线追踪的计算,它加速了一些主流的光线追踪算法(ray-triangle intersection checks and bounding volume hierarchy),最快每秒可以投射100亿条光线,和前代未加速的Pascal相比,性能提高25%。

新的Quadro并没有继承Volta架构的HBM2显存,而是使用了三星最新量产的GDDR6颗粒,其中,RTX 8000使用2G颗粒,并达成了最高48G的容量,其正反使用了24个颗粒。

在三星的新闻稿中,GDDR6显存相比20nm的GDDR5容量翻倍,同时速度达到14Gbps,传输速度56GB/s,提升了75%速度。同时还降低了35%的功耗,GDDR6的电压仅需1.35V。

面积增大,换用显存之后,整颗核心的CUDA部分达到了16TF的性能,相较上一代Volta GV100提升约1TF,但核心面积有所缩小7.5%。功耗方面,NVIDIA给出的是225W,远低于预计,在没有公布制程的情况下并不知道到底是制程还是架构带来的福利。

Turing的架构常规升级还有8K HEVC解码、VirualLink和Type C输出的支持。其中Type C不仅支持DP 1.4标准的图像传输,还支持10Gbps的数据传输,让一些一线通显示设备不再尴尬。

光线追踪

光线追踪是这一次发布会的重点,也是这次Quadro系列改为RTX前缀的原因。

光线追踪的目的是为了提供整个画面中更加准确的光反射显示,它的思路是确定一条光线的路线,其光路和视觉角度相反,以此得出符合现实规律的光照和反射。

这项技术提出非常早,在很久以前的电影特效和渲染中就以得到广泛的使用。但由于其复杂的特性和运算量,无法实时渲染。在DX10 中,微软就添加了相应的接口,在性能的逐步增加之后,部分游戏开始使用,但依旧不是整个画面全局使用,而是一小部分。实时光线追踪核心的引入,能让整个游戏画面看起来更真实。

NVIDIA并没有详细公布其光线追踪的细节,对于整个仍未成熟的业界来说非常大胆,也可以说是NVIDIA的一场豪赌,赌的是自己技术能成为未来光线追踪的主流,并且还想打击自己的竞争对手AMD。NVIDIA能不能成功我们并不知道,但是其战争已经打响。

NVLINK

相对于AMD的无桥交火CrossFile技术,NVIDIA的SLI技术一直不占优势,首先是需要实体连接2张或以上的显卡,其次需要专门的SLI芯片,而且从效率上也远远低于对方,NVIDIA也由此推出自己的NV LINK。这项多GPU连接技术首发于NVIDIA的计算平台Tesla上,NVIDIA将其折半阉割之后下放到了Quadro平台中。

和目前其他的双卡技术不同,NVLINK的速度更快,即双卡之间的显存可以互相访问,基本可以认为两张卡可以算作为一张卡。传统的双卡技术则很难同步,在需要显示游戏时是以AB帧交替来渲染,如果一张卡渲染延迟稍高,那么性能就会有损失。

在新架构中,NVIDIA使用了统一内存,新的架构能直接访问CPU内存,提高了整体的能效,减少了数据传输带来的延迟。依靠NVlink,能实现CPU和GPU的缓存一致性。

NVlink的研发借由OpenPOWER Foundation,NVIDIA只是其中一员,NVlink的技术也非常开放,可以用于很多大规模高性能平台的互相桥接和连接,减少中间带来的损耗。

在大核心单芯片,目前工艺的瓶颈下,NVIDIA选择重回双卡是不得以而为止。据传NVIDIA已经将其下放到Geforce系列,以将性能提高为4K 60Fps的准4k水平。未来,NVlink很有可能替代GPU到CPU的连接。

深度学习和游戏结合(DLAA/辅助光线追踪)

为了更好的利用光线追踪和Turing内置的Tensor core,NVIDIA推出了DLAA,即基于深度学习和神经网络的抗锯齿技术。

从得到的一些消息来看,几日之后发布的Geforce系游戏级显卡仍将采用Turing架构,并保持较为完整的核心规模。这也意味着新的GTX2080系显卡将第一次带着深度学习上市,这也是目前消费级领域前所未有的。

Tensor core是NVIDIA在volta时加入的一种特定运算加速硬件,通过使用特有的API,能达到10倍以上神经网络性能。NVIDIA也没有公布Turing上深度学习核心的详细信息,但从参数上来看,相较GV100来说有所提高。

游戏级显卡内置深度学习模块并不是为了让你学习AI,然后让你的模型跑的更快,而是有其他的目的,NVIDIA在发布会上就提出了2个适用领域,即DLAA和光线追踪辅助。这两个技术的目的都是一致,通过AI的辅助,提升整卡的运行效率。

通过DLAA深度学习抗锯齿,和适度AI学习及模型的配合下,其效果相比原有基于算法的FXAA、MSAA效果会更好,处理时间也更少。深度学习也能辅助光线追踪算法,剔除在某些场景和画面中不需要追踪的光线,以腾出性能来追踪那些决定画面关键的光线以提高表现力。这些改变让Turing在光线追踪并附加DLAA之后,图像处理速度依然笔Pascal快6倍。

NVIDIA计划将这些AI辅助图像的功能打包为一个SDK,并进行整合,以方便开发者的调用。

在未来,深度学习AI和游戏实时渲染整合是大势所趋。4K像素和特效全开,很多游戏都不能达到60Fps,但如果你使用1080P或720P,甚至可以轻松达到CG级甚至电影级画质,在经过实时AI后处理之后,依然可以在少量损失下达到”假4K“级别的分辨率。到底是追求像素还是画面的冲击力,成为了每个厂商需要思考的问题。目前的单芯片已经达到了瓶颈,多芯片互联的高成本和优化问题下,减少渲染部分总体积,加大AI面积,已经成为大势所趋。

不过由于极高的成本,AI和光线追踪核心并不会普及到所有产品线,有可能仅在70和80系以上作为试水,待一轮更新之后,再加入其中低端游戏显卡。

 

牛科技-科技创新媒体