随着2018年8月英伟达正式发布GeForce RTX系列显卡,高端显卡正式全面进入光线追踪效果的新一轮追逐。但在高昂的价格面前,不是每个玩家或者网吧业主愿意投入资金为尚需游戏支持的新技术买单。他们的要求可能很简单,吃鸡不卡,网游组队不掉帧,推得动高刷新率显示器即可。
是的,2000元价位段的甜点显卡需要一个更新,英伟达GeForce GTX 1660 Ti诞生的理由十分充足。
这一次,GeForce GTX也没有循规渐进的使用GTX 11系列的命名方式,而是直接跳到GTX 16系列,似乎在暗示性能跨度很大。英伟达也不再为GeForce GTX 1660 Ti制造Founders Edition版本,量产成行的七彩虹iGame GeForce GTX 1660 Ti Ultra 6G成为了首发测试的第一选择。那么GeForce GTX 1660 Ti表现究竟如何,爱活首发评测奉上。
在英伟达的官方定义中,这块七彩虹iGame GeForce GTX 1660 Ti Ultra 6G的TU116核心仍然属于图灵架构体系之内,并且为了与GeForce RTX划清界限,TU116内没有包含可用于深度学习超采样DLSS的Tensor Core,也没有用于支持光线追踪DXR的RT Core。
也就是说,TU116是建立在图灵架构基础上重新设计的一款GPU,它既不是TU106的阉割版,也不存在Tensor Core和RT Core被屏蔽的说法。从芯片面积上就能很轻松证明这一点。GeForce RTX 2060的TU106芯片面积为445mm² ,七彩虹iGame GeForce GTX 1660 Ti Ultra 6G的TU116芯片面积为有284mm² 。
顺带一提,上一代同等定位的GeForce GTX 1060芯片面积为200mm² ,采用的是台积电16nm制程。GeForce GTX 1660 Ti与TU104、TU106相同,使用12nm FFN,其中N表示专为英伟达定制。相对GTX 1060,GTX 1660 Ti芯片面积更大,线宽制程更小,因此GTX 1660塞进的晶体管也就越多,数量达到66亿个。相比之下GTX 1060为44亿个。
即便没有Tensor Core和RT Core,图灵架构的优势仍然得以体现。TU116有3个GPC(Graphics Processing Clusters,图形处理簇),每个GPC下包含4个TPC(Texture Processing Clusters,纹理处理簇),每个TPC下包含2个SM(Streaming Multiprocesor,流式多处理器),每个SM下包含64个CUDA Core。因此就有了12个TPC,24个SM,1536个CUDA Core的由来。
GeForce GTX 1660 Ti更新重点就在SM上。
图灵架构下,SM内的整数运算单元拥有自己专门的指令发射端口,这使得浮点运算单元和整数运算单元可以并行执行任务。混合精度计算的方式最早出现在英伟达Volta架构的计算显卡中,被应用于游戏同样也有着相当实际的意义。按照现在游戏着色器程序,平均每100条浮点指令,就会伴随38条整数流水指令和62条浮点流水指令。当两者并行执行,指令吞吐率就会升高,游戏速度自然得以提升。
举个例子,当上海通往北京的高铁只有一条,每次只能行驶一辆动车组,前往北京的和谐号和复兴号都需要排队,这就相当于GTX 1060上的浮点运算单元和整数运算单元依次排队的尴尬。这时候如果多修一条轨道,一条专门提供给和谐号运行,另一条专门提供给复兴号运行,客运效率加快。这就是GeForce GTX 1660 Ti的做法。
提升性能的手段远不止一条。例如TU116内置了FP16半精度浮点运算单元。近些年的游戏会大量运用到FP16单元解决不太需要高精度的画面特效,最直接的例子就是《孤岛惊魂5》的水面模拟。顺带一提,在GeForce RTX中不存在专门的FP16单元,这部分的处理工作由Tensor Core来接替。
再例如TU116中每个SM集成96KB SRAM,24个SM的SRAM总和为2306KB。SRAM可以被驱动程序或者开发人员定义分配成L1数据缓存或者Sared Memory。其中Sared Memory存在主要为了Thread Block内的CUDA Thread可以共享数据。
L1数据缓存可以根据情况被定义成32KB或者最大64KB,这意味着TU116中L1数据缓存总和可以达到1536KB,已经与L2缓存容量相当,随机数据存取性能相比帕斯卡架构大幅提升。
GTX 1060的GP106 L2缓存容量同样为1536KB,但TU116拥有6个32位GDDR6内存通道,总共192bit内存总线。GDDR6速率不仅比GDDR5快出40%,还更省电。GTX 1660 Ti内存带宽也因此达到288.1GB/s,比GTX 1060的192GB/s高出50%。
6个内存通道与8个ROP(光栅操作处理器)单元绑定,TU116也与GP106一样总共有48个ROP。
此外,图灵架构内的内存压缩引擎在帕斯卡架构基础上获得了升级。所谓内存压缩引擎,就是根据画面特征侦测结果使用不同的无损压缩算法,从而有技巧的降低帧缓存写入压力、减少内存、L2缓存以及纹理等用户单元的数据传输量。图灵架构在游戏中能比帕斯卡架构获得高出50%的有效带宽提升。
最后,TU116还有一招比率可变着色Varable Rate Shading,即VRS。
VRS会在一个游戏场景中给不同区域赋予不同的着色比率,因为在大多数情况中不是每一帧的每一个细节都需要独立着色。如下图所示,左侧代表不同着色比率的色彩示例,右侧代表画面中的不同色块代表了该区域使用的着色比率,只有1×1的部分会被独立着色,剩下部分会根据开发人员选择只渲染4个像素、16个像素或者其他非正方形像素比率。
这套技术针对平面游戏可以提供两套算法,分别是内容自适应着色Content Adaptive Sading和运动自适应着色Motion Adaptive。两者分别在内容和动态效果上,通过精确分割区域,用低分辨率和模糊版本替代,节省运算量。有兴趣的同学可以点击这里跳转到爱活的图灵架构浅析中进一步了解。
简单总结一下,GeForce GTX 1660 Ti的TU116,通过针对游戏的新算法、硬件单元、GDDR6内存,在TDP 120W和有限的资源下,让游戏运行效率更高。
要发表评论,您必须先登录。
同款显卡+1
同款显卡
炸裂
7nm AMD马上跟进
当年1060已经可以正面杠980了,1660只能杠到1070,都怪AMD
感觉到真香了,不错。
等GTX1660
没有GTX 10跨度那么大了
有没有DLSS?
没有,变成FP16了
1060强行延长233333,为什么1660 Ti这么长
有没有刀卡?
三风扇感觉没有什么太大必要啊
坐等1999元
感觉可以买了