![]() |
|
![]() |
||
● 如何设计最合理的游戏GPU
设计一款出色的GPU是NVIDIA和AMD创立以来坚持了十几年的目标,不过如何设计一款出色的游戏GPU,这的确是不小的挑战,特别是对NVIDIA这种要用一套GPU微架构兼容高性能计算和图形两条产品线的厂商来说,如果偏向了一方另外一方肯定要受到严重影响。
2009年末NVIDIA GTC大会黄仁勋先生展示Fermi
Fermi架构最大的亮点就是GPU计算,也正因为其GPU计算方面的优势,NVIDIA的Tesla产品线在2009年末得到了空前的飞跃式发展。Impress Watch网站知名IT评论人後藤弘茂称NVIDIA全新Fermi架构:是以处理器为目标进行设计的。因为你在Fermi身上可以看到以前GPU上从来没有的东西,包括更多的指令双发射、统一的L2全局缓存、64KB的可配置式L1或者Shared Memory、大量的原子操作单元等等。
不过初期过于重视高性能计算市场而忽略了Geforce产品线,所以我们看到第一代GF100核心背负了太多本不属于它的负担,高温高功耗成为用户对它的最大印象,所以NVIDIA在千元级市场上需要一款产品来证明自己的路线还是以游戏为主线的——GF104/114架构正是在这种情况下诞生。
负荷越来越重的光栅化过程
上图是一张游戏场景截图,复杂的场景模型和超级精细的光影效果让GPU不堪重负,在这种图形处理环境中,纵然一颗GPU单元拥有再强大不过的Shader流处理器,也无法应对传统光栅化过程对于固定单元的种种考核。所以我们看到GF100/110芯片拥有512个流处理器,而TMU等单元在应对游戏需求时略显不足,所以NVIDIA在GF104/114核心上做出了妥协。
GF100/110与GF104/114 SM对比
虽然NVIDIA在Fermi架构诞生之时不停地强调Shader的自由度需要更强大的计算能力做支撑,但是面对目前复杂而又略显失望的游戏编程环境,GF104/114还是做出了增加固定单元比重的决定——GF104/114单个SM的性能要强于GF100/110单个SM,同时GF104/114每个流处理器所享有的Dispatch Unit发射端、SFU超越处理器、Texture Unit纹理单元数量都提升了25%。
总体对比而言,我们可以看到GF104/114芯片上每个SM中CUDA Core数量和Texture Unit数量均有大幅增加,这都会增加SM的3D计算能力,从而让用户在游戏体验上获得更好的效果。不过相反每个CUDA Core和Texture Unit分得的各类Cache有所减少,这应该是NVIDIA GPU架构工程师在性能、晶体管平衡取舍上得出的比例。