[不仅仅是工艺提升——45nm架构微调、性能提高]
Intel Penryn 45nm处理器虽然在架构上与之前的酷睿处理器架构并没有什么差别,但是一些改良还是让新一代的Intel 45nm处理器有了更好的表现。
Intel Penryn 45nm处理器改良。在这里我先简单的介绍一下“Deep Power Down Technology”(深度休眠技术)。Penryn 45nm处理器加入全新高级电源管理休眠状态,可显著降低闲置期间处理器的功耗,并有效防止晶体管漏电情况。这种休眠状态就是Deep Power Down(C-6),才用该技术之后,处理器可以实时清楚一级缓存内的数据,在保存处理器微架构状态下,关闭内核和二级缓存。此时就算芯片组会继续进行数据传输,但是不会唤醒处理器。同时电压控制更加智能,只有在内核却是需要的时候,电压才会提高,而内核时钟和PPL才会额打开,并重置处理器,把缓存数据从内存中读回,此时处理器状态为全部恢复,并可以继续执行操作指令。
Intel给出的解释是,Deep Power Down模式相比于Enhanced Deeper Sleep模式,可以让电压再降低一倍,一级缓存关闭,处理器功耗进而减少最高可达75%,但是唤醒处理器的时间要比Enhanced Deeper Sleep模式多出越50%。
但是此时的问题就出现了,由于休眠深度越深,处理器唤醒的能耗损失也就提高,并且所花时间更大,为了弥补这个缺陷,Intel为Penryn 45nm处理器加入了更为先进的智能探测功能,可以更好的确定休眠时间和状态。如果智能探测技术发现目前不适合采用Deep Power Down模式,那么只会让处理器以Enhanced Deeper Sleep模式休眠。
Penryn 45nm处理器性能增强对比说明。
“增强高速缓存拆分负载功能(Split Load Cache Enhancement)”
在Intel的酷睿2双核心处理器设计中,每个独立的核心都有自己的二级缓存,Core微架构透过核心内部的“Shared Bus Router”来共享的二级缓存,例如当一个核心处理完数据并将其存放在二级缓存中时,另外一颗核心便可通过“Shared Bus Router”来读取另一个核心存放在二级缓存中的数据,这样的数据读取和交换速度要远远大于通过前端总线进行数据传递,而L2 & DCU Data Pre-fetchers及Deeper Write output缓冲存储器的采用更是加大了缓存的命中率,“Shared Bus Router”和“Bandwidth Adaptation”技术还分别优化了数据传输排程和共享前端总线时候的效率。这也是酷睿2架构具有优异性能的一大原因。虽然具有上述这些技术让酷睿2双核心架构具有强劲的性能,但是面对通过前端总线进行数据交换的四核心处理器来说,酷睿2架构的性能发挥却收到了很大的制约。
Penryn 45nm处理器的二级缓存 容量相比65nm的二级缓存增加了50%,双核心产品二级缓存 容量最大可达至6MB、四核心更是达到了12MB,Intel也是考虑到了四核心的一些限制问题,因此提升到了24路联合(24-way set Associative) ,令二级缓存命中率进一步提升,从而让性能获得更好表现。
此外,Penryn 45nm处理器加入了名为“增强高速缓存拆分负载功能(Split Load Cache Enhancement)”的全新技术。当需要数据读取时,如果数据位于两个不同的高速缓存当中时,将会对在高速缓存中的数据进行拆分,让一个高速缓存进行数据读取,其速度要高于数据在两个高速缓存中进行读取和处理要快上许多。该技术我们可以看成是酷睿2中高速智能缓存技术的增强版本。
Fast Radix-16 Divider快速Radix-16除法器
在原有的酷睿2处理器可以支持每个周期同时处理4个指令,并且重新使用了较高效率的14层“Pipeline Stages”。
Penryn 45nm处理器在原有的架构上对除法器进行了改良,Intel称其为“Fast Radix-16 Divider快速Radix-16除法器”。改良之后的除法器在运行科学计算、三维坐标转换和其他数学密集型运算的时候,会带来比原有高两倍的运算速度,并可以加速浮点和整数运算的速度。其重要原理就在于,通过Radix-16除法器的采用,使得当面对基数提升到16的运算时,该功能会每次运算出4位商值,将运算延迟缩短了一倍。
|