|
[不仅仅是工艺提升——超级流水线和SSE4.1]
Super Shuffle Engine超级流水线引擎:
Intel在酷睿2架构中加入128Bit-SIMD interger arithmetic及128bit SIMD双倍精准度Floating-Point Operations单元。旧有的处理器执行128Bit的SSE、SSE2及SSE3指令时,需要把指令分拆为2个64Bit指令,在2个频率周期完成,但Core微架构则只需要一个频率周期便能完成,执行效率提升了一倍。经过多年的推广,DDE指令集已经被目前的绘图、影音、压缩、加密、数学运算等应用所广泛采用,而单周期128Bit的处理器能力则有效的提高了运算效率。
Penryn 45nm处理器在这些方面也进行了改良,其加入全新Super Shuffle Engine(超级流水线引擎),可以让SSE指令更具效率的运行。以往在处理128Bit宽度的字节、字及Dword SSE数据时,是无法在一个周期内完成,而超级流水线引擎的加入可让这些不同性质的128Bit SSE指令,在1个周期内便可完成,减低延迟及吞吐量外。
SSE 4.1指令集
在Penryn 45nm处理器中,Intel加入了全新的SSE4.1指令集,SSE4指令集目前分为4.1和4.2两个版本。其增强指令主要针对向量绘图运算、3D游戏、视音频编码加速及协同处理加速方面。
Intel指出,加入的SSE4指令集让Penryn 45nm处理器增加了2个不同的32Bit向量整数乘法运算单元,并加入8位无符号 (Unsigned)最小值及最大值运算,以及16Bit 及32Bit 有符号 (Signed) 运算。在面对支持SSE4指令集的软件时,可以有效的改善编译器效率及提高向量化整数及单精度代码的运算能力。同时,SSE4改良插入、提取、寻找、离散、跨步负载及存储等动作,令向量运算进一步专门化。
SSE4还计入了六条浮点运算指令,支持单精度、双精度浮点运算及浮点产生操作,可立即转换其路径模式,大大减少延误,这些支持将会在3D游戏及对浮点运算能力非常敏感的领域起到积极的效果。
此外,SSE4指令集还加入了串流式负载指令,能够提升帧缓冲区的读取数据频宽,理论上可获取完整的快取缓存行,即每次读取64Bit而非8Bit,并可以将其保存在临时缓冲区内,让支持SSE4指令集的读取频宽效能提升最高至8倍。
|