The Past――过去
微处理器被誉为20世纪最伟大的发明之一。在20世纪的终点,微处理器的发展速度更是达到了前所未有的程度。Intel坚信,广泛的软件支持是硬件厂商得以生存的基础;而良好的硬件兼容性提供了广阔的选择软件的空间。没有人能够否认Intel的处理器架构是当今主流PC的标准。那么就让我们追溯Intel的脚印,回到16位甚至更早的处理器时代,看看这个巨人的历程。
也许很少有人知道,我们现在处理器的鼻祖只是一个小小计算器的“大脑”。早在1971年,Intel公司推出了第一款微处理器――4004。这一创举开始了人类将智能内嵌于电脑和无生命设备的历程。续4004芯片之后Intel于1972年推出了8008芯片,顾名思义8008的性能达到了4004的2倍。但是,第一块真正的处理器是诞生在1974年的8080,采用8080的电脑很快流行开来,也为Intel日后的发展打下了基础。几年之内比8080更新一代的产品8086处理器和8088处理器相继面市。8086采用16位通用目标寄存器、16位数据总线以及20位地址总线,支持1MB系统内存,内含29 000个晶体管。8088处理器和8086大同小异,只不过地址数据总线宽度小一半。
1982年,Intel推出了我们现在无比熟悉的x86体系结构,直到今天,x86体系结构仍然是大多数Intel处理器的基础部分。80286是第一款基于x86体系结构的处理器。工程师们引入了“保护模式”这一充满活力的概念。在这一模式下,分段寄存器的内容指向描述符表,提供24bit地址总线,即16MB寻址能力。3年之后,80386微处理器再度将人们的目光聚焦在Intel身上。它是第一块32位IA-32处理器,其架构包含32位通用目标寄存器,为地址存储与操作共用。在32bit地址总线的支持下,80386可以对高达4GB容量的内存进行寻址。自此开始,32位指令系统的硬件基础也已逐渐确立起来。80486最初出现在1989年,80486是将80386和数学协处理器80387以及一个8KB的高速缓存集成在一个芯片内。并且在80X86系列中首次采用了RISC(精简指令集)技术,可以在一个时钟周期内执行一条指令。它还采用了突发总线方
式,大大提高了与内存的数据交换速度。
1993年是令人难忘的一年,Intel的第一款Pentium(奔腾)处理器上市。Pentium是Intel家族中最早采用超标量结构的处理器。Pentium带有2条独立的处理管线,每周期执行2条指令。与80486相比,奔腾的一级缓存大了一倍,指令、数据缓存各占一半;其数据缓存因为采用了回写方式,大大提高了数据调度效率。从奔腾75开始,CPU的插座技术也正式从以前的Socket4转换到同时支持Socket 5和Socket7,其中Socket 7还一直沿用至今。1996年面市的Pentium MMX(多能奔腾)是Pentium的升级版本。MMX技术是Intel一项多媒体增强指令集技术,可以翻译成“多媒体扩展指令集”。MMX是Intel公司在1996年为增强Pentium在音像、图形和通信应用方面而采取的新技术,增加了57条MMX指令。因此MMX CPU比普通CPU在运行含有MMX指令的程序时,处理多媒体的能力提高了60%左右。MMX技术开创了CPU开发的新纪元。
1995年,带有3条独立管线的P6系列正式发布。最早面世的是Pentium Pro(高能奔腾)系列。P6系列与原有芯片最大的区别在于:它不是直接处理x86指令,而是将x86指令转换成类似RISC指令的内部指令再执行。该内部指令叫做“微码”。这种方式解除了一些长久桎梏x86处理器的问题,比如乱序编码、整数传输“注册内存”、以及直接操作数长短不一的问题。地址总线拓宽到36位,支持64GB内存寻址。Pentium Pro最引人注目的地方是它具有一项称为“动态执行”的创新技术,这是继Pentium在超标量体系结构上实现实破之后的又一次飞跃。
1997年5月,Intel又推出了PentiumⅡ处理器。Intel将750万个晶体管压缩到一个203平方毫米的印模上。在接口技术方面,为了击垮Intel的竞争对手,以及获得更大的内部总线带宽,PentiumⅡ首次采用了最新的slot1接口标准,它不再用陶瓷封装,而是采用了一块带塑料外壳的印刷电路板,该印刷电路板不但集成了处理器部件,而且还包括32KB的一级缓存。Celeron可以说是Intel为抢占低端市场而专门推出的。Intel把Pentium Ⅱ的二级缓存和相关电路抽离出来,再把塑料盒子也去掉,再改一个名字,这就是Celeron,中文名称为“赛扬”。Celeron还有一个“变形”的兄弟――Socket 370 Celeron,Socket 370 CPU插槽外观上和Socket 7差不多,只不过Socket 7有321个Pin脚,而Socket 370有370个Pin脚。一年半以前Pentium Ⅲ作为Intel的旗舰产品重拳出击,接口结构为Slot1和Socket 370。Pentium Ⅲ依然沿用了P6的系统架构,这一年P6已经4岁了。Pentium Ⅲ最大的技术创新就是增加了互联网SSE指令集,芯片增加了70条SSE指令,极大地提高了电脑在高级图形、三维动画、视频、音频等方面的性能。
下面要说到的就是我们的主人公了。2000年11月21日,Intel 在全球同步发布了其最新一代的微处理器――Pentium4(奔腾4)。Pentium4处理器原始代号为 Willamette,采用0.18微米铝导线工艺,配合低温半导体介质(Low-Kdiclcctric)技术制成,是一颗具有超级深层次管线化架构的处理器。它是目前Intel公司技术最先进功能最强大的CPU,它基于Intel的NetBurst微型架构。强大的性能足以应付各种应用领域。这些应用领域包括网络广播、网络视频流、图片处理、视频剪辑、语音、3D、CSD、游戏、多媒体、多任务环境。但是P4的性能究竟如何?还是看我们这次的测试吧。
Present――现在
我们在第一时间里得到了Intel送测的P4样机,处理器采用了P4 1.5G,256M SAMSUNG PC-800的RDRAM,Intel D850GB主板,显卡是ELSA GeForce2 Ultra 64MB,Creative Sound Blaster Live!的声卡,IBM Deskstar 75GXP 30 GB硬盘。这台超级PC的配置看的我直掉口水,但是在我们开始进行测试之前,还是让我们先来看看P4所采用的新技术吧。
技术革新
Intel NetBurst微型架构:沿用了多年的P6架构被P4的Intel NetBurst微型架构代替,NetBurst微型架构不仅采用了包括400MHz系统总线、高速缓存读取、高级动态执行在内的大量新技术,还有高速缓存、快速执行引擎、浮点和多媒体单元改进、数据流单指令多数据扩展2(SSE2)等多种新性能。
超级流水线技术:与PⅢ相比,P4处理器将流水线的深度增加了一倍。其中的关键技术,预览/恢复分支达到了20级,而这一指标在PⅢ中只有10级。这项技术意味着处理器整体性能、频率和适应性的飞跃。
400MHz系统总线:P4的总线速度为100MHz,但是Intel采用了QDR技术,通过同时传输4条不同的64位数据流来达到400MHz,所以芯片组与CPU之间的总线带宽将达到3.2G/S,而且芯片组与内存之间的带宽也可以达到3.2G/s。
高速执行缓存:为了增加8KB的数据缓存,P4包含了一个执行跟踪缓存,可存储12K的微指令以帮助程序执行。这些指令不在主程序循环中执行,不被存储,从而大大提高了系统性能。
快速执行引擎:算术逻辑单元(ALU)以双倍的时钟速度运行,这让类似于加、减、逻辑与、逻辑或等基本运算的执行只用了1/2时钟。例如,1.5GHz的快速执行引擎其实是以3GHz在运算。
256KB的高速缓存:高速缓存2代(ATC)让数据能够更快地吞吐于缓存与CPU之间。它在一个时钟可以完成256位的数据交换。因此1.50MHz的数据可以48GB/s的速度传输。而相比较起来,1GHz的PⅢ处理器数据传输速度只能达到16GB/s。
ATC的性能包括:
非时钟的全速二代传输水平
8路集合设置
256位数据总线
每一时钟周期的数据吞吐
高级动态执行:高级动态执行是控制CPU执行顺序的动态单元。P4可以发出126条动态指令,使流水线完成48次载入和24次存储。与前一代的PⅢ处理器相比,它能够增加33%的预处理速度,还可以在缓存中存储更多的历史信息从而快速取出。
改进的浮点数运算和多媒体单元:P4的128位运算动态增加了运算单元,使得浮点数运算和多媒体表现都得到了较大的改进。
网络数据流单指令多数据扩展2(SSE2):通过增加的144条新指令,SSE2具有更强多媒体增强指令和数据流单指令。这些特性包括一个128位单指令多数据整数运算和128位单指令多数据双精度浮点指令,这些指令减少了原有的指令执行数量,大大增加了执行速度。使得用户的视频、音频、图象处理、加密、财政、工程和科学应用都极大增强。SSE2可以提高多媒体的执行效率,特别是DVD/MP3/MPEG4的回放,可以最大效果地体现P4新指令集的威力。
Pentium 4要实现优异的FPU性能,必须对浮点密集应用进行SSE1或SSE2优化,否则只能提供普普通通的浮点性能,正Linpack 浮点测试结果所示。请特别注意256kB前的浮点性能,Pentium 4和Athlon都将L1或L2 Cache集成到在管芯上,因此具有最低时延和充分的带宽。Pentium 4充分发挥了双通道RDRAM双倍带宽的优势。
整数性能应该是Pentium 4的强项。天才的双频ALU设计,快速执行引擎,尤其考虑到126个upos的动态指令窗口和新访问算法的L1数据Cache,是迄今最强有力的整数执行引擎。然而,由于追踪Cache每时钟周期仅能发射3条指令,限制了Pentium 4每时钟周期仅能支撑3条整数指令。在运行单纯整数测试的CPUmark评价Pentiun 4时,所有的整数处理能力似乎都消失了。
外观点评
P4处理器采用了三层的封装设计,包括一层导热金属层,一层有机物质封装基板及一层绿色的料胶封装基板,其中主芯片被包裹在导热金属层中,而绿色的料胶封装基板主要是负责连接主芯片的接点并与基板的针脚做连接。P4采用的是 Socket423 接口,较Socket 370多出的53的针脚将用于最新的SSE2指令集。其内部拥有3400万颗晶体管,晶体管的总面积约为171平方毫米。与此同时,我们也发现,P4管线和电路的切分上都做得十分细微,这将有助于整体频率及性能的提升,但也存在一个很严重的缺点:对于并非大量且密集化的整数/浮点运算,以及运行条件式分歧、判断的程序代码流程时,其指令在管线的延迟将被拉长,从而拖慢整个系统的运算速度。
在P4金属壳的右下角有一个小洞,这是放入冷媒的地方,我们在安装CPU风扇时,向这个小孔中加入一定量的冷媒,可以有效地增加散热效果,但是现在还不知道P4具体使用的是何种冷媒,当然不用冷媒应该也是可以运行的。
针脚方面,PⅢ的CPU插脚中两边的角上排列成了两个小的三角形,但是P4中取消了这些,取而代之的是每边不同的插脚数,以此来判断CPU的安装方向。但是这样的判断方式似乎还不如PⅢ。
P4的起始频率为1.4G和1.5G,制造工艺仍然是0 .18微米铝导线连接技术。高的主频让处理器的功耗加大,P4 1.4G的功耗达到了55W之高。所以Intel为P4准备了这块硕大的的散热片,并且将其牢牢地固定在了主板上。风扇的功率也达到了1.7A,远远大于普通风扇的1.1A和1.2A。
PC-800的RDRAM应该是Pentium 4的最佳组合了,但是PC-600的RDRAM也可以正常工作。明年Intel将推出支持DDR的P4芯片组。我们在评测中使用的是256M SAMSUNG原厂RDRAM内存条。
与P4搭配的是Intel的850芯片组,我们拿到的这块是Intel原厂的D850GB (“GB”在这里的意思是Garibaldi构架,Garibaldi基于ATX构架,但是也能够使用WTX构架的机箱)。D850GB主板采用的是Intel i850芯片组。北桥芯片是KC82850,封装方式是FC-BGA(Flip Clip Ball Grid Array,反转芯片球栅矩阵),上面加上了一块散热片进行散热,可见功耗应该不小。其功能是提供传输率高达3.2GB/sec的400MHz FSB,超过1GB/sec带宽的4×AGP总线,以及控制带宽为3.2GB/sec的双通道RDRAM。南桥芯片是FW82801BA,芯片上面也有“SECRET”字样,该芯片支持UltraDMA 33/66/100,支持6个PCI主控设备槽,能提供4个USB端口,并内建以太网Base1000卡,支持家庭网络功能HomePNA,更支持6声道输出以及SoftModem。不过Intel D850GB只带有5个PCI插槽和一个CNR槽。南北桥之间以266M/s的高速进行数据交换。
由于P4耗电惊人,所以P4的系统使用的主板被设计为电源的12V电压(ATX12),通过一个4脚的插座和3.3V、5V一起供给主板,另外还在20针电源接口的旁边另加了一个6针的辅助电源接口。
测试
系统硬件平台
Pentium4 1.5GHz Socket-423 (8k L1, 256k L2 )
256M SAMSUNG PC-800 45ns RDRAM
Intel D850GB主板
GeForce2 Ultra 64MB(核心/显存 250/460MHz)
Creative Sound Blaster Live!
IBM Deskstar 75GXP 30 GB,7200rpm,2MB缓存
系统软件平台
Windows 2000 Professional SP1
DirectX 8正式版
ZD WinBench2000
Video2000
WebMark 2001
eJay MP3 Plus 1.3
Quake Ⅲ Arena
在测试的同时,我们使用了一块PⅢ 1GHz处理器的测试数据作为对比标准。使用的是Intel i815E主板和256M PC-133内存,其余配置相同。
测试报告
我们先使用了Sisoft Sandra 2001来看一下P4处理器在整数、浮点以及内存应用方面的性能。同时,Sisoft Sandra 2001还给出了P4 1.5GHz处理器、Athlon 1GHz和PⅢ 1GHz的官方数据,方便我们进行对比。
更高的主频使处理器的性能提高不少。
多媒体测试中,由于SSE2指令集的支持,浮点运算方面相当强劲。
RDRAM的带宽比SDRAM优势十分明显,性能高出了SDRAM近三倍。
整个测试过程非常顺利,未出现任何不兼容的现象。DirectX 8已经提供了对P4的支持,但是目前有些测试软件并没有完全支持P4,我们尽量选用支持P4的软件进行测试,应该可以较为真实地反映出P4的性能。
Content Creation Winstone 2000是ZDNet推出的CPU测试软件,可以综合测试一块CPU的应用性能。主要测试CPU进行图形处理、多媒体设计等方面的性能。
WinBench 2000想必大家都已经非常熟悉了,同样是ZDNet的产品,是目前应用最广泛的测试软件。我们这次测试的是CPU的CPUmark和FPUmark项。
3D WinBench 2000 Processor Test测试的是CPU的3D处理能力,在对3D处理需求日益增多的今天这项测试是必不可少的。
在Quake Ⅲ Arena中,CPU主要负责的是光影方面的运算。在测试中我们把分辨率设为640×480,采用32位色彩模式,使显卡不会成为系统的瓶颈,从而完全测试CPU在游戏中的3D处理性能。
P4处理器特别强调了其在音频和视频处理方面应用性能的加强,所以我们使用了Video2000和eJay MP3(压缩一段74分钟的CD音乐)分别对P4的音频解码和视频压缩性能做了测试。
在Winstone 2000和WinBench 2000中P4 1.5G的得分比PⅢ 1G提高有限,我们得到的大多数测试数据中都比较明显地显示出这个问题。但是在3D方面的测试和游戏测试,以及音频、视频处理方面,P4 1.5G的优势相对PⅢ 1G就比较明显了,性能的提升让我们非常满意。特别是在音频、视频处理方面,P4增加的SSE2指令集令P4 1.5G的性能相对于PⅢ 1G分别提高了26%和23%。出色的性能足以满足目前所有多媒体方面的应用。
The Future――将来
P4在性能方面确实有了一定的提高,特别是在多媒体应用上更是有了长足的进步。搭配RDRAM以后整体性能必然会优于PⅢ加SDRAM。但是P4的价格并不那么平易近人,所配合的RDRAM也不是一般用户可以享受得起的。目前限制P4发展的最大因素就是价格。而AMD虽然没有推出与P4同级别的处理器,但是它却抓住了大多数用户的钱包,以较低廉的价格提供给(下转44页)(上接36页)用户中等偏上的性能。
在市场方面,P4在短期内绝不会取代PⅢ的主导地位,虽然Intel推出P4时对它的市场定位是在中低端的商业用户,但是因为价格以及配套主板、内存等各方面原因,PⅢ的性能足以应付目前的大多数应用,所以PⅢ依然是市场中的主流产品。另一方面,Intel的竞争对手们也绝对不会善罢甘休,AMD绝不会眼睁睁地看着自己刚刚占据的市场又被P4轻松抢走。在目前看来,要达到Intel预期的目标还要多等待一段时间。
在半导体领域中,明天来得总是很快。半导体生产技术总是能在很短的时间内随着加工方法的改进完成一次又一次的超越。我还清楚地记得十年以前,集成电路的生产最尖端的技术是1微米或者是0.8微米。但那时谁又能想到现在集成电路的厂商已经能制造0.18微米的部件,甚至在不久以后就会有0.13微米或0.10微米的生产技术出现。同样,几年前我们也不能想象,现在芯片的速度居然会到1500MHz。所以,当我拿到这块来自于Intel最新技术的产物时,我的心情是无比激动的。但是,我也相信永远没有最好,只有更好。AMD面对Intel的大举反攻必然会有相应的举措,更精彩的场面很快就会出现,让我们拭目以待吧。(晶合实验室)
|