冲着IDE RAID5和诱人的价格,这个月初去买了一块RAID卡,但是,真是有够多灾多难的。笔者陆续会把一些已遇到的问题先post出来,让想买的同志们在搭配其它硬件时能减少一些不必要的不愉快发生。目前已知的问题:
和WD的8MB buffer 80GB HD "某些型号完全不兼容":没错,是叫做完全不兼容。本人之前(2002.09)购入一个WD 8MB buffer 80GB HD,用的感觉还不错,于是在买卡后再"另外"买了三个WD 8MB buffer 80MB HD,为什么叫做另外购买?因为那一家卖的HD比较便宜。不啰嗦,回家后就马上想试四个同型号的WD 8MB 80G HD做Raid 5....
第一章:Raid卡和3+1个WD 8MB 80GB的第一次接触
Stage 1 :单卡测试依据使用手册的记载,SX4000插入PCI Slot后就应该能识别得到Mass storge device。嗯,偶的华硕CUR-DLS双socket 370 CPU Mainboard放在PCI 64 bit slot或PCI 32 bit slot都能正确识别到。
Stage 2 :单一硬盘测试part I把买卡时内附的排线接上卡的IDE 1,随手mount上旧的那个WD 8MB 80GB HD。嗯,一样能正确的识别到正确的型号和容量,看来好像都很正常ㄚ?!错了,再来才是无尽恶梦的开始。
Stage 3 :单一硬盘测试part II小心的打开三个新买的WD 8MB 80GB HD,换下原来的那个,放上新的HD....,IRQ error?可能是误判。关电源,把所有适配卡和HD再重插一次,再重开机,还是一样。可能是不小心买到坏的HD,换上第二个新的HD再试一次……又一样的error message。抓狂了,第三个再上……还是一样,一次买到三个新的HD同时坏的机会可能会中乐透头奖的机会有拼。
Stage 4 :单一硬盘测试part III一时兴起,把手上所有的HD都拿来试试看,有IBM 13GB,seagate酷鱼三20GB 7200rpm,Maxtor 5400rpm 20G,30G,Maxtor 7200 rpm 60GB,Maxtor液态7200rpm 80GB。每一个都有识别到正确的容量和型号,连原本那个同样型号旧的WD也有识别到,难道真的是买到三个新的坏硬盘?把这三个硬盘拿到Epox 8KTA上试试看,三个完全识别得到,甚至在OS也都能正确运行,这时心中唯一能想的到的是......打死偶都不会相信的事发生了,硬盘不兼容?
第二章:End User就该死吗?
为了这块Raid卡,从晚上七点被玩到早上,哼,摃上了,就给它撑到10点,找出华硕公司电话,客服人员请偶等他的回电……(过了10分钟..嗯,不错的客服效率....)华硕客服部门向偶说,也曾接过类似的案例,同样也是WD的HD。长这么大第一次听说硬盘会冲其它硬件的,搞不好明天连机箱(case)也会和OS冲突。
等了3个多小时,没有solution,嗯,End User就该死吗?当时偶仍坚持在现有的硬件下不愿变更,所以他建议向WD方面寻求解决方案。没办法了,看来只能试试看……山不转,路转,找代理商看看...(经过对方一番洗脑...)捷元客服人员认为硬盘不兼容只有firmware才会引起,而这种问题应该是"Raid卡的制造商要解决的,但他们愿意协助Raid卡的制造商解决" (再一次印证"踢皮球理论"是客服最高指导原则)
偶提出更换三个和偶那个旧的WD 8MB buffer 80GB HD同firmware的HD的请求,对方的回答是..抱歉,偶们的硬盘全部都是封死的,要一个一个打开找是不可能的.... (开始想象在仓库中一个一个打开的情形...hmm..应该是很爽) 搞了这种地步,看来偶还是真的没事找事做的样子,干么去买Raid卡和硬盘来玩自已?
看来只能尝试最后的方法,找Promise客服看看了……
第三章:来自Promise对WD HD的回应
(陈述完硬件配备和trouble状况后..) Promise客服人员:很有可能是Firmware"不兼容",不然偶给你最新的Firmware你试试看(前方突然亮起一道光芒..God say"主板要是不兼容,update BIOS通常可以解决,说不定你的问题就解决了..")
因为太累了,所以睡倒在计算机前..ZzZzZz...
隔天起床第一件事,try it out...update Raid Card BIOS...reboot....wait screen POST message(不,偶不相信,一定是起来还没洗手就按开机键....)Raid卡还是不想理偶的HD..天啊,真的注定偶和Raid5相冲突吗?再次向Promise求助。Promise客服人员……看来真的是Firmware的问题,但Release New BIOS要分送各相关硬件厂商,最少须要一个月以上,抱歉了。Raid卡是好的,HD也是好的,但Raid卡加HD却不能动,真的是不爽在心理却无可奈何……
第四章:更换硬件是唯一的解决方法
思索了很久,Raid卡和HD只能二选一,偶当然要Raid啦。十分不情愿的去换了Seagate 80GB HD三个回来(华硕拍胸脯保证Seagate绝对没问题),为什么会很不情愿?原因有二:一、因为数个月前偶的酷鱼III 20GB 7200rpm HD才刚举办过告别式;二、半年前买的那个Seagate酷鱼IV 60GB HD买来一个月中换了二次,还是一样会无故无法开机,只能拿来做存数据用,不能当开机用,所以有酷鱼恐惧症。
拿回家后还是乖乖的重复前面所述的那些测试。结果,每一个硬盘都能识别到。再插上四个……当从Raid BIOS出现Build Raid选项时,似乎一切的努力都是值得的。但是,王子和公主从此就过着幸福快乐的日子了吗?
第五章:操作系统Hang住
终于能Build Raid了,看了一下手册,依样画葫芦。四个80GB Build Raid 5 = (4-1)X 80GB = 240GB 被这块Raid卡整过,所以偶还是给他不断的reboot看是不是都能识别的到。最后,看来好像真的没问题了。接上上CDROM和Floppy,install 2000 server, hook上Driver,都顺利识别到Mass storge drivers,到了第一个欢迎安装xxxxx的画面,按Enter准备安装,画面显示正在侦测硬盘中……(有点久,过了一分钟还没侦测完)。
(外出去7-11买个饮料,心想回来就应该侦测完了..)
是侦测"完了"吗?一直停在同一个画面。手痒了,给它Reset再reboot,再重复安装步骤……真该去买乐透的。天啊,又中奖了。无法pass OS的侦测硬盘步骤
第六章:事情的真相只有一个
没办法,投降了,连络华硕分公司寻求解决。约时间带整组机器过去(因为偶把之前的60G升级成80G)。他们拿了一个Seagate酷鱼V 120G的来测,测试结果:同样的配备在华硕那里当然是出一样的问题。最后竟敢怀疑偶的HEC 350不够力,另外加了一个Power测,还是一样(致少证明问题点不是死在Power)什么?再来想怀疑偶的内存?本人的插在Raid卡上的Micron 256MB ECC PC-133 RAM个粒好说歹说也在ASUS测过有Pass的(http://taiwan.asus.com.tw/server/comimages/ramtype.gif)且Promise网站上也有写到有通过测试。哼,换上看起来不怎样的一般非ECC的Apacer SDRAM会有效吗?
真的有效!
事情的真相只有一个,该死的ECC RAM竟然和Promise一起唬吓偶。
第七章:再见了,偶亲爱的主板
回家后不小心踢到了东西,捡起来看一下。烂烂的NEC 256 RAMPC-133 CL=3(非ECC),加减用千辛万苦,克服了重重问题,终于建构起偶的私人File Server with Raid 5。基于十分戒慎恐惧的心理,拿来了一些测试软件,并来回长时间热机测试。3天连续开机跑测试软件保持不当机状态,看来是时候了。在workstation上mount上旧的HD,select all,30GB ctrl+C,ctrl+V……
想到早上起来就能把数据备份ok,爽度100%,面带微笑,终于可以好好的给他睡一觉了....ZzZzZz...
但是,事情真的有这么顺利吗?一早起来,一个大大的" X "在屏幕上,该死,之前收集的东西中有一些Hack Tool,被防毒程序挡下来,熟练的切换电子式切换器到Raid那台机器,系统Hang住了。按下reset,reboot ...不..不要...不要停~~~~
真的停了..真的..
零件一件一件拆下测试,除了主板,每一个零件都work正常。天啊,这是什么世界,这样也能挂掉一块主机版?!(这块主机版偶之前使用都是24小时不关机的,稳定度决对可信)怀着悲伤的心情,细心的用防静电袋把尸块..不..是遗骸..小心的收好……
后记:
配置列表:
MSI 694D pro(BIOS 1.9)
Intel 733EB X 2
Micron 512MB PC-133 RAM (ECC RAM,但是偶disable ECC)
TNT2 32MB Graphic Card
DLink 500TX NIC
Promise SX4000 Raid Card
Seagate酷鱼IV 80GB X 4
HEC 350W Power
目前这块Raid卡在偶的MSI 694D pro中正常的运作着,这块卡会挑PCI slot,请费点心调出一个适当的位置。(简单的测试法:放硬盘上去,build raid,如果重开机后BIOS设定没写入,那个slot就不能用),这块卡对ECC RAM很感冒,请用普通的SD RAM置入Raid卡上(Raid卡本身有XOR,加减用吧)这块MainBoard上的RAM ECC功能打开会无法by pass selftest(求神问卜中..)
|