中国只承担了1%的人类基因组测试任务,即便如此,研究中心满载了32个CPU的超级计算机就已经“超级疲惫”了。全球功能最强大的计算机也不能满足基因时代的计算需求,但在好不容易取得基因研究领先地位的中国,这一问题尤为突出。有关专家为此惊呼――
计算机拖了基因研究的后腿
换上防尘鞋,换上白大褂。我几乎是屏住呼吸,走进位于机场路附近的华大基因研究中心的计算机中心。就是这里处理了中国分担的1%人类基因组测序任务所产生的巨量信息,就是这里藏着中国为数极少的曙光2000巨型计算机。
它们就矗立在我的眼前,每台有近两米高,一米多宽,和对面摆放着的普通台式机一比,显得像芸芸众生中的恐龙。
曙光2000不堪重负
2月12日,人类基因组图谱正式公布以后,作为中国基因测序的主要基地,华大基因研究中心成了焦点。笔者来到了华大。
“中国人距离生命科学的世界前沿有多远?从此向西十米向左看吧!”
在三楼,首先看到的是写在墙上的这一行字。向西十米,向左看,是一排排的基因测序仪,就是这些机器,承担了中国的人类基因组的测序任务。然而,这并不是我此行的重点,我的重点是再往西十米的生物信息中心。
就是这里,每天把基因测序所产生的超巨量信息用巨型计算机进行处理、分析,把有用的信息反馈给生物学家,以研究哪些基因可造福于人类。
站在巨大的曙光2000旁边,华大信息中心副主管孙健冬告诉笔者,因为要处理基因测序所产生的非常巨量的信息,生物信息中心要使用高性能的计算机,这些计算机必须有几个特点:运算速度要快、内存容量要大、存储量更要大。信息中心一天信息产出的量就有20G?这个数据令人振奋,在国外基因研究中最领先的塞莱拉公司,其日数据产生量也不过如此。?,这20G的原始数据如果再被拼接、处理的话,整个量是极其惊人的。如果拿现在市场上最好的75G容量硬盘的PC机与之相比较的话,一台75GPC仅仅只能装这里一天的信息量。
由于曙光2000计算机已超负荷运转,不能胜任。华大又订购了最新的曙光3000计算机,在3月20日将要运到。它的硬盘将是2T(2000G),相当于200台普通PC的容量,而这也顶不了多少,信息中心跟生产者提的要求是20T才是理想配置。
对于内存来说,曙光2000一共有四个节点,每个节点带2G的内存,一共是16G内存(16000兆),而目前市场上很高档的PC的内存也就256兆而已。曙光2000的峰值运算速度是3000亿次/秒。
曙光2000的造价是2500万人民币,曙光3000更贵,而且全国只有三台,华大一下子就订购了其中的两台。孙健冬介绍说,曙光2000在其他领域可能会运转得很正常,但在华大已经是不堪重负,不得不升级到曙光3000。
用国产计算机一举两得
其实,华大选购高性能计算机的范围并不局限在国内,但他们仍旧选择了曙光2000、3000。孙健冬说:“正因为曙光计算机的出现,某些国家才放宽了对华计算机出口的限制。在此前,中国想进口比曙光还差一点的高性能计算机都很难。”
曙光2000满载CPU是32个,在它出现以后,康柏、SUN才向我国出口满载50个CPU的高性能计算机。而在2月17日推出的曙光3000,将至少装载64个CPU。在价格上,与进口的同配置高性能计算机相比,国产的要便宜很多。
由于生物信息学是一个新兴的信息学与生物学相交叉的学科,孙健冬和他的同事们在使用高性能计算机时发现了许多新的问题,他说:“无论是进口的还是国产的计算机,在基因产业里都会有很多问题出现。因为在机器开发的时候并不是为基因产业定制的,这也是我们用国产的曙光计算机的原因之一。
正因为高性能计算机在我们的研究中会遇到许多新的问题,所以我们才选择曙光。有新的问题就有新的改进,这也是两个产业很好的结合。”
基因研究为IT业带来巨大商机
目前,在基因研究中,包括曙光2000在内的国产高性能商用计算机实际上和国外最先进的同类机器差距还是很大的。首先,曙光几乎所有硬件都是来自进口,尤其是CPU等关键部位。要弥补这个差距,还要依靠“中国芯”产业的迅速发展。而具体到生命信息学领域,国外的IT行业已经做了比较大的专项投入,比如现在康柏特意为生物基因的某一个算法定制了专门的高性能计算机,它的所有的运算程序都整合在硬件里面,运算速度非常快。IBM公司也生产了名为blue gene的高性能计算机。而在中国的IT业,该领域的研究似乎还是个空白。
长此以往的话,中国在世界基因研究中的领先地位很可能会被IT业的落后状况所拖累。
在国外IT企业中,在人类基因组工程的竞争中居于领先地位的是康柏公司。这是因为康柏投入的早,也投入的大。自90年代初人类基因工程启动以来,康柏一直在为各研究机构提供各种工具,用以处理对32亿个碱基进行解码所必需的数量惊人的数据。完成人类基因草图绘制的三个重要参与者塞莱拉公司、Sanger中心、怀特研究院都无一例外选择了康柏作为惟一的IT合作伙伴。塞莱拉公司负责IT基础设施的副总裁Marshall说:“为什么我们使用康柏运行Tru64 Unix的Alpha系统?答案很简单:我们准备了一个基准测试,把它交给了所有的厂商。只有两家能运行它,其中一家花了87小时,而康柏只用了7小时。”
据预测,在未来,世界范围内的基因研究机构年收入增长将高达100%,而在信息技术上花费将与之齐平甚至超过。这将是多么巨大的一个商机!
而实际上,在全球范围内,即使如今最强大的超级计算机也不能满足基因时代的计算需求。据估算,人类每一百万个DNA基因中,只有十二个真正的基因。在上百万个鱼龙混杂的DNA中寻找十二个真正的基因,其难度可想而知,这项艰巨的工作对于目前的计算机软硬件来说实在是个“难以完成的任务”。正因为如此,人类基因组计划与曼哈顿原子计划、阿波罗登月计划一起被并称为人类科学史上的重大工程。
针对人类基因研究这个“难以完成的任务”,美国能源部一举联合了生物信息领域、高性能计算领域和巨型并行系统领域的三个领导者Sandia国家实验室、Celera基因中心和康柏电脑公司来应对基因时代对计算机的挑战。三方签署了一项联合研究与开发协议,以开发新一代专门为满足生物计算与全部生命科学应用需求而设计的软件与计算机硬件解决方案。这项研究将首先实现每秒100万亿次运算的目标,最终将可能实现每秒千万亿次运算(目前国内曙光2000的峰值运算速度是3000亿次/秒)。(信海光)
|