随着人类基因组计划的快速发展,生物信息学技术在人类疾病与功能基因的发现与识别、基因与蛋白质的表达与功能研究方面都发挥着关键的作用。生物信息学技术在基于基因与蛋白质功能缺陷的合理化药物设计方面也有着巨大的潜力。同时,生物信息学技术在亲子鉴定、罪犯识别等各方面都有重要的应用。
生物信息学是一门交叉科学,它包含了生物信息的获取、处理、存储、分发、分析和解释等在内的所有方面,它综合运用数学、计算机科学和生物学的各种工具,来阐明和理解大量数据所包含的生物学意义。
目前关于生物信息学的研究,基本都是研究如何理解大量生物学数据所包括的生物学意义,这已成为后基因组时代极其重要的课题。其方法就是依据一些数据库及相关处理方法及软件,通过大量的计算得出结论。这包括序列比对、序列拼接、蛋白质功能预测及基因识别等。目前的研究及支撑研究的基础设施都是分散的,研究单位都是自己来建设各自的研究平台,包括计算资源、软件资源、存储资源,一方面,这些资源并不总是被利用,而另一方面,又有许多生物信息学的研究人员没有条件进行研究,如何利用网格技术将这些资源进行集成,供互联网用户共享?
生物信息学网格(BG)将一些大型的计算资源及存储资源通过网络聚合起来,将生物信息学相关的部分软件、数据集成起来,为生物信息学的研究工作者提供一个开展科研活动的环境。该环境通过Web方式向用户提供服务,达到用户只需提交所需计算请求,然后等待获取计算结果的目的,避免了用户因对计算机技术不熟悉所带来的困惑。
体系结构
生物信息学网格主要由以下部分组成:
1、 客户端(Client):BG系统的用户终端,它连接用户和BG服务器(Server),使得用户可以使用服务器提供的服务。
它有以下主要功能:提供图形用户界面;接收用户通过email、文件、或GUI提交的任务输入、将其转化为系统内部的表示、并将输入发送至服务器;接收来自服务器的计算结果,并将其显示出来;控制和管理用户和终端、终端和服务器之间的交互过程。
2、服务器(Server) :BG Server通过网格计算协议GCP为终端提供生物信息学计算服务,它可以有一个或多个,本地或远程的进行实际计算的计算引擎(Compute Engine)。
它有以下主要功能:接收来自终端的计算请求,发送计算结果或中间信息至终端;负责任务的管理与分配;通过本地或远程计算引擎执行计算请求;通过终端为用户提供各种帮助;解释和翻译GCP。
3、 网格计算协议(GCP):BG终端和服务器端经由网格计算协议GCP连接。GCP是支持生物信息学计算的一种简单有效的请求-回应协议,能够满足终端到服务器和服务器到终端的各种需求。
4、 网格计算引擎接口(GCEI):连接现有的生物信息学计算引擎和BG服务器的一种应用编程接口。
5、 计算引擎(Compute Engine):完成实际计算的生物信息学计算软件(包)(如Cap3, Blast等 )。BG的服务器可以同时连接多个外部的计算引擎。
BG的服务器和各个提供实际计算服务的计算引擎共同组成了生物信息学网格的主题。 硬件资源与能力
目前生物信息学网格的计算能力达到浮点运算每秒万亿次以上,存储能力5TGB,接入主节点达到100Mbps,另外与NSF 2.5G网络接入。现有硬件资源包括以下主要高性能计算机系统:
1. 清华大学计算机系千亿次集群计算机
2. 清华大学网络中心SUN 10000 机器
3. 清华大学医学院IBM P620 机器
4. 清华大学生物系的SGI Origin 2000机器
5. 清华大学计算机系多台HP Itanium2机器
6. 清华大学物理系集群计算机
7. 西安交通大学IBM RS6000机群系统
8. 西安交通大学接口服务器
9. 华南理工大学32位MPP Linux集群系统
10. 华南理工大学64位的SMP计算平台 |