聚合网络资源　推动生物信息学发展

老庄走狗 2005-10-23

展开全文

——生物信息学网格项目稳步推进


随着人类基因组计划的快速发展，生物信息学技术在人类疾病与功能基因的发现与识别、基因与蛋白质的表达与功能研究方面都发挥着关键的作用。生物信息学技术在基于基因与蛋白质功能缺陷的合理化药物设计方面也有着巨大的潜力。同时，生物信息学技术在亲子鉴定、罪犯识别等各方面都有重要的应用。　　生物信息学是一门交叉科学，它包含了生物信息的获取、处理、存储、分发、分析和解释等在内的所有方面，它综合运用数学、计算机科学和生物学的各种工具，来阐明和理解大量数据所包含的生物学意义。　　目前关于生物信息学的研究，基本都是研究如何理解大量生物学数据所包括的生物学意义，这已成为后基因组时代极其重要的课题。其方法就是依据一些数据库及相关处理方法及软件，通过大量的计算得出结论。这包括序列比对、序列拼接、蛋白质功能预测及基因识别等。目前的研究及支撑研究的基础设施都是分散的，研究单位都是自己来建设各自的研究平台，包括计算资源、软件资源、存储资源，一方面，这些资源并不总是被利用，而另一方面，又有许多生物信息学的研究人员没有条件进行研究，如何利用网格技术将这些资源进行集成，供互联网用户共享？　　生物信息学网格（BG）将一些大型的计算资源及存储资源通过网络聚合起来，将生物信息学相关的部分软件、数据集成起来，为生物信息学的研究工作者提供一个开展科研活动的环境。该环境通过Web方式向用户提供服务，达到用户只需提交所需计算请求，然后等待获取计算结果的目的，避免了用户因对计算机技术不熟悉所带来的困惑。体系结构　　生物信息学网格主要由以下部分组成：　　1、客户端(Client)：BG系统的用户终端，它连接用户和BG服务器(Server)，使得用户可以使用服务器提供的服务。　　它有以下主要功能：提供图形用户界面；接收用户通过email、文件、或GUI提交的任务输入、将其转化为系统内部的表示、并将输入发送至服务器；接收来自服务器的计算结果，并将其显示出来；控制和管理用户和终端、终端和服务器之间的交互过程。　　2、服务器(Server) ：BG Server通过网格计算协议GCP为终端提供生物信息学计算服务，它可以有一个或多个，本地或远程的进行实际计算的计算引擎(Compute Engine)。　　它有以下主要功能：接收来自终端的计算请求，发送计算结果或中间信息至终端；负责任务的管理与分配；通过本地或远程计算引擎执行计算请求；通过终端为用户提供各种帮助；解释和翻译GCP。　　3、网格计算协议（GCP）：BG终端和服务器端经由网格计算协议GCP连接。GCP是支持生物信息学计算的一种简单有效的请求-回应协议，能够满足终端到服务器和服务器到终端的各种需求。　　4、网格计算引擎接口（GCEI）：连接现有的生物信息学计算引擎和BG服务器的一种应用编程接口。　　5、计算引擎（Compute Engine）：完成实际计算的生物信息学计算软件（包）（如Cap3, Blast等）。BG的服务器可以同时连接多个外部的计算引擎。　　BG的服务器和各个提供实际计算服务的计算引擎共同组成了生物信息学网格的主题。硬件资源与能力　　目前生物信息学网格的计算能力达到浮点运算每秒万亿次以上，存储能力5TGB，接入主节点达到100Mbps，另外与NSF 2.5G网络接入。现有硬件资源包括以下主要高性能计算机系统：　　1. 清华大学计算机系千亿次集群计算机　　2. 清华大学网络中心SUN 10000 机器　　3. 清华大学医学院IBM P620 机器　　4. 清华大学生物系的SGI Origin 2000机器　　5. 清华大学计算机系多台HP Itanium2机器　　6. 清华大学物理系集群计算机　　7. 西安交通大学IBM RS6000机群系统　　8. 西安交通大学接口服务器　　9. 华南理工大学32位MPP Linux集群系统　　10. 华南理工大学64位的SMP计算平台

11. 华中科技大学浪潮天梭10000高性能计算集群

　　12. 北京大学生物信息中心 SUN Fire 4800

　　13. 北京大学生物信息中心多台双奔四至强机器

　　14. 北京大学生物信息中心 SUN Fire V880

　　15. 北京大学生物信息中心浪潮英信NF420

　　16. 山东大学计算机机群系统

软件资源

　　目前可供生物信息处理的通用和专业软件很多，既有免费的、内部使用的，也有一些商用的，清华大学、西安交通大学等单位也开发了几个具有自主知识产权的并行软件，如并行Euler拼接算法软件、并行Smith－Warterman软件和并行Clustal W软件等，将这些软件根据网格环境中的结点的实际情况，安装在相应的计算机上，并提供统一的集成环境。具体内容包括：

　
　　* 共享软件分类安装

　　
　　对各种软件依据其功能、环境进行分类，并进行安装。定义软件的输入、输出及各种参数接口，并将各个软件的集成到整个网格环境中。

　　* 相应数据库的集成

　　由于生物信息的大多数计算软件，都涉及到一些基础数据库，因此要结合软件的分布，充分考虑相应的数据库，将软件与数据集成起来，为用户提供计算服务。

　　* 工作流程的自动化管理

　　有时生物信息的计算，并不是单纯靠一个软件就能完成，而是要利用不同地域的多个软件（不同的计算机、不同的数据库等）共同解决一个问题，因此充分考虑计算的工作流程，并结合资源管理系统，对用户的任务实行自动的优化分配，有效地管理整个计算流程。
(中国教育科研网格专家组供稿)