生物信息学
核酸和蛋白质的分析方法
生物信息学的概念
生物信息学——是一门新兴的交叉学科,是采用计算机技术和信息论方法研究蛋白质及核酸序列等各种生物信息的采集、存储、传递、检索、分析和解读的科学,是现代生命科学与计算机科学、数学、统计学、物理学和化学等学科相互渗透而形成的交叉学科。具体的说,生物信息学是把基因组DNA序列信息分析作为源头,破译隐藏在DNA序列中的遗传语言,特别是非编码区的实质;同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测。
生物信息学的研究内容
生物信息的采集、存储、管理和提供;
基因组序列信息的提取和分析;
功能基因组相关信息分析;
生物大分子结构模拟和药物设计;
生物信息分析的技术与方法研究;
生物信息学的研究内容
4 基因与基因组的信息学
– 大规模基因组测序中的信息分析
– 新基因和新SNP的发现与鉴定
– 非编码区信息结构分析
– 遗传密码起源和生物进化的研究
– 完整基因组的比较研究
. 基因表达的信息学---大规模基因功能表达谱的分析。DNA芯片技术、蛋白质谱技术和蛋白质组研究。
4 生物大分子的三维结构信息---蛋白质结构模拟与分子设计。蛋白质功能的分析基础。方法:同源模建、序列结构联配、分子动力学模拟。
4 代谢和疾病发生途径的信息---细胞发育、分化的途径以及疾病发生与发展的途径
基因组序列装配
基因识别
基因功能预报
基因多态性分析
基因进化
mRNA结构预测
基因芯片设计
基因芯片数据分析
疾病相关基因分析
基本研究方法
实验数据 公用数据
公共数据库
核酸分析 蛋白质分析
生物信息学数据库
数据库种类
4 基因组数据库
– 人类基因组数据库
– 各种模式生物基因组数据库
4 核酸和蛋白质一级结构序列数据库
4 生物大分子三维空间数据库
4 由以上三类数据库和文献资料为基础的二次数据库
生物信息学数据库
全球生物学数据库
4 Gene Identification and Structure
4 Genetic and Physical Maps
4 Genomic Databases
4 Intermolecular Interactions
4 Metabolic Pathways and Cellular Regulation
4 Mutation Databases
4 Pathology
4 Protein Databases
4 Protein Sequence Motifs
4 Proteome Resources
4 RNA Sequences
4 Retrieval Systems and Database Structure
4 Structure
4 Transgenics
4 Varied Biomedical Content
基因组数据库
4 基因组数据库是分子生物信息数据库的重要组成部分,主要包括人以及鼠、河豚鱼、拟南芥、水稻、线虫、果蝇、酵母、大肠杆菌等各种模式生物。
4 GDB----人类基因组数据库
4 AceDB----线虫基因组数据库
序列数据库
4 核酸序列数据库----EMBL、GENBANK、DDBJ
4 蛋白质序列数据库----PIR、SWISS-PORT
结构数据库
4 蛋白质结构数据库---PDB
4 蛋白质结构分类数据库 SCOP---将蛋白质按传统分类方法分成a型、b型 、a/b型、 a+b型、多结构域蛋白、膜蛋白和细胞表面蛋白、小蛋白等七大类。 CATH---将蛋白质分为a主类、 b主类、 a-b类、低二级结构类(二级结构成分含量很低的蛋白质分子)
二次数据库
4 基因组二次数据库
4 蛋白质序列二次数据库
4 蛋白质结构二次数据库
4 二次数据库种类繁多,以核酸数据库为基础构建的二次数据库有基因调控转录因子数据库TransFac,真核生物启动子数据库EPD,克隆载体数据库Vector,密码子使用表数据库CUTG等。
4 以蛋白质序列数据库为基础构建的二次数据库有蛋白质功能位点数据库Prosite,蛋白质功能位点序列片段数据库Prints,同源蛋白家族数据库Pfam,同源蛋白结构域数据库Blocks。
4 以具有特殊功能的蛋白为基础构建的有免疫球蛋白数据库Kabat,蛋白激酶数据库PKinase等。
4 以三维结构原子坐标为基础构建的数据库为结构分子生物学研究提供了有效的工具,如蛋白质二级结构构象参数数据库DSSP,已知空间结构的蛋白质家族数据库FSSP,已知空间结构的蛋白质及其同源蛋白数据库HSSP等。
4 蛋白质回环分类数据库则是用于蛋白质结构、功能和分子设计研究的专门数据库。
4 此外,酶、限制性内切酶、辐射杂交、氨基酸特性表、序列分析文献等,也属于二次数据库或专门数据库。
数据库查询(daebase query) 和数据库搜索(datebase search)
4 数据库查询(也称为数据库检索)是指对序列、结构以及各种二次数据库中的注释信息进行关键词匹配查找。常用的数据库查询系统有Entrez, SRS等。
4 数据库搜索是指通过特定的序列相似性比对算法,找出核酸或蛋白质序列数据库中与检测序列具有一定程度相似性的序列。常用的数据库搜索系统有BLAST 、FASTA和BLITZ 。
序列的比较
4 两两对齐分析:常用程序有ALIGN、Align、B12Seq等。
4 多重序列对齐分析:常用程序有Clustal W/X、Match-Box、CINEMA等。
4 序列对数据库的对齐分析:常用程序有BLAST 、FASTA和BLITZ 。
应 用
核酸序列分析
蛋白质分析
核酸序列分析
4 核酸序列的检索---对已知核酸序列的检索
4 核酸序列的基本分析
– 分子质量、碱基组成、碱基分布
– 序列变换:反向序列、互补序列、互补反向序列
– 限制性酶切分析:限制酶的所有信息,包括甲基化酶、相应的微生物来源、识别序列位点、裂解位点、甲基化特异性、酶的商业来源以及参考文献。
– 克隆测序的分析:测序峰图的查看、核酸序列中载体的识别和去除、其他人工序列的分析和去除
4 核酸序列的电子延伸---GenBank的UniGene数据库、意大利Tigem的EST Machine、EMBL的EST Cluster Project等
4 基因的电子表达谱分析---将待分析序列与EST数据库进行序列对库的检索,用与待分析核酸序列具有高同源性的EST序列所对应的组织来源进行推断,进而得到该基因的组织表达谱。SAGE数据库、UniGene、Tigem等。
4 核酸序列的电子基因定位分析---染色体定位。
– 通过序列标签STS数据库定位
– 利用UniGene/RH放射性杂交定位
– 直接利用基因组序列定位
4 cDNA对应的基因组序列分析---EST和cDNA的基因组序列查询了解该基因的基因组结构:外显子/内含子结构、转录调控区。
4 基于核酸序列对齐分析的功能预测
– 利用数据库的核酸序列的同源性分析
– 两条核酸序列之间的同源性分析
– 核酸序列之间的多重比对分析及进化分析
4 可读框架分析
– cDNA序列的可读框架分析
– 基因组序列中的编码区/内含子结构分析
– cDNA序列与基因组序列的对齐及显示,Sim4程序。
4 基因启动子及其他调控位点分析---启动子、增强子、转录因子结合位点、内含子与外显子。
4 重复序列分析
4 引物设计
蛋白质序列分析
4 蛋白质序列检索
4 蛋白质基本性质分析
– 氨基酸组分、分子质量、等电点
– 疏水性分析
– 跨膜区分析
– 前导肽和蛋白质定位
– 卷曲螺旋分析
蛋白质序列分析
4 蛋白质功能预测
– 基于序列同源性分析的蛋白质功能预测。 Blast、Blast2、FASTA。
– 基于模体、结构位点、结构功能域的蛋白质功能预测
4 蛋白质结构预测
– 蛋白质二级结构预测
– 蛋白质三级结构预测——与已知结构的序列比较、同源模建、threading算法和折叠识别
4 蛋白质分子进化分析
生物信息学与基因芯片
4 生物信息学在基因芯片研究与应用中其着重要的作用,从确定基因芯片检测对象到基因芯片设计,从基因芯片检测结果分析到实验数据管理和信息挖掘,都需要生物信息学的支持。而基因芯片技术又能够同时、快速、准确地分析大量基因组信息。
生物信息学与药物设计
选择药物作用靶标的标准
侯选药物靶标的发现
靶标有效性的验证
药物作用机制的研究
计算机辅助药物设计
研究实例
“荧光差异显示PCR克隆参与胃腺癌转移的基因wcl1”(王建华等)
4 使用来源于同一个胃腺癌病人的原发灶RF-1和转移灶RF-48作为研究肿瘤转移的模型。通过PCR技术,克隆45个涉及胃腺癌转移相关基因。和原发灶RF-1相比较,发现转移灶RF-48细胞中有38个基因被显著上调,7个基因被显著下调,包括未发现的基因3个,利用生物信息学技术对其中一个在RF-48中高度上调的wcl1进行克隆和鉴定。
具体步骤
原发灶RF-1和转移灶RF-48的细胞培养
DD-PCR获取差异条带
同源性的EST分析
EST的拼接和组装
OFR识别
编码氨基酸的相似性分析
RT-PCR和Northern印迹验证
Wcl1染色体定位
Wcl1基因的组织分布
Wcl1编码的蛋白质空间结构
结果
克隆45个差异表达基因,包括未发现新基因3个。
其中一个RF-48中高度上调的基因命名为wcl1,并进行克隆和鉴定,NCBI编号AF364863。
确定wcl1基因结构---用EST拼接软件组装成664bp的序列,对其cDNA序列进行ORF识别,发现含有240bp的完整阅读框,编码79个氨基酸。
拼接后RT-PCR 、Northern验证了其正确性。
SAGE显示wcl1的组织分布----在低分化胃腺癌表达高于相应正常胃组织;在胃血管内皮表达高于乳腺管癌、脑纤维状星形细胞瘤。
同源性分析----wcl1编码的蛋白质未与已知蛋白质具有高度同源性,可能为一种新的蛋白质。
染色体定位----wcl1664bp重叠群与人11号染色体AP00730克隆存在高度同源性,但AP000730克隆为未完成的草图序列,没有完整的基因图,不能精确定位,只能初步定位于11q14。
Wcl1编码蛋白质空间结构----空间二级结构、空间三级结构。Wcl1氨基酸顺序预测的蛋白质的空间三级结构与谷胱苷肽-S-转移酶的空间三级结构有45%的相似性。
王征旭等研究的“肝癌高表达新基因的克隆和编码蛋白质二级结构分析”
4 目的 研究和克隆新的肝癌相关基因,探索肝癌发生的分子机制。
4 方法 采用mRNA差异显示技术和筛选胎盘cDNA文库,获得新基因全长cDNA。制备新基因的GST融合蛋白和多克隆抗体,进行western杂交和免疫组织化学染色;利用计算机软件分析新基因的二级结构和功能预测。
4 结果 克降了一个新的肝癌相关基因全长cDNA、western杂交证实该基因全长能在293细胞中表达、免疫组织化学染色证实该基因编码蛋白定位于细胞浆,二级结构分析发现含2个SH3结台结构域和数个不同的蛋白激酶磷酸化位点。
4 结论 获得一个新的肝癌相关基因全长cDNA。
其他研究路线
4 大规模EST克隆新基因
– 新基因克隆
组织文库---消减杂交---克隆全长cDNA---电子拼接、RACE----基因全长----染色体定位
– 功能预测
cDNA 全长---蛋白编码序列---同源性比较---功能域、功能基序分析(发现功能位点)---推断新基因的功能
4 用一条EST钓取多个候选同源基因
差异显示法---获得表达差异的一条EST---dbEST数据库电子杂交---90%以上同源性的多条EST---分别进行序列组装---整合成更长的EST序列---RACE---基因全长---判断是否为相同基因---不同序列视为候选同源基因
常用生物信息学软件
4 DNA分析---DNAClub, DNAssist, DNATool
4 RNA分析---RNAdraw, RNAstructure
4 蛋白质分析---aminoXpress
4 引物分析---primer, Oligo
4 序列综合分析---Bioedit, Clustal, LaserGene
4 进化树分析---Treeview, Genetree, phylip
4 质粒绘图
|