生物信息学常用基本词汇表

sunlanlan 2010-08-17

展开全文

A （ Adenine ）
腺嘌呤
作为碱基的两种嘌呤中的一种。

active site
活化位点
蛋白质三维表面催化作用发生的区域。

alignment
比对
为了确定两个同源核酸或蛋白质序列的累计差异而进行的配对称为比对。

alignment of alignments
比对的比对
即比对的对象不是简单的序列，而是序列的比对。

alleles
等位基因
一个基因的不同版本。

alpha carbon
α 碳
在氨基酸中与侧链（ R- 基团）相连的中心碳原子。

alternative splicing
可变剪接
从一个单独的 hnRNA 生成两个或多个 mRNA 分子的过程。

amino terminus (N-terminal)
氨基端（ N 端）
在一个多肽中，具有自由氨基的分子端，对应于基因的 5'- 端。

anti-parallel
反向平行
表示相反的方向；在双链DNA中，这意味着如果一条链是 5' 到 3' 的，则其互补链方向是 3' 到 5' 的。

B

base pair
碱基对
（1）在双链DNA中嘌呤和嘧啶之间的相互作用（特别指A和T之间，G和C之间）；（2）双链DNA序列长度的基本单位。

beta turns
β转角
在反向平行的β折叠片中，当β链反转方向的时候蛋白质内部形成的U型结构

Bioinformatics
生物信息学
应用信息科学的理论、方法和技术，管理、分析和利用生物分子数据。

Biocomputing
生物计算
本书中特指用计算机技术分析和处理生物分子数据。

Basic Local Alignment Search Tool ( Blast)
基本的局部比对搜索工具（ Blast ）
一种常用的序列数据库搜索工具。

blotting and hybridization
印迹和杂交
将分子（通常是核酸分子）从凝胶转移到膜上，接着用绑定有特定感兴趣的分子的标记探针进行洗脱的过程。

bootstrap test
自举检验
对置信程度进行量化的检验。

branch and bound method
分支约束法
一种空间搜索方法，通过约束条件减少搜索空间，提高搜索效率。

branches
分支
在系统发生树中，通过分支连接两个节点。

C

C ( Cytosine)
胞嘧啶
作为碱基的两种嘧啶中的一种。

CAAT box
CAAT 盒
大多数真核启动子具有的一段短序列，其片段模式为 C-A-A-T ，通常出现在转录起始位点上游 80 个核苷酸的地方。许多因子可以与CAAT盒结合。

carboxy terminus
羧基端
在多肽链中，含有羧酸基团 ( —COOH) 的分子端，对应于基因的 3' - 端。

cDNA （ Complementary DNA ）
cDNA ( 互补 DNA)
通过逆转录酶从 RNA 模板合成的 DNA 。

cDNA library
cDNA 文库
从 mRNA 序列中产生的所有 DNA 序列的集合。这种类型的文库只包含编码蛋白质的 DNA （基因）。

central dogma
中心法则
从基因的核酸序列中提取信息并以此合成蛋白质的过程（ DNA ? RNA ? protein ）。

character
特征
在系统发生树中，具有有限状态数的特征。

charged amino acid
带电氨基酸
在一定的生物 pH 值下，带有正电或负电的氨基酸。

chromatin
染色质
在真核生物细胞核内部由大量 DNA 以及与此相关的组蛋白组成的近似均匀混合物。

chromosome
染色体
在原核生物，包含一个细胞基因组的DNA分子称为染色体。在真核生物中，与蛋白质复合在一起、包含大量遗传信息的线型DNA分子。

clone
克隆
无性繁殖，如生物体克隆、基因克隆等。

cloning
克隆
在类染色体载体中插入特定的 DNA 一段，使得它们可以在活细胞中得以保存并复制。

Coding sequence
编码序列
DNA 序列中为蛋白质编码的部分。

Codon
密码子
基因编码部分的三核苷酸组合，对应于一个特定的氨基酸。

Complementary
互补的
（ 1 ）通过氢键连接的核苷酸对（ G 和 C; A 和 T; A 和 U ）；（ 2 ）核苷酸链的反向平行对。

Computational Molecular Biology
计算分子生物学
主要研究分子生物学数据的分析方法，开发分析工具。

conformation
构象
蛋白质的空间构象。

consensus sequence
一致序列
在两个或多个同源序列的每一个位置上多数出现的核苷酸或氨基酸组成的序列

conserved sequence
保守序列
在进化过程中基本保持不变的核酸与蛋白质序列，它们往往与特定的功能相对应。

Contig
连续交叠群
基因组测序过程中将许多短的序列片段链接成很长的连续片段。

convergent evolution
趋同进化
指相似基因型或表型性状的独立进化。例如，眼睛在各种生物体（如哺乳动物、软体动物以及昆虫）中独立进化，结构各异。

core fold
核心折叠
构成蛋白质空间形状的基本模式。

CpG island
CpG 岛
在哺乳类动物基因组中的一个 500bp 到 3000bp 的区域，该区域中的二核苷酸 CpG 的含量比其他区域的正常水平要高。通常，与此相关的是真核生物管家基因的启动子区域。

crystal
晶体
由分子的规则排列组成的固体结构。

D

degeneracy
简并性
指某些氨基酸可以被一个以上的三联密码子编码的特性。

denatured protein
变性蛋白质
指蛋白质因为受热作用或者去污剂或尿素等化学作用而失去了正常的三级结构和四级结构的结果。

deoxyribonucleic acid (DNA)
脱氧核糖核酸（ DNA ）
由相连的核苷酸组成的双链生物二聚体，其核苷酸含有脱氧糖基。DNA是遗传的分子基础。

dipeptide
二肽
由一个肽键连成的两个氨基酸。

disulfide bond
二硫键
二硫键是蛋白质中两个半胱氨酸侧链之间形成的化学键。

DNA
DNA
参见脱氧核糖核酸。

domain
域（结构域）
指蛋白质结构中相对独立的、具有特定功能的空间区域。

dot plot
点阵图
对两条序列进行图形化比较的方法。图形中的一系列的斜线对应于序列相似的区域。

dynamic programming
动态规划
一种可以有效地探求一定复杂问题的各种可能的解决方案的程序；它将一个问题合理分解成一些小的子问题，然后利用部分计算解得到最终答案。

E

enhancer
增强子
可以与真核转录因子特异性结合的 DNA 序列片段。增强子序列可以在任何一个方向上起到逐渐增加转录水平的作用。

enzyme
酶
一种生物催化剂（通常是蛋白质），能通过降低活化能使特定的化学反应可以更快地进行。

EST （ Expressed sequence tags ）
EST 表达序列标签
从 cDNA 的 5' 或 3' 端获取的短的 DNA 片段。

euchromatin
常染色质
指真核生物中组蛋白高度甲基化（乙酰化？）并且 DNA 低度甲基化的开放染色质。

exhaustive search
穷举搜索
对问题所有可能的解进行评估。

exon
外显子
一个 hnRNA 分子的各个部分，它们被剪接后连在一起形成 mRNA 。

expression profile
表达谱
基因在不同时空的表达模式。

F

family
家族
在整个长度范围内有多于 50 ％的氨基酸序列相同的蛋白质称为一个家族。

fold
折叠
通常和术语“结构模体”有近似的含义，但是特别暗示在两个或更多的蛋白质中具有相似二级结构的大区域。

fourfold degenerate site
四重简并位点
指那些改变一个核苷酸为任何其它三个中的一个都对核糖体将氨基酸插入到蛋白质没有影响的密码子位点。

G

G （ Guanine ）
G （鸟嘌呤）
两种嘌呤中的一种。

gap penalty
空位罚分
为了减少序列比对中出现的空位，对空位进行减分的操作。

gaps
空位
在两个具有共同祖先序列的比对中，为了反映插入或删除所引入的一个或一些破折号。

GC content
GC 含量
在 DNA 序列中，核苷酸 G 、 C 的组成相对于 A 、 T 的比例。

gel electrophoresis
凝胶电泳
指在电场的作用下，使带电分子穿过聚丙烯酰胺、淀粉或者琼脂糖凝胶，从而根据其大小和带电性进行分离的过程。

gene
基因
DNA 或 RNA 中，代表特定功能的某一段核苷酸序列；一种遗传的功能单元，它控制着一个或多个性状的传递和表达。

gene content
基因内容
一个基因组所包含的所有基因称为该基因组的基因内容。

gene expression
基因表达
利用存储在 DNA 中的信息来合成 RNA 分子，进而生成相应蛋白质的过程。

gene identification
基因识别
利用各种方法识别基因组中的基因序列。

gene ontology
基因本体论
关于基因和蛋白质知识的标准词汇，是今后实现各种与基因相关数据的统一、进行数据转换、开展数据挖掘的基础。

gene order
基因次序
基因在染色体上的排列顺序。

gene tree
基因树
基于同源基因分析得到的系统发生树。

genetic map
遗传图谱
以具有多态性的遗传标记为“路标”，以遗传学距离为图距的基因组图谱。

genome
基因组
一个生物体全部遗传物质的总和。

genomics
基因组学
研究基因组序列，研究序列与功能的关系，研究基因组中所包含的遗传信息。

genomic library
基因文库
包含有基因组 DNA 插入的克隆片段集合。

genotype
基因型
一个个体或群体全部或部分的基因组成。

global alignment
全局比对
在全局范围内对两条序列进行比对打分的方法。

GU-AG rule
GU － AG 规则
这是一条与真核生物蛋白质编码基因相关的规则，说的是 RNA 内含子序列 5' 端的起始两个核苷酸总是 5'-GU-3' ，并且其 3' 端的最后两个核苷酸总是 5'-AG-3' 。

H

hairpin turn
发夹环
在 RNA 链中自身反转允许形成分子内碱基配对的位置。

Hash table
Hash 表
一种数据结构，可以存储多个数值；不像矩阵要用整型索引获取存在其中的数， hash 表可以用任何类型的值（包括字符串）作为索引。

Hidden Markov Models (HMM)
隐马尔柯夫模型（ HMM ）
在序列分析中常用的一种数学模型。

heterochromatin
异染色质
指转录停滞、紧密包裹着的染色质；和高度 DNA 甲基化以及低度的组蛋白乙酰化有关。

heuristic methods
启发式方法
反复试验，利用经验解决问题的一种方法。

homologs
同源序列
具有公共祖先的序列。

horizontal gene transfer
基因水平转移
基因从一个物种传递到另一个物种的过程。虽然病原体和转座子通常被疑似为导致它的原因，但是基因这种运动的机制仍然未知。

Human Genome Project, HGP
人类基因组计划
通过全球合作，绘制人类基因组的全部序列图谱。

housekeeping gene
管家基因
发育过程中在任何时间、在任何器官都高度表达的基因。

H-P (hydrophobic-polar) model
H-P （疏水极性）模型
以固定半径的单个原子表示蛋白质中的一个氨基酸残基的简单网格模型。

hydrogen bonding
氢键
由于极性共价键的作用，使得电荷作用发生轻微分离而形成的分子相互作用。

hydrophilic
亲水的
很容易在水性溶剂中溶解；字面上理解，就是和水易处的。

hydrophobic
疏水的
难以和水分子相互作用，字面上就是厌水的。

hydrophobic amino acid
疏水氨基酸
含有一个全部由碳和氢组成的 R 基团的氨基酸；它不可能和水分子形成氢键

hydrophobic collapse
疏水折叠
将一个多肽链折叠成一个压缩的构象，从而使疏水残基远离溶剂的过程，简单的说，是由疏水作用而引起的肽链折叠。

I

indel
插入或删除
插入或删除。

inferred ancestor 25
推断祖先
通过系统发生树推断而得到的祖先。

inferred tree
推断树
对三个或三个以上的同源序列的系统发生关系的描述，是它们真正关系的一个近似。

informative
有信息（位点）
在简约性分析中的提供有用信息位点；与此对应的是无信息位点。

ingroup
内群（或内部物种）
一个物种或一个分歧不大的物种系列；与此相对应的是外群。

Inhibitor
抑制剂
任何可以降低酶促反应速度的物质。

initiation complex
起始复合物
一系列自身相互作用的转录因子形成复合体，作用与一个基因的启动子区域，从而促进基因的转录启动。

initiator (Inr) sequence
起始序列
真核基因中与转录起始位点密切相关的核苷酸；在人类中，该一致序列是 5'-YYCARR-3' 。

insertion sequence
插入序列
指除了自身转座需要外不再包含有任何信息的转座子元件；当被插入到一个基因中，它将破坏其正常的结构以及基因的功能。

internal node
内部节点
在一棵系统发生树中，不对应真正数据的节点，这样的节点代表两个或多个独立家系的公共祖先。

intrinsic terminator
固有终止子
在原核生物中终止转录的特殊信号；指在新转录的 RNA 中可以形成二级结构的核苷酸序列，其后跟随一串尿嘧啶。

intron
内含子
在剪切时被切除的内部序列；出现在真核基因的初级转录物 (hnRNAs) 中，而不是在 mRNA 中。

isochores
等值区
在真核基因组中具有相似碱基比例的区域。

junk DNA
垃圾 DNA
没有意义的 DNA 序列；也指那些目前还不知道其作用的序列。

K

kilobase(kb)
千碱基
DNA 序列的长度单位， 1000 个碱基为 1kb 。

L

lead compound
先导化合物
指在药物设计中一个可行的候选分子。

LINE
LINE
长散布（核）元件。

linkage map
连锁图谱
见“遗传图谱”。

local alignment
局部比对
一种寻找匹配子序列的序列比对方法。

lock and key approach
锁 - 钥方法
两个对接分子的构象被固定的对接方法。

log odds matrix
对数几率矩阵
矩阵元素是每一个字符替换概率的对数的矩阵。

M

match score
匹配得分
序列比较算法对相同字符匹配设置的得分。

maximum likelihood approach
最大似然法
指在一系列的序列比对中，考虑每一个字符被替代的概率的一种系统发生学方法；也是一种基于纯统计的系统发生重建方法。

methylation
甲基化
一个甲基 ( —CH 3 ) 附着在一个核苷酸的含氮碱基或者蛋白质上。

microarray
微阵列
在一个固体基片上的已知位置固定了 DNA 探针的有序阵列。

microsatellite
微卫星
在基因组中很多非常短的核酸序列出现的区域，例如串接出现 5'-CA-3' 的重复序列；通常在个体间变化很大。

MIAME(the minimum information about a microarray experiment)
微阵列实验的最小信息
为了实现微阵列数据共享和交流而制定的数据存储标准。

minisatellite
小卫星
指在基因组中长度从5个碱基对到几十个碱基对重复序列串连出现的区域；在个体间变化可能很大。

mismatch score
失配打分
在一个比对算法中，对于不相同的字符被比对时所赋予的罚分。

molecular clock
分子钟
这是一个有争议性的假设，指对于所有的进化谱系，任何一段给定的 DNA 序列以相同的速率突变。

molecular clones
分子克隆
指一段 DNA 序列的多数相同拷贝，一般地在例如质粒或病毒等载体中进行，使得它们可以在细菌培养物中生存并传播。

molecular graphics
分子图形学
分子图形学是进行分子模型化的一项重要技术，由于分子图形学和其它计算化学方法的相互结合，使得分子模型化方法取得成功。

molecular modeling
分子模型化
分子模型化是利用计算机模拟分子结构、研究分子之间相互作用的一种技术。

Monte Carlo algorithm
Monte Carlo 算法
一种尝试复杂问题的各种可能解的方法，例如将能量最小作为评价一般解的方法。

motif
序列模式
指核酸或者蛋白质序列中具有保守性的序列片段。

multiple sequence alignment
多重序列比对
三个或更多条序列的比对。

mutation
突变
由于 DNA 复制或者修复错误导致核苷酸序列发生的变化；严格地讲，通过选择性过滤在物种代间发生的变化。

N

native structure
天然结构
在一个活细胞内，特定的蛋白质通常折叠成的唯一结构。

natural selection (selection)
自然选择
个体间由于适应性的差异而形成的基因传给子代的差异现象；导致等位基因频率改变的进化。

nearest neighbor classifier
最近邻分类法
一种根据物体特征相似性对它们进行分类的一种统计学方法。

negative regulation
负调控
可以阻止基因转录发生的调控

neighbor-joining method
邻近归并法
一种聚类方法，在聚类之前，所有对象以单个节点表示，然后逐步合并相邻节点。

nucleotide
核苷酸
核酸分子的基本单位，其组成方式为碱基 - 戊糖 - 磷酸。

neural network
神经网络
一种可以通过学习来仿效一些神经元的功能计算机程序；能够用来根据统计相似性预测数据集的特定属性。

neutral mutation
中性突变
不影响生物适应性的突变。

NMR
NMR 核磁共振
用于解析蛋白质结构的技术。

nodes
节点
在一棵系统发生树中，以节点代表一个分类单元（物种、序列）。

nondegenerate site
非简并位点
突变总是导致蛋白质氨基酸序列发生替换的密码子位置。

nonsynonymous substitution
异义替换
可以使氨基酸发生变化的密码子中核苷酸的替换。

O

open reading frame (ORF)
开放阅读框（ ORF ）
一段由密码子组成的核苷酸序列，在相同阅读框中没有终止密码子出现。

operator sequence
操纵子序列
原核生物调控蛋白结合的与基因启动子相关的一段核苷酸序列。

operon
操纵子
包含有结构基因和调控元件、在转录中产生mRNA分子的一组相关的基因。

origination penalty
起始罚分
用来评估一系列新空位的罚分；序列比对中空位罚分的一部分。

orthologs
直向（直系）同源物
那些具有相似性的序列，由于物种形成事件而使得它们从一个祖先序列独立进化。

outgroup
外群（外部参考物种）
指与一组生物体很少相关的一个物种或一组物种。

P

PAM unit
PAM 单位
一种进化单位；特别地，指被观察的对象中每 100 个残基发生一个替换所需要的平均进化时间。

Pairwise Sequence Alignment
序列两两比对
对两条序列进行编辑操作，通过字符匹配和替换，或者插入和删除字符，使得两条序列达到一样的长度，并使两条序列中相同的字符尽可能地一一对应。

paralogs
共生（旁系）同源物
那些具有相似性的序列，它们都是被复制的祖先基因的后裔。

parsimony
简约性
指只需少量突变事件激发就可以使一条进化路径比其他路径更有优先权的过程

pattern discrimination analysis
模式判别分析
是一种统计方法，主要根据观察到的一个或多个序列模式来对序列进行分类。

physical map
物理图谱
关于基因组中特异性序列排列和间距的信息，建立物理图谱实际上是为全基因组测序建立“路标”，是测序的前一步工作。

peptide
肽
一条含有多个氨基酸的链。

peptide bond
肽键
在肽连接中碳氮之间的共价键。

pharmacogenomics
药物基因组学
一门利用个体的遗传信息获取最好的药物疗效，同时具有最小副作用的研究领域

phenotype
表型
生物体由于和其基因型和环境相互作用而产生的可见属性。

phosphodiester bond
磷酸二酯键
连接一个核苷酸的磷酸基团和另外一个的脱氧核糖的共价键。

phylogenetic tree
系统发生树
对三个或三个以上基因或生物体之间的进化关系的图形化表示。

point accepted mutation (PAM)
点接受突变（ PAM ）
指被自然选择接受的突变。

polar amino acid
极性氨基酸
通常指侧链上包含氧和（或）氮并且很容易和水形成氢键的氨基酸。

polar bond
极性键
在一个带全正电的分子和另一个带全负电的分子之间发生的相互作用。

polyadenylation
多聚腺苷酸化
指用一个基因核苷酸序列中不被读出的一段长约 250 个碱基 A 组成的序列替代真核 hnRNA3' 端的过程。

polycistronic
多顺反子
包含多个基因的遗传信息（顺反子）。

polymerase chain reaction
聚合酶链反应
一种在体外快速、大量地合成给定DNA片段的技术，首先将双链DNA分离成两个互补的单链，再用DNA聚合酶将每一个单链合成双链，如此重复下去。

Polynucleotide
多核苷酸
一条核苷酸的聚合链； DNA 或 RNA 分子。

polypeptide
多肽
一条氨基酸的聚合链；蛋白质。

position-specific scoring matrix
位置特异性打分矩阵
一个矩阵，矩阵中的每一个数表示某个特定的氨基酸占据多序列比对中某个位置的频率。

positive regulation
正调控
一个调控蛋白的结合使得 RNA 聚合酶更容易启动转录的情况。

primary structure
一级结构
组装成蛋白质的氨基酸序列。

Principal Component Analysis ， PCA
主成分分析
是一种掌握事物主要矛盾的统计分析方法，它可以从多元事物中解析出主要影响因素，揭示事物的本质，简化复杂的问题。

probe
探针
一块被标记的可以特异性和感兴趣的分子发生相互作用的 DNA （或 RNA 或抗体）。

promoter sequence
启动子序列
指和一个基因相关联的可以被 RNA 聚合酶识别的序列。

protein backbone
蛋白质骨架
多肽链中的非侧链原子。

protein electrophoresis
蛋白质电泳
根据蛋白质的基本特征（如大小、带电性）在电场下分离并比较蛋白质的方法

protein sequencing
蛋白质测序
对给定蛋白质的氨基酸进行测序的过程；通常根据 Edman 方法，每次从多肽的羧基端移走一个氨基酸。

protein threading
蛋白质结构预测线索法
首先假设多肽的构象，然后根据得到的结构计算出其能量的方法。通过计算各种已知结构的能量，可以得出与给定蛋白质序列最符合的构象。因为该结构是假设的而不是计算出来的，所以线索法有时指的就是“反向蛋白质折叠”。

proteome
蛋白质组
一个生物体的所有蛋白质总和。

Proteomics
蛋白质组学
蛋白质组学是研究细胞内所有蛋白质及其动态变化规律的科学。

pseudogene
伪基因
发生突变之后失去功能以及转录活性的基因。

pseudoknot
伪结
当环内的碱基和环外的碱基形成配对的时候就是一个假结体；RNA结构中最难预测的类型。

purine
嘌呤
碱基具有双环结构的核苷酸；通常指鸟嘌呤和腺嘌呤。

pyrimidine
嘧啶
碱基具有单环结构的核苷酸；通常指胞嘧啶、胸腺嘧啶和尿嘧啶。

Q

quaternary structure
四级结构
当若干个多肽相互结合时分子内部发生的相互作用；相互作用的蛋白质形成的整体结构。

R

reading frame
阅读框
在蛋白质编码基因中，以起始密码子开始、终止密码子结束的一段线性密码子序列。

regulatory
调控
在特定的条件下允许或阻止一个基因的表达；对应于结构蛋白。

residue
残基
作为多肽链一部分的氨基酸；在关于蛋白质或肽的语境中，残基通常指氨基酸

restriction enzymes
限制性（内切）酶
指在它们遇到特定的核苷酸序列的时候在 DNA 分子中引入双链缺口的蛋白质

restriction mapping
限制性酶切图谱
用两个或多个限制性酶进行同步消化来决定 DNA 分子中的限制性酶识别序列的相对位置。

restriction site
限制性（酶切）位点
被限制性酶识别的核苷酸序列；限制性酶识别位点。

retroposon
逆转录转座子
一个被 RNA 媒介传输的转座元件。

retrotransposition
逆转录转座
包含一个 RNA 媒介的转座。

reverse transcriptase
逆转录酶
一种用来将 RNA 变成 DNA 的特殊的酶。

ribosome
核糖体
指负责催化翻译过程的蛋白质和 rRNA 的复合体。

ribozyme
核酶
指可以加速特定化学反应（例如自切割）的 RNA 分子。

RNA （ Ribonucleic Acid ）
核糖核酸
RNA 是单链的核酸分子。

RNA polymerase
RNA 聚合酶
负责转录的酶；将 DNA 分子中的信息转移到 RNA 分子中。

rooted tree
有根树
含有一个被认为是公共祖先的节点、并且该节点到其他节点只存在唯一路径的一棵系统发生树。

S

satellite DNA
卫星 DNA
指相对于其他的基因组数据而言，重复性很大、存储的信息量很少的真核 DNA 片段。

scaled tree
标度树
指分支长度和相邻节点对之间的差异成比例的系统发生树。

scoring matrix
打分矩阵
在序列比对中，用来对每一个非空位置进行打分的矩阵。

secondary structure
二级结构
指源自蛋白质一级结构的 α 螺旋、 β 折叠等局部结构特征。

Self-Organizing Map ， SOM
自组织映射神经网络
自组织特征映射是类似大脑思维的一种人工神经网络模型，它是一种竞争学习算法。

semiglobal alignment
准全局比对
指出现在序列头尾的空位不影响比对得分的序列比对。

sequence
序列
（ 1 ） DNA 或 RNA 分子核苷酸的线性排列或者蛋白质中氨基酸的排列；（ 2 ）对分子中的核苷酸或者氨基酸的线性排列进行定序的操作。

sequencing
测序
测定生物分子序列的过程称为测序。

serial analysis of gene expression (SAGE)
基因表达的系列分析 (SAGE)
用来评估基因表达水平的实验方法。

side chain
侧链
附着在氨基酸中心碳原子的短链或者原子基团。

silencer
沉默子
通过沉默子可以抑制基因的表达，或对基因进行有选择性的表达。

SINE
SINE
短散布（核）元件。

SNPs （ Single nucleotide polymorphisms ）
SNPs （单核苷酸多态性）
SNPs 对人类遗传学研究和医学应用具有重要的意义，如人类种群遗传学的研究，疾病易感性分析，药物基因组研究，个体化医疗。

SOM(Self organization map)
自组织映射神经网络
一种无监督学习方法，可以完成对物体的聚类。

species tree
物种树
表示物种之间关系的系统发生树。

spliceosomes
剪接体
真核生物中负责剪接的酶复合体。

splicing
剪接
指剪掉真核 hnRNA 内部序列（内含子）再将与之相邻的外显子连接起来的过程。

start codon
起始密码子
引导原核和真核生物核糖体开始翻译 mRNA 的三联密码子（特别是 AUG ）。

stem
茎干
一个 RNA 分子内部碱基配对的区域。

stop codon
终止密码子
不再使核糖体插入氨基酸而使 mRNA 翻译终止的密码子（特别是 UGA, UAG 和 UAA ）。

structural protein
结构蛋白
通常指可以维持细胞或组织形状的蛋白质，它们可以为骨骼或连接组织提供支撑的硬骨架。

STS （ sequence tagged site ）
序列标记位点
这些位点所对应的序列在基因组中可以作为特定的标记。

substitution
替换
在一定水平上通过选择过滤的突变。

Sum-of-Pairs （ SP ）
逐对加和（ SP ）
是一种多重序列比对的评价模型。

superfamily
超家族
在一定程度上具有序列相似性，可以反映远古进化关系的蛋白质家族的集合。

super-secondary structure
超二级结构
若干二级结构可能以特殊的几何组合出现在蛋白质结构中，这些组合起来的结构单元称为超二级结构。

support vector machine ， SVM
支持向量机
是一种从少量样本中提取分类信息的机器学习方法。

synonymous substitution
同义替换
指在编码序列水平上不影响蛋白质氨基酸序列发生改变的核苷酸替换。

Systems biology
系统生物学
在系统水平研究生物学过程和网络，例如遗传和代谢路径。

T

T （ Thymine ）
T （胸腺嘧啶）
在 DNA 分子中作为碱基的一种嘧啶。

target identification
靶标识别
一个特定的病原体寻找赖以生存和繁衍的生物分子的过程。

terminal node
外部（叶）节点
指系统发生树中在分支的末端代表分类单元的节点。

tertiary structure
三级结构
折叠多肽链的整体三维形状。

topology
拓扑结构
一个分子的拓扑特征，即它的构型。

transcription
转录
基因表达的第一步，即基因的 RNA 拷贝。

transcriptome
转录组
生物体 RNA 序列的全部集合。

Transformed distance method
距离变换法
一种基于距离的系统发生学重建的方法，它可以考虑不同谱系中的不同进化率

transition
转换
一种嘌呤（ A 或 G ）代替另一种嘌呤，或者一种嘧啶（ C 或 T ）代替另一种嘧啶。

translation
翻译
将 RNA 核苷酸序列中的信息转化为蛋白质氨基酸序列的过程。

transversion
颠换
用嘌呤（ G 或 A ）代替嘧啶（ C 或 T ）的突变，反之亦然。

triplet code
三联密码
在核糖体进行翻译的过程中用来产生一个氨基酸的三核苷酸组。

twofold degenerate site
双重简并位点
密码子位置，在这一点上，两种不同的核苷酸翻译成同一种氨基酸，但是如果替换成另外两个核苷酸，则会导致翻译成不同的氨基酸。

U

uninformative
非信息（位点）
在简约性分析中，序列比对中的一个位点所对应的树在这个点上引起的突变数目都相同，则称此位点是无信息的，与此对应的是“ 信息（位点）”。

unrooted tree
无根树
一类指定了节点之间的相互关系，但没有指明进化发生方向的系统发生树。

unscaled tree
非标度树
一类指明了叶结点的相对的亲缘关系，但是没有表达分离他们的相对变化次数的系统发生树。

unweighted-pair-group method with arithmetic mean (UPGMA)
非加权分组平均法（ UPGMA)
系统发生树重建中的一种方法，它采用连续聚类算法逐步建立树。

upstream promoter element
上游启动子元件
与蛋白质而不是 RNA 聚合酶相结合的真核基因启动子相关的核苷酸序列。

V

Vector Alignment Search Tool （VAST）
向量比对搜索工具(VAST）
一种结构比较搜索工具。

W

word
单词
在序列搜索中，一段固定长度的序列称为一个单词。一些数据库搜索算法将一段查询序列分成几段固定长度的单词，然后根据这些单词在序列数据库中进行搜索。