首先,什么是数据库? 这是度娘和wiki的定义 度娘: 数据库是“按照数据结构来组织、存储和管理数据的仓库”。是一个长期存储在计算机内的、有组织的、可共享的、统一管理的大量数据的集合。 数据库是以一定方式储存在一起、能与多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合,可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据进行新增、查询、更新、删除等操作。[1] Wiki: 数据库,又称为数据管理系统,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。[2] 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。一个数据库由多个表空间(Tablespace)构成。 参考文献: [1]王珊 萨师煊.数据库系统概率(第5版):高等教育出版社,2014:4 [2]陈春旭、余明兴、李建全 译:《数据库系统概论》第四版,儒林图书有限公司,1986年7月,第3页 开始之前 先介绍一下如何查找文献 https://pubmed.ncbi.nlm./ 这个网址,点进,然后输入(fig 1) 找到文献 然后将文献导出为 Endnote 可识别的数据结构(fig 2) 文件结构是这样的(fig 3.) 选择pubmed格式 导入Endnote 结果(fig 5) 当然,你还可以去使用关键词进行文献检索(fig 6) So easy...... 我们继续 生物数据库有很多 衍生菌 搜索网络资源整理了一个分类 这里 衍生菌 建议记住几个数据库 INSDC:International Nucleotide Sequence Database Collaboratio(国际核苷序列联合数据库) 由GenBank(美国)、ENA(欧洲)、DDBJ (日本)三大核苷酸数据库组成的联合核苷酸数据库,让生物资源得以信息贡献。 其中 NCBI(genbank)美国 EMBL(ENA)欧洲 DDBJ 亚洲(日本的) 他们的数据一直在交流 可以视作是一样的 以genbank为例 随便找一个基因 点进去,你能看到这么个东西 别着急 我们一条一条来 LOCUS:基因名称(默认是ACCESSION号,可以自己起名字) DEFINITION:基因描述 ACCESSION:数据库编号,也叫做检索号,每条记录的检索号在数据库中是唯一且不变的。即使数据提交者改变了数据内容,Accession 也不会变。(这个比较重要) KEYWORDS: 提供能够大致描述该条目的几个关键词,可用于数据库搜索。 SOURCE:基因序列所属物种的俗名。 ORGANISM:是对所属物种更详细的定义,包括他的科学分类。 REFERENCE: 是基因序列来源的科学文献 FEATURES:注释内容,它描述了如:定位,质量检测。 source: 核酸序列来源。 misc_feature:生物学特性无法用特性表关键词描述的序列(衍生菌 也没太弄明白) regulatory:调控序列 gene:基因名称 exon:外显子 prim_transcript:转录片段 intron:内含子 CDS:Coding Segment,编码区。对于原核生物来讲,CDS 记录了一个开放阅读框。 sig_peptide:信号肽 mat_peptide:成熟肽(图fig 8. 所示 有多个成熟的肽)及各个片段的编号和链接。 ORIGIN:序列 咳咳。。 〒▽〒 o(╥﹏╥)o 衍生菌 手都麻了 不三连一下或者投一个圆圆的东西表示一下吗? 实在想白嫖的话 就评论一个 衍生是伟大的~~~ (≖ᴗ≖)✧ φ(>ω<*) |
|