分享

GenBank内容简介1

 我是皮卡丘 2021-12-02

首先,什么是数据库?

这是度娘和wiki的定义

度娘:

数据库是“按照数据结构来组织、存储和管理数据的仓库”。是一个长期存储在计算机内的、有组织的、可共享的、统一管理的大量数据的集合。

数据库是以一定方式储存在一起、能与多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合,可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据进行新增、查询、更新、删除等操作。[1]

Wiki:

数据库,又称为数据管理系统,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。[2]

所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。一个数据库由多个表空间(Tablespace)构成。

参考文献:

[1]王珊 萨师煊.数据库系统概率(第5版):高等教育出版社,2014:4

[2]陈春旭、余明兴、李建全 译:《数据库系统概论》第四版,儒林图书有限公司,1986年7月,第3页

开始之前

先介绍一下如何查找文献

https://pubmed.ncbi.nlm./

这个网址,点进,然后输入(fig 1)

fig 1.进入Pubmed并搜索

找到文献

然后将文献导出为 Endnote 可识别的数据结构(fig 2)

fig 2.文献查找与导出

文件结构是这样的(fig 3.)

fig 4. 导出的文件

选择pubmed格式

导入Endnote

结果(fig 5)

fig 5. 成功导入

当然,你还可以去使用关键词进行文献检索(fig 6)

fig 6. 使用关键词查找文献

So easy......

我们继续

生物数据库有很多

衍生菌 搜索网络资源整理了一个分类

fig 7. 生物数据库及分类

这里 衍生菌 建议记住几个数据库

INSDC:International Nucleotide Sequence Database Collaboratio(国际核苷序列联合数据库)

由GenBank(美国)、ENA(欧洲)、DDBJ (日本)三大核苷酸数据库组成的联合核苷酸数据库,让生物资源得以信息贡献。

其中

NCBI(genbank)美国

EMBL(ENA)欧洲

DDBJ 亚洲(日本的)

他们的数据一直在交流

可以视作是一样的

以genbank为例

随便找一个基因

点进去,你能看到这么个东西

fig 8. 不知道是什么的东西

别着急

我们一条一条来

LOCUS:基因名称(默认是ACCESSION号,可以自己起名字)

DEFINITION:基因描述

ACCESSION:数据库编号,也叫做检索号,每条记录的检索号在数据库中是唯一且不变的。即使数据提交者改变了数据内容,Accession 也不会变。(这个比较重要)

KEYWORDS: 提供能够大致描述该条目的几个关键词,可用于数据库搜索。

SOURCE:基因序列所属物种的俗名。

ORGANISM:是对所属物种更详细的定义,包括他的科学分类。 

REFERENCE: 是基因序列来源的科学文献

FEATURES:注释内容,它描述了如:定位,质量检测。 

source: 核酸序列来源。

misc_feature:生物学特性无法用特性表关键词描述的序列(衍生菌 也没太弄明白) 

regulatory:调控序列

gene:基因名称

exon:外显子

prim_transcript:转录片段

intron:内含子

CDS:Coding Segment,编码区。对于原核生物来讲,CDS 记录了一个开放阅读框。

sig_peptide:信号肽

mat_peptide:成熟肽(图fig 8. 所示 有多个成熟的肽)及各个片段的编号和链接。

ORIGIN:序列

咳咳。。

〒▽〒

o(╥﹏╥)o

衍生菌 手都麻了

不三连一下或者投一个圆圆的东西表示一下吗?

实在想白嫖的话

就评论一个

衍生是伟大的~~~

(≖ᴗ≖)✧

φ(>ω<*) 

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多