搜索

分享

QQ空间 QQ好友新浪微博微信

挖掘SRA的辅助小工具（NCBI高通量测序数据收录库）

生物_医药_科研 2019-04-14

展开全文

写在前面

伴随高通量测序技术的普及，海量的测序数据被产生并上传到网络数据库，如NCBI SRA。我们每个人都可以很轻易地获得这些数据，并用于有生物学问题针对性地分析。数据容易获取，但数据具体来源和信息却难以查看和整理。（如果图片不清晰，请点击阅读原文）

SRA数据检索与查看中遇到的问题

通常，我们会先进入SRA数据库进行检索，如

其中，总共可看到菠萝可能有381个已收录的测序数据。
对这些数据进行信息筛选，如我们需要的是菠萝，果实，RNAseq数据，那么一般操作是

我们会得到一张表格，

看起来信息非常丰富，但基本没用。因为很多重要的信息并没有被包括进来。
所以聪明的做法，是

在页面中，我们可以看到最后，有组织以及其他发育阶段等相关记录（当然并不是所有数据都会有，只是比上述的RunInfo.txt信息全面很多）

当所需要筛选的数据只有几十个的时候，RunSelector事实上确实基本足够使用，可是超过60个就需要翻页，且常常无法下载表格用于进一步筛选。

一个新增的功能

事实上，在SRA检索结束后，我们下载文件时，会有另外一个选项，

这个XML文件，正如其名Full，其最真实的保留了每一个检索结果的几乎所有记录信息。所以，解析这个文件，是一个解法。

下载后打开这个文件，可发现，XML并非阅读友好的文件格式。但事实上，这个确实包括了所有我们需要的信息。

于是，我在TBtools中新增了一个功能，

使用起来非常简单，直接将下载完成好的SraExperimentPackage.xml文件，设置为输入，并设置好输出文件即可

于是我们得到表格

写在后面

以上，即是新功能的用处，或许并不是太多人会用到，不过我会用到。（恩...似乎有某个R包可以做，不过我相信，那个包在用户友好上可以继续提升）
最近我并没有推新的功能。主要精力放在个人的课题上，而事实上，也改进了TBtools中不少工具。其中有一处改动是对newick tree的解析，变得更加稳健。同时也改进了基于双名获得进化关系的工具。之前只支持被子植物（基于APG IV），现在我增加多数低等植物的可能的进化关系进去。当然也包括裸子植物等。

可以看到，现在可以可视化所有已测序的植物列表（被子植物，裸子植物，苔藓，蕨类，藻类...），一共是374个物种，你需要做的，只是提供一个双名列表。

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：生物_医药_科研 > 《待分类》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

生物_医药_科研

关注对话

TA的最新馆藏

国产第2款MET抑制剂获批，盘点30亿级赛道的入局者和新机会
黑色素瘤一线治疗又添新方案！FDA批准首个免疫+双靶向疗法用于BRAFV600突变晚期黑色素瘤
国际视野丨胆道恶性肿瘤的靶点及耐药机制
恒瑞创新药卡瑞利珠单抗联合阿帕替尼非小细胞肺癌研究发表于JTO
17 款四代靶向药，全面攻坚 EGFR 耐药
最全整理汇总：HER2阳性乳腺癌靶向治疗研究进展

喜欢该文的人也喜欢更多

热门阅读换一换