搜索

分享

QQ空间 QQ好友新浪微博微信

（伪）从零开始学转录组：读文章拿到测序数据

公彦栋 2017-10-23

展开全文

往期回顾：

（伪）从零开始学转录组：软件安装

本系列课程学习的文章是：AKAP95 regulates splicing through scaffolding RNAs and RNA processing factors. Nat Commun 2016 Nov 8;7:13347. PMID: 27824034
很容易在文章里面找到数据地址GSE81916 这样就可以下载sra文件

数据下载部分

第一步：在PubMeb上查找文献

第二步：根据文献的method部分找到RNA-Seq是如何存放的

第三步：在GEO上查找GSE81916
GEO站点： https://www.ncbi.nlm./geo/

找到了NCBI的SRA工具下载所需要的SRR编号。

GEO网址： https://www.ncbi.nlm./geo/query/acc.cgi?acc=GSE81916 分为两个部分：

共同部分：https://www.ncbi.nlm./geo/query/acc.cgi?acc=
变动部分：GSE81916

FTP网址ftp://ftp-trace.ncbi.nlm./sra/sra-instant/reads/ByStudy/sra/SRP/SRP075/SRP075747 可以分为以下几个部分

所有SRA数据的共同部分： ftp://ftp-trace.ncbi.nlm./sra/sra-instant
reads表示存放reads数据，在FTP可以看到另一个选项是analysis，表示分析结果
ByStudy表示根据Study进行分类，其他还可以根据实验ByExp,根据Run,ByRun.
sra/SRP/SRP075/SRP075747: 后面部分都是为了便于检索。

第四步：通过循环，分别用prefetch下载数据

for i in `seq 48 62`;do prefetch SRR35899${i}done

prefetch下载的数据一般存放在~/ncbi/sra文件下，prefecth在下载前会先查找该文件下是否已经存在该文件。

sratoolkit的其他软件，比如说fastqdump 在没有根据你给的路径找到文件，也会先进行下载。

知识点：如何用循环批量下载数据
注：数据很大，需要下载很久，这段时间去看文章所用的分析方法。

除了用prefetch之外还存在其他下载方案。

文章所用方法：

内容主要在Bioinformatic analyses部分
比对：

比对软件：TopHat (v2.0.13)
参考基因组：human reference genome (GRCh37/hg19)
GTF文件： GTF version GRCh37.70
只保留MQ >30的map结果
Picard-tools (v1.126)：计算平均插入大小(mean insert sizes)和标准差

read count: 软件：HTSeq v0.6.0

差异表达分析： DESeq (v3.0)

差异外显子使用分析： DEXSeq (v3.1)

GO富集分析：DAVID (http://david./).

实验设计：
样本9-15为mRNA-Seq测序结果，用于分析人类293个细胞（9-11）和小鼠ES细胞（12-15）d的AKAP95敲出影响。

原文链接是我简书地址，欢迎加入我的小密圈和我交流。

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：公彦栋 > 《Linux操作》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

公彦栋

关注对话

TA的最新馆藏

[转] android颜色
[转] 英文顔色对照表
[转] 颜色中英文对照表颜色名字色彩名称
服务器搭建: git, miniconda以及bioconda
wishbone：识别发育分支的假时序分析方法（python）
R语言

喜欢该文的人也喜欢更多

热门阅读换一换