【原】如何快速入门生物信息学

健明 2021-07-14

展开全文

在二代测序之前，生物学家处理的生物数据大多数可以通过手工完成。因为数据量不大，所以都能在文献中附上自己用到的序列，NCBI也会每年出几本纸质版的数据集合。

但是二代测序之后，一切都改变了。原先可能只需要将1000多条序列与基因组比对，而现在却要将成千上亿序列比对到参考序列上。处理这类生物大数据，对计算机性能和软件算法都是一种挑战。

在目前高通量测序领域，根据测序的文库类型，可以分为DNA-Seq，RNA-Seq，ChIP-Seq等。DNA-Seq又可以继续分为全基因组测序(WGS)，全外显子测序（WES）,简化基因组测序()如RAD-Seq)。
RNA-Seq也可以继续分为mRNA-Seq, lncRNA-Seq等。目前比较火的单细胞序(single-cell Sequencing)，则是各种测序在单个细胞水平上的操作。

刚进入这个领域，你一定会迷惘，不知所措，到底要学哪一个？我的建议是学习RNA-Seq，尤其是差异基因座表达分析这一部分。因为在这个方面，体系趋于成熟，大部分问题都能通过搜索引擎得到解答。因此我根据自己的学习感悟，将RNA-Seq 差异基因表达分析流程分为8步进行介绍，从环境准备开始，到从文献中下载数据，还有下载参考基因组和注释信息，接着是序列比对，基因read计数，在到差异基因表达分析，最后是富集分析。中间还需要进行质量控制以及可视化。

本图来自于 RNA-Seq Data Analysis-A pratical approach

（伪）从零开始学转录组全系列

（伪）从零开始学转录组（1）：软件安装

（伪）从零开始学转录组（2）：读文章拿到测序数据

（伪）从零开始学转录组（3）：了解fastq的测序质量

（伪）从零开始学转录组（4）：了解参考基因组及基因注释

（伪）从零开始学转录组（5）序列比对

（伪）从零开始学转录组（6）：read计数

（伪）从零开始学转录组（7）：差异基因表达分析

(伪）从零开始学转录组（8）：富集分析

我希望这能帮到你，当然这也是我学习的一次总结。顺便解释一下为什么这个系列是（伪）的。

第一：只不是真正的零基础教程，我预设了你有一定的Linux基础。

第二：因为很多人问我自己零基础如何入门生物信息学呀？我觉得他想听到的回答的句型应该是 只要XXX，就能XXX，就好像一些《21天学会XXX》书名那样。如何快速入门生物信息学的答案就是花上足够长的时间学习。

对于学霸而言，他们知道能力是通过不断积累而形成的，而对于学渣而言，他们希望的是最后的押题卷

因此，实践这一个系列，你未必真的能顺利入门生物信息学。你需要补习操作系统基础（Linux），你需要掌握基础的统计学知识（概率分布，统计推断等），你还得掌握几门编程语言，R，Python，Java， C等。在编程语言上的掌握，不只是你会调用软件包，还得根据语法结构写自己的脚本。当然你还得保证你的

当你看到目前那么多测序类型和种类繁多的数据分析方法，你肯定会慌乱，觉得自己无法掌握那么多的数据分析方法。请冷静下来，安心把基础打扎实。如果你不了解比对的原理，你就难以通过调整默认参数，用来适应当前的研究。如果你不懂得基础的统计学原理，对照组和实验组都只有一个样本，还企图算出p值，当然p值本身都是议论纷纷。还有富集分析，你要是不知道叫做基因本体论(GO)，结果你都未必能看懂。

虽然高通量数据分析方法变化很快，但是先通过RNA-Seq入门生物信息，知道这是什么，能做什么，然后再把基础打扎实，那么就能以不变应万变。

如果你觉得再微信上看文章不舒服，我还建立了专门的GitHub用于更新我的文章和数据。https://github.com/xuzhougeng/Learn-Bioinformatics。