分享

生信技能树公众号文章读后感

 健明 2021-07-14

jimmy

生信技能树联盟创始人

前段时间号召了一下大伙帮忙写我以前的公众号推文教程点评,以及我在B站的 57小时的全套生物信息学入门视频学习心得,欢迎大家继续提交读后感!!!

《WGS、WES、RNA-seq组与ChIP-seq之间的异同》读后感


通过阅读这篇文章,明白了常用术语WES(Whole-exome sequencing,全外显子测序)、转录组测序(RNA-seq)、染色质免疫共沉淀测序(ChIP-seq)的意思及运用范围。

外显子测序测的是所有的能被探针捕获到的外显子区域,由于需要设计探针,所以测序范围只能是已知的基因组序列信息;

转录组测序获得的是某一物种特定组织或器官在某一状态下的几乎所有转录本序列信息,可以反映特定时刻、特定组织该物种的基因表达情况,其测的是能被转录的区域,包括Non-coding RNA,范围比外显子测序范围大,但受到表达情况的影响;

ChIP-seq测的是目标蛋白结合的DNA序列,测序范围是不确定的、未知的,不同蛋白质,其所捕获DNA序列区域是不同的。

由于ChIP-seq取决于目的蛋白的结合,所以其测序深度都不高,而且测序深度极度的不稳定,深浅不一;转录组测序以外显子为单位不均匀,反映了表达量差异,所以同一基因内大部分外显子等深度,但不同基因测序深度不一样;外显子测序则是测序深度会由外显子往内含子递减。

最后还明白了一些这些测序之间的异同点,值得注意的是从转录组获得的遗传信息可能受到转录后加工的影响而导致与基因组不符,而外显子测序无此影响。

通过这篇文章,明白了什么样的测序数据该用在什么范围,可以揭示什么生物学意义。

《NGS基础概念-depth and coverage》读后感


通过阅读这篇文章,明白了测序深度和测序覆盖度的概念。

测序深度 = reads长度 × 比对的reads数目 / 参考序列长度

可以理解为基因组中每个碱基被测序到的平均次数,比如人类的基因组大小是3G(30亿个碱基),全基因组测序共8.9亿条150bp的reads,那么全基因组范围的平均测序深度就是

8.9亿*150/30亿~45X

反之,已知测序深度和待测基因组大小(参考序列长度),便可得知测序获得的总数据量。

还明白了需要根据研究目的来选择相应的测序深度。例如,若要检测个体的全基因组突变以寻找某个特定功能突变,大于30X的测序深度较好。

覆盖度指的是基因组上至少被检测到1次的区域,占整个基因组的比例。但有些文章中也会将测序深度称为Coverage,所以需要根据语境判断Coverage的意思。

由于基因组中的高GC、重复序列等复杂结构的存在,测序最终拼接组装获得的序列往往无法覆盖有所的区域,这部分没有获得的区域就称为Gap。

对于两者的关系,“测序深度与基因组覆盖度之间是一个正相关的关系,而测序带来的错误率或变异检测(例如,SNP)假阳性结果会随着测序深度的提升而下降。”

《入门生物信息,门在哪?》读后感


这篇文章告诉了我“如何学习生信”,可以说给我这个几乎完全不懂生信的小白该如何入门。

首先得学会如何使用谷歌搜索关键词,这可以说是最重要的,很多问题得学会自己解决,而百度搜索确实在这方面强差人意。

我之前学过一些翻墙的方法,所以进谷歌搜索不是什么问题,而这篇文章告诉了我该如何用谷歌来解决别人已经有答案的现成问题。

接下来的内容都很有用,如操作系统用Linux,编程基础有R、Python等,需要有统计学的知识,还推荐了很多学习资料,我想具体的内容也只有花时间才能搞懂,具体内容现在也说不出。

另外,《鸟哥的Linux私房菜》这本书据说是很好的Linux入门书,网上一片好评,打算买来学习。

《如何快速入门生物信息学》读后感


这篇文章很现实地告诉我一个问题,学好生物信息学,得先要自己补课,补操作系统(Linux)的,补统计学的,补编程语言(R、Python)的,然后才能“从零开始学转录组”。

里面还提到“虽然高通量数据分析方法变化很快,但是先通过RNA-Seq入门生物信息,知道这是什么,能做什么,然后再把基础打扎实,那么就能以不变应万变”。

这样看来,学会转录组的分析应该是第一步(在具备上述基础的前提下)。

《【生信菜鸟经】如何系统入门R语言》读后感


选择这一篇是因为我之前在生物统计学课程上学过R语言,相较于Python、Perl来说我对R稍微熟悉一点,里面提到的六步我基本上都有些接触,但第二到第六步都有不熟的地方。

我曾经被生信老师安排学习bioconductor中的TROM包,用于转录组作图(但由于他的数据有问题,老师对我这块也不是真正重视,就属于可带不想带那种,所以后来就没下文了),所以还算有点皮毛。

部分截图如下

这篇文章告诉了我一些画图用的函数,以及要进行高级转换,就需要一些时间来学习apply系列函数,aggregate,split等函数的用法。当然,前面的基础步骤,对向量,数据框,数组,列表的了解,知道如何查看数据的特性,我还需复习和加强。

《方差分析-最全》读后感


选择这篇文章是因为之前在生物统计学课程上学过这块,内容稍熟,这篇文章把我之前所学知识进一步深化了。

“方差分析的基本思路为:将试验数据的总变异分解为来源于不同因素的相应变异,并作出数量估计,从而明确各个变异因素在总变异中所占的重要程度;也就是将试验数据的总变异方差分解成各变因方差,并以其中的误差方差作为和其他变因方差比较的标准,以推断其它变因所引起的变异量是否真实的一种统计分析方法。”

“把对试验结果发生影响和起作用的自变量称为因素(factor),即我们所要检验的对象。如果方差分析研究的是一个因素对于试验结果的影响和作用,就称为单因素方差分析。因素的不同选择方案称之为因素的水平(level of factor)或处理(treatment)。因素的水平实际上就是因素的取值或者是因素的分组。样本数据之间差异如果是由于抽样的随机性造成的,称之为随机误差;如果是由于因素水平本身不同引起的差异,称之为系统误差。”

具体扩充的内容需要在进一步实践中才能真正学会。

我当时的一个作业如下:

我的作答如下:

得到的结果如下

得到方差分析表,可以看到A因素(品种)和交互效应都非常显著,而B因素(密度)不显著。

列出这个作业是为了说明我有一点了解,也有信心深入学习。

Attention


    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多