【原】引导式答疑启发学员理解生信软件的参数选择和阈值调整（南京站学员分享）

健明 2021-07-14

展开全文

全国巡讲的步伐迈入了近20个城市，发现南京站的学员们踊跃分享学习成果，我也很纳闷，是做对的什么才带领了这股风潮呢？以前大家都是蒙头学会了就ok了，这次大家表现的都想要加入生信技能树创作团队！

前些天一个学员分享的是：文章测序数据下载碰到的问题的小总结(南京站学员分享)

这次让我们看看另外一个优秀学员的笔记：

一周前参加了生信技能树的南京站培训，回来时刚好有一批高通量二代测序的数据需要处理，师姐说学以致用正好可以练练手。仔细了解了一下我们的数据是来自测序公司的raw data，我需要做的就是处理成clean data才能进行下一步分析。

回顾了课程内容，发现刚好对应原始数据的质量控制这一部分，包括测序质量统计和质量控制。打算看几遍流程和示例代码之后直接上手。不过在示例代码里发现有一个参数的值不是很明白不知道怎么修改。

生信技能书示例代码

--length参数表示小于设定值的序列会被修剪，在示例代码里给的值是36，不太明白这个值是怎么来的，难道有什么规则？带着疑问在群里咨询了一下，jimmy老师并没有直接解释，而是让我自己去看一下--length参数的默认值，引导我自己去解决问题（非常非常赞）。

首先我通过man查询了trim_galore软件的详细信息发现--length的信息出现了两次有两个默认值，前者默认值是20bp表示默认小于20bp的read会被修剪掉。在老师的提醒下发现后者（参数前面有-r1和-r2）指的是当一对read只剩下一个时保留的最小长度，默认值是35bp。但是我还是不太明白为什么示例是36bp，我再次提问，才了解到原来36是老师自己选的，其实和默认值差异不大。

参数详情1

参数详情2

为了让我理解差异的大小，按着老师的建议我分别把--length的设定值选成30bp、35bp、36bp和50bp并查看经过trim_galore软件处理后的qc差异，结果如下。

设定值30bp

设定值35bp

设定值36bp

设定值50bp

从结果可以看到总序列数上设定值35/36的差异很小，按老师的话来讲其实数据处理的设定值没有标准答案，只要清楚自己的目的就行。最后为了放心我分别拿设定值为35bp和36bp的结果做下游分析，结果上完全一样！（我们是用建库后用高通量来做突变体基因型鉴定的，我的目标序列长度都大于我的设定值）

老师的引导式答疑真的很赞，这个过程收获很多，非常感谢~