前些天一个学员分享的是:文章测序数据下载碰到的问题的小总结(南京站学员分享)
回顾了课程内容,发现刚好对应原始数据的质量控制这一部分,包括测序质量统计和质量控制。打算看几遍流程和示例代码之后直接上手。不过在示例代码里发现有一个参数的值不是很明白不知道怎么修改。 --length参数表示小于设定值的序列会被修剪,在示例代码里给的值是36,不太明白这个值是怎么来的,难道有什么规则?带着疑问在群里咨询了一下,jimmy老师并没有直接解释,而是让我自己去看一下--length参数的默认值,引导我自己去解决问题(非常非常赞)。 首先我通过man查询了trim_galore软件的详细信息发现--length的信息出现了两次有两个默认值,前者默认值是20bp表示默认小于20bp的read会被修剪掉。在老师的提醒下发现后者(参数前面有-r1和-r2)指的是当一对read只剩下一个时保留的最小长度,默认值是35bp。但是我还是不太明白为什么示例是36bp,我再次提问,才了解到原来36是老师自己选的,其实和默认值差异不大。 为了让我理解差异的大小,按着老师的建议我分别把--length的设定值选成30bp、35bp、36bp和50bp并查看经过trim_galore软件处理后的qc差异,结果如下。 从结果可以看到总序列数上设定值35/36的差异很小,按老师的话来讲其实数据处理的设定值没有标准答案,只要清楚自己的目的就行。最后为了放心我分别拿设定值为35bp和36bp的结果做下游分析,结果上完全一样!(我们是用建库后用高通量来做突变体基因型鉴定的,我的目标序列长度都大于我的设定值) 老师的引导式答疑真的很赞,这个过程收获很多,非常感谢~ |
|