转载于http://blog.sina.com.cn/s/blog_8de3399d0102x2tk.html
做全外显子捕获数据分析,也就是现在常见的外显子分析,都涉及到要下载目标捕获文件,用来计算捕获效率,覆盖度等。而且GATK流程里面有很多步骤有一个
-L
的参数,interval的意思,其实就是所谓的这个目标捕获区域文件,文件格式为BED格式,后面会另开博客专门介绍常见文件格式。
不同实验室或公司建库用的试剂盒不同,所以下载的网址和方式也不同。这个博文中介绍的是安捷伦的捕获文件下载,用illumina的可以绕道去别地找找了。
首先,当然是网址了,找了挺多资料终于扒到它。。。。https://earray.chem./suredesign/index.htm?sessiontimeout=true
,打开后有一个login的对话框,首次登陆当然是要注册的了,然后就register吧,按照instruction一步步走,最后login进去,页面如下图所示,什么也没有对不对
![]()
点进去后,发现是下面这个界面,哇塞,有各种版本的耶,V5是我们现在用的,就是红色框框里面那个,哎呀,居然有download链接。。顿时欣喜若狂,感觉到巅峰。。。
Buuuuuut,
点开后,尼玛居然是这么个玩意,看看下图,晕了吧,说好的bed文件居然有四个,仿佛感觉自己被掏空。。。不得不再经过一番查证。最终本人认为是红框框里面那个,好了,你们可以勾选上,点击下载了。。然后我慢慢道来,这些文件究竟是何方妖孽。。
[design
ID]_all_tracts.bed
是包括了其他三个bed的所有信息的。所以只需要理解其他几个文件保存的是什么就ok了。
[design ID]_Regions.bed
包含了安捷伦试剂盒用来选择引物的目标区间。可以用来在选择引物时,程序得到的精准区间。。。讲真,我也不知道在说什么。
[design
ID]_Coveraged.bed 包含了一个或多个引物覆盖的区域,然后这个可以用来估计coverage
metrics,诶,,虽然不很很明白建库那一套,但是这个信息给了很明确的指示,应该就是这个没错了。
[design
ID]_Padded.bed 我自己理解就是一些区域中间的连接片段啥的吧,我不负责这个说法,,纯属猜测。
关于这些文件的英文解释,可以参考下这个网页里面给的解释,https://www./p/5187/,懒得看英文的就凑合参考下我对这几个文件的理解。
Enjoy~~~~~~ |
|
来自: BIOINFO_J > 《sequencing》