实实在在的4款不同配置的服务器推荐给你,价格区间是一万五到两万五之间,配置是范围是16~64G内存,8~16核,4~16T的存储。在做抉择之前,我先给大家普及一些NGS组学数据的相关知识。
全外显子数据 比如下面这个新加坡研究者做的ESCC的外显子测序研究,对一个肿瘤病人取正常组织加上4个不同部位的肿瘤组织的外显子测序数据如下:
3.9G Sep 20 10 : 38 ESCC13 - N_1 . fastq . gz
4.3G Sep 20 10 : 38 ESCC13 - N_2 . fastq . gz
5.3G Sep 20 11 : 32 ESCC13 - T1_1 . fastq . gz
5.9G Sep 20 11 : 32 ESCC13 - T1_2 . fastq . gz
4.6G Sep 20 06 : 44 ESCC13 - T2_1 . fastq . gz
5.1G Sep 20 06 : 44 ESCC13 - T2_2 . fastq . gz
3.9G Sep 20 03 : 30 ESCC13 - T3_1 . fastq . gz
4.4G Sep 20 03 : 30 ESCC13 - T3_2 . fastq . gz
4.1G Sep 20 00 : 42 ESCC13 - T4_1 . fastq . gz
4.5G Sep 20 00 : 42 ESCC13 - T4_2 . fastq . gz
这个项目是双端150bp的测序,测序从46到65 million 不等。一个样本测序数据占接近10G的存储空间,而且是gz压缩后的fastq格式数据。而这一个样本的数据处理过程会耗费接近100G的存储空间,所以根据你自己实际项目规划,你可以算一算需要多少T的硬盘存储。外显子测序我一般会分配5个线程,25~40G的内存,一个样本完成GATK流程需要耗时一天。
转录组数据 比如下面这个老鼠精子研究项目:
3.9G Sep 26 16 : 16 GSM860181_priSG - A_RNAseq . fq . gz
3.4G Sep 26 16 : 14 GSM860182_SG - A_RNAseq . fq . gz
2.5G Sep 26 16 : 01 GSM860183_SG - B_RNAseq . fq . gz
3.3G Sep 26 16 : 03 GSM860184_lepSC_RNAseq . fq . gz
2.7G Sep 26 15 : 52 GSM860185_pacSC_RNAseq . fq . gz
3.1G Sep 26 15 : 51 GSM860186_rST_RNAseq . fq . gz
2.5G Sep 26 15 : 38 GSM860187_eST_RNAseq . fq . gz
3.0G Sep 26 15 : 41 GSM860188_SE_RNAseq . fq . gz
因为是单端100bp的测序,测序从13到25million 不等,所以单个样本只占4G不到的磁盘空间,转录组数据处理的中间过程比较简单,可以一步输出bam,不会耗费太多的磁盘空间。
全基因组数据 下面是一个韩国人的全基因组数据,代号是KPGP00001 很容易从网络上找到他的如下测序数据
5.8G Feb 12 2014 KPGP - 00001 _L1_R1 . fq . gz
6.2G Feb 12 2014 KPGP - 00001 _L1_R2 . fq . gz
5.6G Feb 12 2014 KPGP - 00001 _L2_R1 . fq . gz
5.9G Feb 12 2014 KPGP - 00001 _L2_R2 . fq . gz
5.3G Feb 12 2014 KPGP - 00001 _L3_R1 . fq . gz
5.5G Feb 12 2014 KPGP - 00001 _L3_R2 . fq . gz
5.3G Feb 12 2014 KPGP - 00001 _L4_R1 . fq . gz
5.5G Feb 12 2014 KPGP - 00001 _L4_R2 . fq . gz
5.2G Feb 12 2014 KPGP - 00001 _L5_R1 . fq . gz
5.4G Feb 12 2014 KPGP - 00001 _L5_R2 . fq . gz
5.9G Feb 12 2014 KPGP - 00001 _L6_R1 . fq . gz
6.1G Feb 12 2014 KPGP - 00001 _L6_R2 . fq . gz
因为全基因组测序数据比较大,所以分成了6条lane来上样测序。采用的是双端90bp的测序,每条lane的数据从85到95 million 不等。 看起来,每条lane等于一个外显子测序样本,所以从磁盘空间消耗和数据处理对计算机资源消耗来说,是类似的。
ChIP-seq数据 可能是为了节省存储空间,我做完这个项目,就把原始的fastq数据给删除了,只能给大家秀一下bam文件了。
611M Jan 5 2017 cbx7 . bam
985M Jan 5 2017 IgG . bam
500M Jan 5 2017 IgGold . bam
747M Jan 5 2017 ring1B . bam
1.2G Jan 5 2017 RYBP . bam
838M Jan 5 2017 suz12 . bam
bam文件其实与原始的fastq文件是差不多大小的,可以看到ChIP-seq数据算是最节省计算资源的数据了。
其它类型NGS数据 如果是芯片数据,那么个人电脑就可以了,没必要专门买服务器。
如果是新物种基因组的de novo组装,那么本文不适合你,转录组的 de novo组装,勉强还可以。
如果是WGBS,我没有做过,按照道理跟WGS类似的计算资源消耗。
挑选服务器吧 第一款是京东组装机
两万五全套
京东组装机 第二款是戴尔品牌机
戴尔品牌机 第三款是淘宝组装机
淘宝组装机 第四款是云服务器
8核32G内存0.5T存储,12800每年
阿里云服务器 开始你的选择吧