【原】文章的最高境界-让人无法重复出来？？？

健明 2021-07-14

展开全文

看到2020年2月发表在nature cancer这个新杂志的文章《Single-cell analyses reveal increased intratumoral heterogeneity after the onset of therapy resistance in small-cell lung cancer》链接是：https://www./articles/s43018-019-0020-z 里面有普通的18个样品的bulk转录组数据以及25个单细胞转录组数据。

主要是 (CTC)-derived xenografts (CDXs) ，听说过是技术难度很高！

首先是突变全景图很突兀，也很诡异

如下：

突变全景图

全文反正也没有提到如何测序，是WGS,WES还是说仅仅是 panel，没有突变数据分析的描述，仅仅是提到了BWA和VARSCAN软件而已，也不上传数据。这样的话，我们只能是假设研究者没有造假咯！

反正没有数据可以下载，而且作者描述的也超级简陋，做啥图表复现都不可能额！

单细胞呢，好像缺一个样品！！

单细胞的实验环节，正文里面说的倒是很清楚，是目前主流的10X商业化仪器的数据：

Sorted cells were washed once with 0.04% bovine serum albumin in phosphate-buffered saline and counted on a Countess II automated cell counter (Thermo Fisher Scientific). A total of 12,200 cells were loaded per lane on the 10× Chromium platform and processed for complementary DNA synthesis and library preparation, per the manufacturer’s protocol using version 2 chemistry. Complementary DNA and libraries were checked for quality on an Agilent 4200 TapeStation and quantified by KAPA quantitative PCR before sequencing on a single lane of a HiSeq 4000 (Illumina).

数据分析细节如下：

单细胞数据分析细节

完全没办法接受研究者的阈值，居然是表达的基因数量少于3000的细胞直接就过滤了！！！这个是10X商业化仪器的数据啊~~~

而且明明是8个单细胞转录组的 CDXs 数据，正文也写了；t-SNE analysis of eight CDXs. 结论是：Cells from each CDX were more similar to themselves than to other models. 但是上传的数据呢，缺失那个 HCI开头的样品：

https://www.ncbi.nlm./bioproject/PRJNA575243
https://www./ena/browser/view/PRJNA575243

反正我找了很久，都是看不到的！

t-SNE 图

这8个单细胞转录组数据的独立聚类分群如下：

肿瘤样品独立聚类分群

这些分析都超级简单，基本上单按照细胞基础10讲

一步步分析即可！

虽然原始数据可以在EBI下载原始数据，但是缺关键信息

根据 https://www.ncbi.nlm./geo/query/acc.cgi?acc=GSE138267 可以拿到ebi数据库链接，链接是：https://www./ena/browser/view/PRJNA575243

如下所示，每个单细胞样品，都仅仅是提供了一个fastq文件：

其实前面我们提到过，10X的单细胞转录组原始数据的话，比较特殊，它的测序文库中包括index、barcode、UMI和测序reads。

首先，1-26个cycle就是测序得到了26个碱基，先是16个Barcode碱基，然后是10个UMI碱基；
然后，27-34这8个cycle得到了8个碱基，就是i7的sample index；
最后35-132个cycle得到了98个碱基，就是转录本reads，需要拿去做比对的！

作者仅仅是提供一个fastq文件，基本上可以定论，这样的数据没意义了。但是为了让我们的结论更保险，我还是亲自下载看看，可以参考：使用ebi数据库直接下载fastq测序数据 , 需要自行配置好，然后去EBI里面搜索到的 fq.txt 路径文件。这里演示一个数据的下载即可：

conda activate download
dsa=$HOME/miniconda3/envs/download/etc/asperaweb_id_dsa.openssh
ls -lh $dsa
 nohup   ascp -QT -l 300m -P33001 -i $dsa       \
 era-fasp@fasp.sra.:/vol1/fastq/SRR102/073/SRR10211573/SRR10211573.fastq.gz ./  &

花了半个小时下载了这个接近 20G的数据，看了看前面的一点点：

@SRR10211573.1 K00384:78:HLM37BBXX:3:1101:27630:1261/2
CATTTTGTANTACGGGGATACCTGNGACTGCACCNTTAAAAAATATATTTATCATTTAANTCTTGGGTAANCACACTTCATAACAGAGNAGAGNGANT
+
A<<-----<#--7--7---77A-7#7JJFAAJ7J#7-FF-<--<--77--77AF<----#-<<----<77#FJ-<-AJ--7--7-7--#-7-<#--#-
@SRR10211573.2 K00384:78:HLM37BBXX:3:1101:27813:1261/2
AGTGAATCCNAATACTTACAGCCCNCTGATGTGCNCCAAAGTAAACAAAAACAATGATGNTAATGGACACNCTCTTCAATATACTAGGNGGAGNGGNG
+
A---<<---#--<A<<F<F-FFF-#7-7---7-<#---7F<-AA<F-<-AAFJF---7-#-AF-7-7-7A#F7-777-----7---<-#-7--#7-#7

很正常的转录本reads数据信息，但是缺Barcode文件信息。假如作者提供的10x数据是合格的，就可以走我们的流程即可，参考我在《生信技能树》的教程：cellranger更新到4啦（全新使用教程）