【原】话二| 直面单细胞数据里的难

健明 2024-05-23 发布于广东

展开全文

赛尔，你好。

过去的一周，我的心绪总在跌宕着。每一天都有新的事情发生，使我不能静静地在键盘上回复你的留言，想说的话题好像很多，多到一定程度，又不知从何说起。

就像单细胞测序，从2018年开始，已经有不少的文字，既有不断发表的新文章，也有不少经典方法的更新。2018年有人问什么是barcode，2024年依然有人这样问。数据分析的方法虽然有所改善，但是依然还在Seurat所定义的框架内。我这几年的体会是：单细胞数据分析一直很难，不管接触单细胞数据多久，都会这么觉得。

为什么会这样？

前两天在翻《人工智能在生物信息学中的应用》时，在1.3.3组学数据的类型与特点中，作者的洞察或许可以解惑一二。

大数据量。人类所有的基因都能测到，也就是所有的通路都可以分析。这也为数据分析带来挑战：只要你能想到的机制，单细胞测序都能关联上。单细胞数据分析难点之一：聚焦
高维数，大样本。本来在书中，作者写的是“高维数，小样本”，其实2024年的今天，单细胞的样本量越来越大，就像多个平行宇宙的故事一样，如何穿插成一个完整的故事？
非线性。数据类型多样，样本不均衡，非线性的特点决定了，单细胞数据分析过程也是一个渐进明晰的过程，往往需要不断反复。
高噪声。单细胞数据的质控几乎是除了预算之外的第二个拦路虎，比学习编程这条坎还难以逾越。线粒体、核糖体、中值基因、批次校正、双细胞率，这里的每一个都可能要花上个把星期才能说服自己。
数据分布不均衡。特别是临床数据，某些容易获得的样本数量过多，如癌组织，但是正常组织就很少。大家翻翻已经公开的数据库，肿瘤数据库很多，泛癌研究很多，而健康人的单细胞数据基线在哪里？
多组学整合。每个组学都可以理解为一个调控网络，两个结构不同的网络，如何链接在一起？
结论的佐证。这里我们可以思考一个问题：单细胞数据也是测出来的，为什么它的结果还需要其他方法来验证呢？

不管怎么说，单细胞数据分析一直很难。

所以，有时候再给老师朋友答疑的时候，我会冒出一句：欲戴皇冠，必承其重。我们的确是要带着这些难题来讲述自己的生物学故事。

这让我想起高中的时候，有段时间很迷茫，看到别人的成绩那么好、受教育环境那么好、穿的那么好，而自己该如何是好？当时的我，告诉自己：我的确是要在这样的初始条件下，开创幸福人生！

所有的“难”终将过去，或伴随我们成长。

不把这些“难”转嫁出去，而是与之共舞，也很酷。正所谓：两岸猿声啼不住，轻舟已过万重山。

在过去的几年里，单细胞数据分析中进展最快，也讨论最多的当属细胞类型注释，既有cellmarker 这样的数据库，也有大量的算法，比如ChatGPT，然而就在最近，Nature Medicine上的一篇Multiomic analyses uncover immunological signatures in acute and chronic coronary syndromes文章Fig1,用的还是十分朴素的注释和标注的方法。

这个故事告诉我们，虽然很难，只要我们懂得抓住主要矛盾，也能讲好故事。懂得忽略什么，和懂得重视什么一样重要，有时候甚至更重要。如中值基因、线粒体含量、双细胞……

各地陆续入夏，分享每到夏天就会想起的两首诗词，以供消暑。

苏幕遮·燎沉香
宋 周邦彦

燎沉香，消溽暑。鸟雀呼晴，侵晓窥檐语。
叶上初阳干宿雨，水面清圆，一一风荷举。

故乡遥，何日去？家住吴门，久作长安旅。
五月渔郎相忆否？小楫轻舟，梦入芙蓉浦。

《跨越自己》
现代 汪国真

我们可以欺骗别人
却无法欺骗自己
当我们走向枝繁叶茂的五月
青春就不再是一个谜

向上的路
总是坎坷又崎岖
要永远保持最初的浪漫
真是不容易

有人悲哀
有人欣喜
当我们跨越了一座高山
也就跨越了一个真实的自己

你的运来
2024/05/23
于南京

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：健明 > 《待分类》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

健明

关注对话

TA的最新馆藏

RunTSNE二维及三维结果可视化
单细胞亚群的命名的细致程度需要有一个度
人类淋巴器官中的B细胞亚群分群-1
胃癌单细胞数据集GSE163558复现(三)：细胞分群注释
话五 | 不要忽视你不愿看到的单细胞数据
人类胃癌(GC)器官特异性转移的转录异质性

喜欢该文的人也喜欢更多

热门阅读换一换