【原】2021第四期_生信入门班_微信群答疑笔记

健明 2021-08-29

展开全文

做教学我们是认真的，如果你对我们的马拉松授课（直播一个月互动教学）有疑问，可以看完我们从2000多个提问互动交流里面精选的200个问答！

与十万人一起学生信，你值得拥有下面的学习班：

下面是2021第4期生信入门微信群答疑精选200题

各位老师好，请问，IGV必须装在C盘么

R和Rstudio要装在C盘， IGV等其它软件可以放在别的盘

mac安装软件是否不用管什么，直接安装就是了

是的

R包下载过程时间好像挺长的，这时候电脑能休眠吗？

不行

我的R和Rstudio是之前下载的，用的还挺顺利的，还用重新下载么

R版本需要4以上的

请问这里点了下载下载了好多遍都不行，Windows10的选择清华的，应该怎么处理呢?

网盘里面我们准备好了R语言，可以非常方便下载

貌似安装不了网盘里面的这个软件

感觉可以换个mac的ftp软件，到时候讲师帮你安装

这个安装了，应用程序中怎么找不到？

这个是基础设施，并不是软件，理解一下这个概念

是否选一个安装

iterm2的话更像是mac原生的“终端”(或者叫terminal)，所以不装ierm2直接使用系统自带的terminal也是完全OK的

请问这里为什么复制不了那些R包？粘贴不上去

R安装时，旧版本卸载后重启一下电脑
我已经安装了R了，他这个意思是说没安装，要重新装？

有安装在C盘吗？

重新装在C盘了，但是运行报错了

点这里重新创建一个脚本，然后把代码粘贴到这里

电脑最低配制什么？

https://mp.weixin.qq.com/s/3AJ8rbEHcz9F0qDpIJANVg

怎么安装xx包，都是统一的答案

仿写代码，你看看你现在运行的脚本，install.packages，BiocManger::install，都试一下

安了好几遍了，还是不行

去这个文件夹把这个文件删掉

R包安装

右键，管理员打开。

老师好，电脑是windows，从给的网盘材料里下载安装的IGV，IGV安装好了，但是双击以后就感觉屏幕上有界面闪现了一下，没有跳出来软件的界面。

正常的，等后面上课会讲

老师请问R studio打不开是什么原因呢重复安装三遍了电脑是windows 10 从网盘材料里下载安装的谢谢！

看答疑文档 Q4

卸了重装吧。三年前的版本了

我现在关不掉，也没法重新安装RStudio

任务管理器杀掉，

请教一下老师，安装这两个包，一直提示没有.First函数？

奇奇怪怪的问题，重启一下电脑试试

请问老师们怎么看待phython和R呢[愉快]

要是做影像组学好像python更好一些，转录组基因组这些的下游R实现起来更方便吧 python有的语法挺麻烦的

想请教下：数据框中每一列的数据类型是否必须相同？[抱拳]

每一列之内需要相同，列与列之间可以不同

数据框要求每列长度相等，缺了的话怎么办呀？

可以先用NA补齐

这里面有两个ERROR，怎样解决呢

网络问题，R包下载不完全，再重新运行下代码或者换个网络

老师，右侧不见的部分如何打开

你在 terminal是Linux命令，应该是去console，

请问，如果我想修改数据框第1和3列的列名，这个代码为什么不对？

这里取子集不对

老师好，课程回放里，后面讲的ggsave() 和三段论是分别两种保存方法？

是的

那ggsave以后，还要dev.off()不？

不用，但是，ggsave仅仅是针对 ggplot派系的图像哦，它很流行，但并不是唯一绘图派系

优秀学员笔记https://mp.weixin.qq.com/mp/appmsgalbum?action=getalbum&__biz=MzAwMDUzNTIxNA==&scene=1&album_id=1894714083283615746&count=3#wechat_redirect

排版颜值也是在线的，工具mdnice

优秀学员终极练习题

https://www./docs/share/4d15544b-93c5-4d7d-83aa-6fc535ce2077
https://www./docs/share/12206c08-2b2b-4b31-bf32-6b9502e11186

有一个好玩的包，很方便查看任何基因的转录本结构

library(ggbio)

# hg38

library(EnsDb.Hsapiens.v86)

ensdb <- EnsDb.Hsapiens.v86

autoplot(ensdb, GeneNameFilter("TNFSF15")) + theme_bw()

这个报错了是为什么啊

输入数据错了

GSEA做KEGG和GO富集出来的结果都不一样吗？我用两种方法分别做了那个单通路的展示图，有点不一样

一个是基因集富集，一个是超几个分布，检验一个用了全部的基因，一个只用了差异基因

老师，请问做作业过程中，deg这个数据框里面的这个B这一列是什么意思？不记得是哪里有生成这一列了~

b是t检验的一个指标，统计学背景

为啥我在服务器里输入字符或者删减都一卡一卡的，是跟我网络有关么？

是的

老师，vim把频道删光了，然后再加频道一直报错，加不进去了

直接把~/.condarc文件删了就好了，重新添加频道

老师说的用conda安装生信相关的就好了是吧，其他不用装

是的

老师为啥我的vimtutor是英文的

记得后面要加Zh那个课上说了

请教一下各位老师和同学，gff3里面第三列信息，biological_region是指的哪种生物学的定义？其他的那些染色体假基因什么的都知道，这个region倒是没有见过

http://www./browser/current_svn/term/SO:0001411 这个网页稍微有点介绍这个biological_region

请教老师[抱拳]现在服务器上的文件和软件，能转移到购买的共享服务器上吗？

可以用 xftp，但没必要，重新建立小环境或者下载比你这样移动会更快

用mamba安装软件报错了

用conda试试我今天用mamba也报错了就很奇怪，或者你加一个参数试试:conda install -y -c bioconda <SOFTWARE>

老师~能简单解释一下软连接和复制粘贴的区别吗？

软链接占你很少的磁盘空间相当于快捷方式，复制粘贴是实实在在占空间的，上课的服务器空间有限每个人也只有40G左右吧如果大家都是复制粘贴早就爆了软链接就没关系只在软链的地方占一份空间

酱紫！因为我看课上老师二进制手动安装用的都是cp命令

二进制软件没多大用谁都行了转录组数据都很大哈哈

sed 's/_1.fastq.gz//g' | sed 's/_2.fastq.gz//g'这两个命令怎么整合到一起呢？把文件的后缀给拿掉？

ls * |sed 's#_[1|2].fastq.gz##g'

我还有一个问题哦，怎么判断文本中的分隔符是空格还是\t？我记得萌哥好像讲过，但我想不起来在哪能找到了

ls *gz |sed 's/...fastq.gz$//g' 再加一个$就可以表示从后往前删除几个点就是几个字符

我从头到尾重新写了一遍，不行？

echo $key_ssh

密匙定义是系统关了就失效了吗

对这个定义只在当前会话中有效，如果你希望它一直有效的话就写到 .bashrc里或者写到脚本里去不要在前台运行。所以比较方便的是写sh脚本运行。

基础知识来一波https://mp.weixin.qq.com/s/QnmKCh_4ypcglAjSCUvwQQ
老师，请问下Homo_sapiens.GRCh38_release95.genome.fa这个文件是怎么来的？昨天构建索引的前一步不就只是下载了fa.gz和gtf.gz文件吗？

就是个fa跟你那个一样我重命名了

这个 sample.ID是什么时候生成的？

下好数据的时候就可以自己做一个，上课的时候是直接用了之前生成好的

老师好，在做linux结构语句练习题的时候，bowtie2装好后，-h是可以调出来帮助文档的。为啥用if语句检测时候是输出了no？

为啥回不回家目录直接影响了这个判断啊老师？

$? 表示你上一句命令的返回值，你倒数第二次运行的命令，报错，返回值当然不为0。

我这个是什么问题？

你前面定义的inputdir可能没定义上你echo出来看看，因为你定义的时候加了空格，index也有问题，是前缀，不是文件夹，养成检查的习惯能给以后省很多事儿呢

不会

https://mp.weixin.qq.com/s/_DtkxSfLGQHcRju66J4yTQ
老师好，请问这个aspera下载里面 -P33001这个参数是根据服务器会更换的吗？

不会

老师好，请问我这个语句想对SRR的文件取第二行开始，每隔3行取出来序列，是哪里代码有错误无法实现呀？最后的结果是显示了从第2行一直取下去了。。。并没有每隔3行

试试sed吧，这个代码取得是每隔 3行正好取到第三行并不是隔了三行去第四行

老师，请问RNA-seq 项目结题报告里的测序饱和度分析测序随机性分析这种可以通过分析数据得到吗？

可以，技能树公众号搜一下检索关键词：RSeQC，这个地方理解起来比基础内容要求高一些

请问一下，我好像在学校的网络环境下登录不上生信技能树的服务器，这个可以解决吗？

换个网络

请问multiqc这个命令在质量评估步骤里最后也写了，在数据过滤trim_galore的最后也用了同样的一句话，multiqc *.zip。请问这是把两个整合在一起？然后也不需要重新命名？请问老师如何理解呀？

一个是原始数据一个是cleandata，分别生成在不同的文件夹

老师您好，请问是不是有黄色箭头指的这一步生成日志，所以最后一个生成的fastp.log是空的？

两个不同的log，你混了

但是我按照黄色框里面的代码去打，生成的是空的呀？

sh生成的那个log 是运行sh的时候产生的日志不一定有内容

请教各位老师一个问题，varscan call突变的结果文件里，这个Pvalue代表什么意思？

看软件的方法部分

老师好，不知道为什么写xls文件的时候遇到permission denied，是读写权限的问题嘛？

你现在所在的不是自己的目录，你可以把输出结果 > ~/xxx.xls ，这样才是输出到自己家目录

老师好~ 我在看课程录像，然后index过程这里不知道为啥明明有文件但是建索引说不存在[脸红]

index写错误了，无需通配符，前缀即可

请问一下，如果原始数据里同一个样本有两个fq文件，比如xxxxx_1和xxxxx_2，那这两个文件分别代表什么呢？

双端测序的左端和右端哈。如果忘记了可以回去重新听一下转录组测序原理的视频哈

老师，Homo_sapiens.GRCh38_release95.genome.fa 这个文件是由Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz 解压得到的么？我用gzip解压并没有得到genome.fa的文件

文件名不一样，我重命名了，本质就是同一个

老师们，请问下用aspera下载单个样本，这个报错是为啥

从代码上来看，是没有问题的，如果你只是练习，那就这样就好。如果你真想下载，那就删除掉这个软连接文件，然后再下载

请教一下老师们~ 我想用DegNorm这个R包我在电脑的RStudio里面运行示例代码的时候没有问题但是在服务器中运行的时候出现了这个问题请问老师们知道可能是什么问题造成的吗？谢谢！

这太具体了，除非遇到和你一模一样的报错，不然哪能知道[破涕为笑]

老师我R包加载的时候出现这种错误这种算不用管的报错吗[破涕为笑] 信息中间出现了一个Error

要处理的

老师好，请问，如果某个GSE的数据集的二代测序数据，作者有上传整理好的count数据，我们还要走linux过滤那些前期步骤吗？

如果你对作者的步骤有信任，无需

老师还有个问题，当时讲表达芯片的时候，能够综合多个数据集一起分析。那二代测序的数据，是否也能进行多个数据集的联合分析呀？那就得从原始数据利用linux走了吧？

通常需要三个图具体看批次情况

想请教一个问题，ggplot画的图，为什么导出pdf后横纵坐标和图例都没有了，但是保存成jpg格式的就有

你代码里面设置了字体，目测是没有这种字体吧，改回默认字体

老师好，还是有点疑问，为什么有的数据的测序raw count不是整数呀？一开始我以为是我弄错了什么、、、

你的数据是哪里来的你标的这一列是代表raw count值么，是什么软件定量出来的？

是GEO的数据人家上传的 GSE115181的数据集

那你凭什么相信他是是raw count值，有可能他做那就是个错的，有可能你不理解他的流程，有可能它是一个估算值，各种情况都有的呀，你还不如自己下载数据走一遍流程，反正转录之后很快就可以跑完，这个是我的代码https://mp.weixin.qq.com/mp/appmsgalbum?__biz=MzUzMTEwODk0Ng==&action=getalbum&album_id=1749887454125293572&scene=173&subscene=91&sessionid=1624460397&enterid=1624460402&from_msgid=2247498080&from_itemidx=1&count=3&nolastread=1#wechat_redirect 你要是速度快的话，三两个小时就完成了。

老师们我也很疑惑啊就是这种上传的他不写rawcount的话就没办法认定是rawcount是吗[破涕为笑]

我看了原文只看到他说用了Tophat比对 cufflinks分析差异 chippeekAnno做功能富集分析你去看看这个软件cufflinks 这个结果看着就是 count值，tophat+cufflinks的组合已经过时了好多年前的了，跑的还特别慢，建议直接做原始数据啊跑一些流程很快啊

哈哈缘分啊我也在做115181这个作业他上传的东西我没看懂就直接去下原始数据了结果比对的时候忘记是小鼠的了直到用人的做完了比对率才10左右才发现又重新做 [捂脸] 很多步骤挂后台以后我就做实验去了或者睡一觉发现好了然后看着是对的才开始下一步哈哈哈

以后可以从头到尾串成一个流程投第一个主流程第二天就全部分析完了，串流程的学习可以参考第一天给你们推荐的6个综述里面去找

娟老师好，请教您课程代码里这个前比后是不是指的是group_list里面的前后排序？因为我后面验证了一个基因发现是反的回来这里找问题，想跟您再确认一下~

看design的列名，这里是后面比前面

小娟老师，https://www.jianshu.com/p/ad605d4fa6f6这个链接里star+rsem那里有点没看懂，他是基因本跟转录本分开定量了吗？我们上课的code流程只是基因本吗？

基因本用词不准确，就是基因水平的定量，是分开了，我们上课的 featurecount是基因水平的定量，salmon是转录本水平的定量

转录组分析的基本定义是什么？我可能还是有点模糊，是转录本的定量分析还是rna的分析就是转录组分析？

一个基因的表达量一般等于这个基因生成的所有转录本表达量之和，检测的对象是RNA

那基因水平定量做出来的差异分析跟转录本做出来的差异分析，差异数不一样啊？该做哪个呢

RNA反转录生成的cDNA

我们实验室之前了解过，如果是看lncRNA那些非编码RNA的话，普通转录组测到的数据不多，好像技术流程不太一样，娟老师能指导更多一点知识不？我也疑惑

去看B站曾老师的 lncRNA分析专题，上课的流程适用的范围是普通转录组，带有polyA尾的mRNA测序。从total RNA中首先采用磁珠富集出来mRNA 然后片段化等建库。lncRNA一般分析的是total RNA 去除rRNA 然后测序包含mRNA lncRNA 少量circRNA。smallRNA又是另一个流程，小RNA也有专门的建库方式。circRNA除了这个去rRNA还有消化性线性建库去除线性的RNA留下circRNA建库，你看看第一天的PPT。

这里有一个专题 lncRNA从入门到精通 https://mp.weixin.qq.com/mp/appmsgalbum?action=getalbum&__biz=MzAxMDkxODM1Ng==&scene=1&album_id=1322384987060142080&count=3#wechat_redirect
我其实已经用STAR比对完了，是不是可以直接衔接这链接里面的stringtie往下走？

https://mp.weixin.qq.com/s?__biz=MzAxMDkxODM1Ng==&mid=2247504544&idx=1&sn=25275b763b6e695a39f6ca26a9f93fe9&chksm=9b4b921bac3c1b0d986da3ad78b33462da2b2c9d2bfdb61f558ea8a39febdd17cdf2e4ef8435&scene=178&cur_album_id=1322384987060142080#rd

http://ccb./people/salzberg/docs/Pertea_et_al-2016-Nature_Protocols.pdf
你看下这段话 stringtie对比对有些要求

曾老师这个码是不是有问题啊？会报错

根据你学到的Linux基础去debug，报错显示是if语句部分，结构不对。你把脚本的路径给我，我看看。
脚本我这边经过测试，完全没有问题的，所以，你提交任务的代码有问题， nohup 。。。&括号在外面
还有一个问题，这个有重名，输出结果会乱的
你可以试试曲线救国, 把一步完成的任务分成两步. 即写个脚本来生成用于每个样品运行的脚本, 再去运行每个样品对应的脚本。比如, 你这里主体内容是要生成0~4这五个脚本, 你可以不用括号而使用echo 把命令打印出来存到另一个脚本里, 然后再去运行. 如果一步完成不了, 那就试试分步完成。例如: for i in {0..4}; do echo "nohup xxxxxxx &"; done >> myScript.sh。这样你就能得到5条命令, 之后再运行myScript.sh就可以了.