这个报错了是为什么啊
输入数据错了
GSEA做KEGG和GO富集出来的结果都不一样吗?我用两种方法分别做了那个单通路的展示图,有点不一样
一个是基因集富集,一个是超几个分布,检验一个用了全部的基因,一个只用了差异基因
老师,请问做作业过程中,deg这个数据框里面的这个B这一列是什么意思?不记得是哪里有生成这一列了~
b是t检验的一个指标,统计学背景
为啥我在服务器里输入字符或者删减都一卡一卡的,是跟我网络有关么?
是的
老师,vim把频道删光了,然后再加频道一直报错,加不进去了
直接把~/.condarc文件删了就好了,重新添加频道
老师说的用conda安装生信相关的就好了是吧,其他不用装
是的
老师为啥我的vimtutor是英文的
记得后面要加Zh那个 课上说了
请教一下各位老师和同学,gff3里面第三列信息,biological_region是指的哪种生物学的定义?其他的那些染色体假基因什么的都知道,这个region倒是没有见过
http://www./browser/current_svn/term/SO:0001411 这个网页稍微有点介绍这个biological_region
请教老师[抱拳]现在服务器上的文件和软件,能转移到购买的共享服务器上吗?
可以用 xftp,但没必要,重新建立小环境或者下载比你这样移动会更快
用mamba安装软件报错了
用conda试试 我今天用mamba也报错了 就很奇怪,或者你加一个参数试试:conda install -y -c bioconda <SOFTWARE>
老师~能简单解释一下软连接和复制粘贴的区别吗?
软链接占你很少的磁盘空间 相当于快捷方式,复制粘贴是实实在在占空间的,上课的服务器空间有限 每个人也只有40G左右吧 如果大家都是复制粘贴 早就爆了 软链接就没关系 只在软链的地方占一份空间
酱紫!因为我看课上老师二进制手动安装用的都是cp命令
二进制软件没多大 用谁都行了 转录组数据都很大 哈哈
sed 's/_1.fastq.gz//g' | sed 's/_2.fastq.gz//g'这两个命令怎么整合到一起呢?把文件的后缀给拿掉?
ls * |sed 's#_[1|2].fastq.gz##g'
我还有一个问题哦,怎么判断文本中的分隔符是空格还是\t?我记得萌哥好像讲过,但我想不起来在哪能找到了
ls *gz |sed 's/...fastq.gz$//g' 再加一个$就可以表示从后往前 删除 几个点就是几个字符
我从头到尾重新写了一遍,不行?
echo $key_ssh
密匙定义是系统关了就失效了吗
对 这个定义只在当前会话中有效,如果你希望它一直有效的话就写到 .bashrc里或者 写到脚本里去 不要在前台运行。所以 比较方便的是 写sh脚本运行。
基础知识来一波https://mp.weixin.qq.com/s/QnmKCh_4ypcglAjSCUvwQQ
老师,请问下Homo_sapiens.GRCh38_release95.genome.fa这个文件是怎么来的?昨天构建索引的前一步不就只是下载了fa.gz和gtf.gz文件吗?
就是个fa跟你那个一样 我重命名了
这个 sample.ID是什么时候生成的?
下好数据的时候 就可以自己做一个,上课的时候是直接用了之前生成好的
老师好,在做linux结构语句练习题的时候,bowtie2装好后,-h是可以调出来帮助文档的。为啥用if语句检测时候是输出了no?
忘记回到家目录~
为啥回不回家目录直接影响了这个判断啊老师?
$? 表示你上一句命令的返回值,你倒数第二次运行的命令,报错,返回值当然不为0。
我这个是什么问题?
你前面定义的inputdir可能没定义上 你echo出来看看,因为你定义的时候加了空格,index也有问题,是前缀,不是文件夹,养成检查的习惯能给以后省很多事儿呢
不会
https://mp.weixin.qq.com/s/_DtkxSfLGQHcRju66J4yTQ
老师好,请问这个aspera下载里面 -P33001这个参数 是根据服务器会更换的吗?
不会
老师好,请问我这个语句想对SRR的文件取第二行开始,每隔3行取出来序列,是哪里代码有错误无法实现呀?最后的结果是显示了从第2行一直取下去了。。。并没有每隔3行
试试sed吧,这个代码 取得是每隔 3行 正好取到第三行 并不是隔了三行去第四行
老师,请问RNA-seq 项目结题报告里的测序饱和度分析 测序随机性分析这种可以通过分析数据得到吗?
可以,技能树公众号搜一下 检索关键词:RSeQC,这个地方理解起来比基础内容要求高一些
请问一下,我好像在学校的网络环境下登录不上生信技能树的服务器,这个可以解决吗?
换个网络
请问multiqc这个命令在质量评估步骤里最后也写了,在数据过滤trim_galore的最后也用了同样的一句话,multiqc *.zip。请问这是把两个整合在一起?然后也不需要重新命名? 请问老师如何理解呀?
一个是原始数据 一个是cleandata,分别生成在不同的文件夹
老师您好,请问是不是有黄色箭头指的这一步生成日志,所以最后一个生成的fastp.log是空的?
两个不同的log,你混了
但是我按照黄色框里面的代码去打,生成的是空的呀?
sh生成的那个log 是运行sh的时候产生的日志 不一定有内容
请教各位老师一个问题,varscan call突变的结果文件里,这个Pvalue代表什么意思?
看软件的方法部分
老师好,不知道为什么写xls文件的时候遇到permission denied,是读写权限的问题嘛?
你现在所在的不是自己的目录,你可以把输出结果 > ~/xxx.xls ,这样才是输出到自己家目录
老师好~ 我在看课程录像,然后index过程这里不知道为啥明明有文件但是建索引说不存在[脸红]
index写错误了,无需通配符,前缀即可
请问一下,如果原始数据里同一个样本有两个fq文件,比如xxxxx_1和xxxxx_2,那这两个文件分别代表什么呢?
双端测序的左端和右端哈。如果忘记了可以回去重新听一下转录组测序原理的视频哈
老师,Homo_sapiens.GRCh38_release95.genome.fa 这个文件是由Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz 解压得到的么?我用gzip解压并没有得到genome.fa的文件
文件名不一样,我重命名了,本质就是同一个
老师们,请问下用aspera下载单个样本,这个报错是为啥
从代码上来看,是没有问题的,如果你只是练习,那就这样就好。如果你真想下载,那就删除掉这个软连接文件,然后再下载
请教一下老师们~ 我想用DegNorm这个R包 我在电脑的RStudio里面运行示例代码的时候没有问题 但是在服务器中运行的时候出现了这个问题 请问老师们知道可能是什么问题造成的吗?谢谢!
这太具体了,除非遇到和你一模一样的报错,不然哪能知道[破涕为笑]
老师 我R包加载的时候出现这种错误 这种算不用管的报错吗[破涕为笑]
信息中间出现了一个Error
要处理的
老师好,请问,如果某个GSE的数据集的二代测序数据,作者有上传整理好的count数据,我们还要走linux过滤那些前期步骤吗?
如果你对作者的步骤有信任,无需
老师还有个问题,当时讲表达芯片的时候,能够综合多个数据集一起分析。那二代测序的数据,是否也能进行多个数据集的联合分析呀?那就得从原始数据利用linux走了吧?
通常需要三个图具体看批次情况
想请教一个问题,ggplot画的图,为什么导出pdf后横纵坐标和图例都没有了,但是保存成jpg格式的就有
你代码里面设置了字体,目测是没有这种字体吧,改回默认字体
老师好,还是有点疑问,为什么有的数据的测序raw count不是整数呀?一开始我以为是我弄错了什么、、、
你的数据是哪里来的 你标的这一列是代表raw count值么,是什么软件定量出来的?
是GEO的数据 人家上传的 GSE115181的数据集
那你凭什么相信他是是raw count值,有可能他做那就是个错的,有可能你不理解他的流程,有可能它是一个估算值,各种情况都有的呀,你还不如自己下载数据走一遍流程,反正转录之后很快就可以跑完,这个是我的代码https://mp.weixin.qq.com/mp/appmsgalbum?__biz=MzUzMTEwODk0Ng==&action=getalbum&album_id=1749887454125293572&scene=173&subscene=91&sessionid=1624460397&enterid=1624460402&from_msgid=2247498080&from_itemidx=1&count=3&nolastread=1#wechat_redirect 你要是速度快的话,三两个小时就完成了。
老师们我也很疑惑啊就是这种上传的他不写rawcount的话 就没办法认定是rawcount是吗[破涕为笑]
我看了原文 只看到他说用了Tophat比对 cufflinks分析差异 chippeekAnno做功能富集分析
你去看看这个软件cufflinks
这个结果看着就是 count值,tophat+cufflinks的组合已经过时了 好多年前的了,跑的还特别慢,建议直接做原始数据啊 跑一些流程 很快啊
哈哈 缘分啊 我也在做115181这个作业 他上传的东西我没看懂 就直接去下原始数据了 结果比对的时候忘记是小鼠的了 直到用人的做完了比对率才10左右才发现 又重新做 [捂脸] 很多步骤挂后台以后我就做实验去了 或者睡一觉发现好了 然后看着是对的 才开始下一步 哈哈哈
以后可以从头到尾串成一个流程 投第一个主流程 第二天就全部分析完了,串流程的学习可以参考第一天给你们推荐的6个综述里面去找
娟老师好,请教您课程代码里这个 前比后 是不是指的是group_list里面的前后排序?因为我后面验证了一个基因发现是反的回来这里找问题,想跟您再确认一下~
看design的列名,这里是后面比前面
小娟老师,https://www.jianshu.com/p/ad605d4fa6f6这个链接里star+rsem那里有点没看懂,他是基因本跟转录本分开定量了吗?我们上课的code流程只是基因本吗?
基因本用词不准确,就是基因水平的定量,是分开了,我们上课的 featurecount是基因水平的定量,salmon是转录本水平的定量
转录组分析的基本定义是什么?我可能还是有点模糊,是转录本的定量分析还是rna的分析就是转录组分析?
一个基因的表达量一般等于这个基因生成的所有转录本表达量之和,检测的对象是RNA
那基因水平定量做出来的差异分析跟转录本做出来的差异分析,差异数不一样啊?该做哪个呢
RNA反转录生成的cDNA
我们实验室之前了解过,如果是看lncRNA那些非编码RNA的话,普通转录组测到的数据不多,好像技术流程不太一样,娟老师能指导更多一点知识不?我也疑惑
去看B站 曾老师的 lncRNA分析专题,上课的流程适用的范围是普通转录组,带有polyA尾的mRNA测序。从total RNA中首先采用磁珠富集出来mRNA 然后片段化等 建库。lncRNA一般分析的是total RNA 去除rRNA 然后测序 包含mRNA lncRNA 少量circRNA。smallRNA又是另一个流程,小RNA也有专门的建库方式。circRNA除了这个去rRNA还有 消化性线性建库 去除线性的RNA留下circRNA建库,你看看 第一天的PPT。
这里有一个专题 lncRNA从入门到精通
https://mp.weixin.qq.com/mp/appmsgalbum?action=getalbum&__biz=MzAxMDkxODM1Ng==&scene=1&album_id=1322384987060142080&count=3#wechat_redirect
我其实已经用STAR比对完了,是不是可以直接衔接这链接里面的stringtie往下走?