搜索

分享

QQ空间 QQ好友新浪微博微信

【原】GEO的数据注释文件没有基因名肿么破？

医学数据库百科 2021-01-08

展开全文

写在前面

我们在处理GEO芯片数据的时候，经常会碰到芯片的数据的注释文件没有提供基因名，只有基因的序列。替代的解决办法就是对所有的注释数据来进行批量的blast，利用注释文件提供的序列来通过blast获得具体的基因是什么。但是如果要进行大批量的blast的话，基本上就需要代码行来运行，而这样的操作就需要门槛了。所以今天给大家介绍一种简陋版的批量blast的方法，算是解决一些编程基础的同学的难题吧！

实例数据集介绍

这一次我们使用GSE114083来进行演示。这个数据集是一个关于胃癌的lncRNA的芯片数据。

我们点开这个数据库的注释文件，就会发现，这个注释文件只有基因序列是没有基因名的，这个我们在利用GEO2R进行差异表达分析的时候，得到的数据也就是没有基因名的。这个时候如果我又很想使用这个数据集的话。那就只能对这个表格当中的序列进行注释了。

基本操作

简陋版的基本原理还是主要还是利用NCBI里面的BLAST网站来进行分析的 (https://blast.ncbi.nlm./Blast.cgi)。由于做的是核酸的BLAST，所以我们在这里需要选择核酸比对。

在核酸比对的网页当中，有一个提供上传文件的选项。在这里上传的是一个fasta的格式的文件，所以我们需要利用数据集的序列来构建一个fasta的序列。

那怎么才能批量的构建这些序列的fasta的文件呢？这里我面提供一个excel函数操作的例子吧。当然大家有更好的方法同样可以使用。

1.我们需要把数据集的探针ID和序列提取处理放到excel当中。

2.由于fa的文件对于序列的注释是有通过>来进行，所以我们首先需要对芯片ID添加>。这里我们可以在两列之间添加一个空白列，然后输入：=">"&A1

3.fa的格式需要第一行是>的注释，下面一行是序列的文件。所以我们需要把注释信息和后面序列合并到一起。这个时候我们可以在后面的空白处输入：=OFFSET(B$1,INT((ROW(A1)-1)/2),MOD(ROW(A1)-1,2))

4.这样我们就得到了一列是符合fa数据格式的列了。我们复制这一列的数据，然后把它粘贴到txt文件里面。

5.最后把txt的文件改成fa后缀即可。

6.有了fasta文件就可欢快的去blast。

结果处理

以上就是基本的blast过程了。我面只需要等一会儿就可以得到所有blast的结果了。在结果当中，我面只需要在下载当中下载csv文件即可。

下载下来的结果是这个样子的，我们可以看到数据的第一列是探针的ID，第二列则是比对的选择的提geneid。

这个时候需要去除掉geneid小数点和后面的数字就可以进行ID转换了。具体ID转换的工具可以见我们的第二条推送。

写在后面

以上就是简单的批量blast的基本过程了。这种基本上也就是适用于少量的序列blast。比如差异表达分析完之后的那些可以试一下，网页版的还是如果序列过多可能会很慢，所以如果序列过多的话还是建议用代码哦。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：医学数据库百科 > 《待分类》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

医学数据库百科

关注对话

TA的最新馆藏

GENE ONTOLOGY-基因本体功能查询数据库
mqtldb-meQTL预测数据库
如何关注自己的研究方向
不做实验可以发表哪些类型的文章
eccDNAdb｜肿瘤染色体外环状DNA数据库
CircleBase｜eccDNA综合性分析数据库

喜欢该文的人也喜欢更多

热门阅读换一换