有何AI与医学:开始补充一些文章解析,以及之前没有写过,但是有朋友咨询的内容
VCF文件是GWAS中常见的一种格式,我这里使用IEU下载得到的VCF文件进行演示,链接放到这个里,大家可以下载练习:https://gwas./datasets/ieu-a-1055/ VCF文件这里我们使用vcfR包来读取。
# 清空环境变量,如果环境有后面需要的变量,只要不报错不清楚也可以 rm(list=ls()) #设置工作目录 setwd("~/vcfdata/") #读取文件 #下载vcfR包 install.packages("vcfR")
#读取VCF文件,我这里下载了IEU数据库数据 data <- vcfR::read.vcfR("ieu-a-1055.vcf.gz") #如注释文件所示,ES代表beta值、SE代表se、LP代表-log10(P值)、AF代表eaf、“ID”代表SNP的ID gt <- data.frame(data@gt) dat <- as.character(unlist(strsplit(gt$ieu.a.1055, split = ":")))#strsplit切分;unlist解开 fix<-data.frame(data@fix)#为SNP位点的基本信息 #转化为data.frame matrix<-matrix(data=dat,ncol=5,byrow=T) frame<-data.frame(matrix) # 获取到的列命名 colnames(frame)<-c("ES","SE","LP","AF","ID") exp<-cbind(fix,frame)
读取数据后我们先看一下,vcf如下图所以,vcf文件由三个部分组组成,meta,fix,gt。 meta部分主要是注释信息,如数据的列名注释等。 gt fix 两个储存看具体信息,gt为ES代表beta值、SE代表se、LP代表-log10(P值)、AF代表eaf、“ID”代表SNP的ID。fix储存的为染色体编号和位置,SNPID,REF参考等位基因频率,ALT等位基因频率。
之后按代码整理,将两部分合并,生成exp如下图。 如果觉您觉得本公众号可以对您带来帮助,可在文章中给我们简短致谢!:Thanks to Xu Zhang of Youhe AI and Medicine。 需要加入孟德尔随机化交流群的朋友加我微信拉大家,微信号: dxchzx(为保证交流环境,一定注明姓名,单位来意)。
|