分享

孟德尔随机化---R语言VCF文件读取

 葛医生_EP日记 2023-09-21

有何AI与医学:开始补充一些文章解析,以及之前没有写过,但是有朋友咨询的内容

01 下载数据


图片

VCF文件是GWAS中常见的一种格式,我这里使用IEU下载得到的VCF文件进行演示,链接放到这个里,大家可以下载练习:https://gwas./datasets/ieu-a-1055/

图片

02 安装软件


图片

VCF文件这里我们使用vcfR包来读取。

# 清空环境变量,如果环境有后面需要的变量,只要不报错不清楚也可以
rm(list=ls())
#设置工作目录
setwd("~/vcfdata/")
#读取文件
#下载vcfR包
install.packages("vcfR")

03 读取数据


图片

#读取VCF文件,我这里下载了IEU数据库数据
data <- vcfR::read.vcfR("ieu-a-1055.vcf.gz")
#如注释文件所示,ES代表beta值、SE代表se、LP代表-log10(P值)、AF代表eaf、“ID”代表SNP的ID
gt <- data.frame(data@gt)
dat <- as.character(unlist(strsplit(gt$ieu.a.1055split = ":")))#strsplit切分;unlist解开
fix<-data.frame(data@fix)#为SNP位点的基本信息
#转化为data.frame
matrix<-matrix(data=dat,ncol=5,byrow=T)
frame<-data.frame(matrix) 
# 获取到的列命名
colnames(frame)<-c("ES","SE","LP","AF","ID")
exp<-cbind(fix,frame)

读取数据后我们先看一下,vcf如下图所以,vcf文件由三个部分组组成,meta,fix,gt。

图片

meta部分主要是注释信息,如数据的列名注释等。

图片

gt fix 两个储存看具体信息,gt为ES代表beta值、SE代表se、LP代表-log10(P值)、AF代表eaf、“ID”代表SNP的ID。fix储存的为染色体编号和位置,SNPID,REF参考等位基因频率,ALT等位基因频率。

图片

之后按代码整理,将两部分合并,生成exp如下图。

图片

007

交流群

如果觉您觉得本公众号可以对您带来帮助,可在文章中给我们简短致谢!:Thanks to Xu Zhang of Youhe AI and Medicine

需要加入孟德尔随机化交流群的朋友加我微信拉大家,微信号:

dxchzx(为保证交流环境,一定注明姓名,单位来意)。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章