搜索

分享

QQ空间 QQ好友新浪微博微信

孟德尔随机化---R语言VCF文件读取

昵称69125444 2023-09-21

展开全文

有何AI与医学：开始补充一些文章解析，以及之前没有写过，但是有朋友咨询的内容

01 下载数据

VCF文件是GWAS中常见的一种格式，我这里使用IEU下载得到的VCF文件进行演示，链接放到这个里，大家可以下载练习：https://gwas./datasets/ieu-a-1055/

02 安装软件

VCF文件这里我们使用vcfR包来读取。

# 清空环境变量，如果环境有后面需要的变量，只要不报错不清楚也可以
rm(list=ls())
#设置工作目录
setwd("~/vcfdata/")
#读取文件
#下载vcfR包
install.packages("vcfR")

03 读取数据

#读取VCF文件，我这里下载了IEU数据库数据
data <- vcfR::read.vcfR("ieu-a-1055.vcf.gz")
#如注释文件所示，ES代表beta值、SE代表se、LP代表-log10（P值）、AF代表eaf、“ID”代表SNP的ID
gt <- data.frame(data@gt)
dat <- as.character(unlist(strsplit(gt$ieu.a.1055, split = ":")))#strsplit切分；unlist解开
fix<-data.frame(data@fix)#为SNP位点的基本信息
#转化为data.frame
matrix<-matrix(data=dat,ncol=5,byrow=T)
frame<-data.frame(matrix) 
# 获取到的列命名
colnames(frame)<-c("ES","SE","LP","AF","ID")
exp<-cbind(fix,frame)

读取数据后我们先看一下，vcf如下图所以，vcf文件由三个部分组组成，meta,fix,gt。

meta部分主要是注释信息，如数据的列名注释等。

gt fix 两个储存看具体信息，gt为ES代表beta值、SE代表se、LP代表-log10（P值）、AF代表eaf、“ID”代表SNP的ID。fix储存的为染色体编号和位置，SNPID，REF参考等位基因频率，ALT等位基因频率。

之后按代码整理，将两部分合并，生成exp如下图。

007

交流群

如果觉您觉得本公众号可以对您带来帮助，可在文章中给我们简短致谢！：Thanks to Xu Zhang of Youhe AI and Medicine。

需要加入孟德尔随机化交流群的朋友加我微信拉大家，微信号：

dxchzx（为保证交流环境，一定注明姓名，单位来意）。

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：昵称69125444 > 《科研》

举报/认领

0条评论

请遵守用户评论公约

类似文章

昵称69125444

关注对话

TA的最新馆藏

Nature Medicine：184个国家因含糖饮料导致的2型糖尿病和心血管疾病负担
Circulation重磅研究：中南大学湘雅二院使用MIMIC大数据揭秘阴离子间隙与ICU脓毒症患者死亡率相关！
房颤系列(一)——房颤非传统风险因素新进展：流行病学、机制与临床策略
青少年血压越高，亚临床心血管损伤越严重！Hypertension美国研究
Lancet Oncol. | 肿瘤心脏病学 | 纵向 | 儿童癌症幸存者的心血管事件增加
JACC Heart Fail丨相同风险因素，女性患心衰风险更高？这篇UKB研究告诉你“幕后真凶”！

喜欢该文的人也喜欢更多

热门阅读换一换