今天要分享的是合集 临床 生物信息学生物信息学实验指南中的临床第五章Bioinformatics Challenges in Genome-Wide Association Studies (GWAS)
导图总结 Jason H. Moore教授作家就职于达特茅斯大学盖塞尔医学院,研究方向是生物统计、SPARCoC软件组,还写过一本书Computational Methods for Genetics of Complex Traits(2010)有钱了找来看看。。。。 真的很贵
好的,继续写这篇文章 摘要疾病:研制开发了AS的基本概念、实验基因组遗传变异的技术、遗传力的选择问题、转换到数据的如何利用新的如电子历) 关键词:数据插补, 上位性, 电子病历, 过滤, 基因-基因相互作用, GWAS, Meta分析, 遗传缺失, 复制 一、简介GWAS 是基于常见疾病-共同变异(Common Disease—Common Variant,CD-CV)假说的,即常见疾病(II型糖尿病,类风湿性关节炎或原发性变异等)部分是由遗传变异引起的这在人群中也很常见。 SNP遗传力和疾病遗传力的关系 如果常见变异体的效应量小,但常见病在家族中表现出很强的遗传性(高遗传力),那么几乎从定义上看,该病一定是受到多种遗传因素的影响。 缺失的 遗传力问题: GWAS在检测占任何常见疾病性状遗传力很大一部分的遗传变异方面的成功有限。举例来说,在乳腺癌研究中作者的位置只能解释 5.9%的中寻找两种方法。 *产生的原因之一是上位静态相互作用。 生物上位性是指受多种遗传变异影响的生物分子之间的物理相互作用。统计上位性是多个基因之间非加性相互作用的术语,每个基因都会影响疾病易感性和环境。 *解决办法: 1) 设计我们的研究以寻找SNP 之间的非线性相互作用。2)使用元分析和数据插补等方法 来提高我们的统计能力。3)建立定义表型的严格标准 二、材料介绍了这里Illumina医疗平台和电子唱片公司的应用程序,以及电子产品的应用程序 三、方法
GWAS 流程概述
1 关于基本概念: SNP —— DNA序列中的单个碱基对变化,现已成为 现代遗传变异单位 MAF - 不太常见的等位基因的频率称为次要等位基因频率 LD-连锁不平衡是衡量一个位点的 SNP 等位基因与附近变异位点携带的特定等位基因之间的相关性。用 D' 或 r2 来计算 单倍型——染色体上等位基因的特殊组合 tag SNPs in strong LD with other variant around them最终会被筛选出来 2关于实验设计: (1)病例对照VS定量 案例-对照通常是什么类型或样本中的样本/研究结果。若有不同类型的案例不同说明不同的不同情况说明不同;量化它的研究范围通常与连续性或连续性有关, LDL等位值(如HDL等值),研究SNP基因的频率与数量性状相关。 (2)标准化表型标准 案例的归类归一化有时是对重要的合作类型,特别是在多个合作中。案例研究里把病人由案件控制的影响很大的影响表研究。 (3)关联测试(重点)1)预防准备选择合适的方法——关联分析分为等位基因或基因型与表型联结,需根据具体情况选择显性、隐蔽性、可加性相关模型来 调整数据集使用回归方法协变以防出现假结果 群体结构分析群体变量子结构——作为重要的协和,由于群体分层,种族特异性 SNP 可能会显示与某一性状相关,可以用STRUCTURE或 EIGENSTRAT来分析 2)单一位点VS多位点在二元特征、案例对照研究中常采用列联表法或逻辑回归。 *列联表总结了每个基因型组中单个双等位基因 SNP 的个体数量。它搜索与零假设的偏差,即表型和基因型之间没有关联。例如卡方检验或SAS、SPSS、Stata或Microsoft Excel 的Fisher 精确检验。 *Logistic regression is an extension of linear regression where the phenotypic outcome studied is transformed using a logistic function. This method predicts the probability of an individual having a case status, given their genotype class. 因允许协变量调整而被更广泛地使用 量化分析,常采用Variance ANOVA分析(ANOVA)它假设1)性状是正态分布 的,2)性状在每个组内的方差相同, 3)组是独立的。对于 单 SNP 分析,ANOVA 在 零假设下起作用。 PLINK是 GWAS 分析软件,使用功能强大,可以使用中的操作方法,可以 通过所有方法 或继承模型(或使用 Cochran Armitage列联表方法)进行测试。 过度使用分析去检查非线性单一位点相互作用分析会在之前提到过的问题,因此需要对时间类型和多重关系建模,更全面的方法来识别基因型 - 表型的复杂景观在整个基因组的遗传变异之间。这里最大的挑战是处理 50 万个 SNP 会花费大量计算资源,需要用特定的过滤方法来减轻计算压力。 一般 GWAS 单一 SNP 分析会基于 MAF 进行最初的 30 个 SNP 过滤(仍然会留下 NPs),然后会设置显着性连接的 LD 值筛选出一些主效标记(和疾病强的单核苷酸多态性) 过滤过滤器 过滤器在另一个标记、另一个家族中没有一个在检测的方法中,这样的数据集可以被过滤,因此,只有那些在另一个生物标记中存在的路径才能被过滤蛋白质家族,以及参与某种分子功能的一组基因或蛋白质。 如Biofilter算法算法 将来自多个公共存储库的生物医学知识与逻辑回归或多因素降维(MDR)方法等统计方法相结合,以分析SNP-SNP组合。 3)事后分析二错p 值检验 定义为如果零假设为真 ,观察到的检验统计量等于或大于观察到的检验统计量的概率。P值的问题 GWAS中常用的多种假设检验纠正方法: * Bonferroni 修正 *调整错误发现率 ( FDR ) *使用置换检验通过 PLINK、PRESTO 和 PERMORY 调整显着性阈值 (4)结果的可重复重复的目的是评估 GWAS 最初提供的结果,其唯一有效和可信度 1)统计复制 要实现统计上的可重复需要满足以下条件: *样本量大 由于赢家的诅咒 (GW 研究中的组队被高估的,比实际研究中要高即存在,最终这点就像在高射中) *重复必须在群体相同的独立数据集中进行,并应使用相同的标准来定义所讨论的 * 原来是根据 LD 模式选择的,而不是因为原来是GW的类似 SNP组 2)荟萃分析 元分析是一种结合几项不同研究的汇总结果汇总结果 ,以检验所有研究中相同的所有基因的效果。可以用 Cochran's Q 或 I2 统计量来计算异质性 3)数据插补 插补程序利用参考面板中已知的 LD和单倍型模式来估计在研究中未直接进行基因分型的 SNP 的基因型。常用的算法有 BimBam、IMPUTE、MaCH 和 Beagle(均基于单倍型定相算法, 它估计位于特定染色体上的连续等位基因集) 四、展望随着分型芯片的内容、容量表和生物库越来越大,数据操作、质量控制、强大的研究设计和严格的所有类型定义的挑战复杂性。因此,向前发展人类必须结合这些生物信息学基础设施和专业知识来组合这些生物信息。以确认已确定的基因型-表型关联 的功能结果和生物学相关性。 本文提出的具体实施方案基本在临床上的GWAS模型中的选择和分析和,关联模型模型的选择和,特别是估计现有的GWAS存在不足的建议。 GWAS的水平和入门,再根据个人去查其他专业名词的用法以及常用软件的使用。 GWAS 提出现在已经十多年,发挥很大作用,存在很多重要问题的(见临床扩展名)还有许多改进的空间。然后,最后在 Future Directions 所说的“最终,将 GWAS 研究结果返回为具体而言,依赖于对基因复杂性的结构的正确假设,是在遗传和基因-环境的情况下的“背景”。 参考文献: 见原文 |
|
来自: Amazing427 > 《待分类》