【原】易基因｜猪肠道组织的表观基因组功能注释增强对复杂性状和人类疾病的生物学解释：Nature子刊

深圳易基因科技 2023-02-09 发布于广东

展开全文

大家好，这里是专注表观组学十余年，领跑多组学科研服务的易基因。

2021年10月6日，《Nat Commun》杂志发表了题为“Pig genome functional annotation enhances the biological interpretation of complex traits and human disease”的研究论文，该研究通过对猪的肠相关组织（胃、空肠、十二指肠、回肠、结肠、盲肠）进行ChIP-seq、ATAC-seq、RRBS、RNA-seq等实验，对猪基因组的系统功能注释显著增强了对猪复杂性状和人类疾病遗传控制的理解。

标题：Pig genome functional annotation enhances the biological interpretation of complex traits and human disease

时间：2021.10.06

期刊：nature communications

影响因子：IF 17.694

技术平台：ChIP-seq、ATAC-seq、RRBS、RNA-seq等

样本实验：

从两头6月龄的同窝约克公猪身上收集五个肠相关组织（胃、空肠、十二指肠、回肠、结肠）和两头5月龄的雌性杂交猪（约克郡-汉普郡杂交）身上收集盲肠组织样本。样本采集后首先在液氮中快速冷冻，然后在–80°C下储存直至进行ChIP-seq、ATAC-seq、RRBS、RNA-seq实验，实验设置两个生物学重复。

ChIP-seq：对快速冷冻组织样品进行ChIP-seq（H3K4me3，H3K4me1，H3K27ac和H3K27me3）实验。

ATAC-seq：对从冷冻组织样本中生成的和冷冻保存的细胞核进行ATAC-seq实验。

RRBS：从冷冻组织中提取DNA进行简化基因组甲基化测序（RRBS）。

RNA-seq：从速冻组织中分离出总RNA进行转录组测序（RNA-seq）。

六个肠相关组织（胃、空肠、十二指肠、回肠、结肠、盲肠）的ChIP-seq（H3K4me3，H3K4me1、H3K27ac、H3K27me3、input对照），ATAC-seq，RRBS和RNA-seq共生成95个新数据集。

另外整合了FAANG试点项目（PRJEB14330）八个组织（脂肪、小脑、脑皮层、下丘脑、肝、肺、肌肉和脾脏）现有ChIP-seq（H3K4me3、H3K4me1、H3K27ac、H3K27me3、CTCF，input对照）、ATAC-seq、RRBS和RNA-seq的144个猪表观基因组数据集，以及公开数据集（PRJEB27364）的4个Hi-C猪肝数据集。

研究摘要：

牲畜基因组的功能注释对于理解支撑具有经济重要性的复杂性状、适应性进化和比较基因组学的分子机制至关重要。本研究通过整合223个表观基因组和转录组数据集（共14个生物学上的重要组织），提供迄今为止最全面的猪（Sus scrofa）调控元件目录。研究人员通过对15种不同染色质状态进行功能注释并定义其组织特异性调控活性以系统性描述不同组织的动态表观遗传景观。研究表明与猪的复杂性状和适应性进化相关的基因组变化在活性启动子和增强子中显著富集。此外研究还揭示了亚洲猪和欧洲猪驯化过程之间不同的组织特异性调控选择。与人和小鼠表观基因组相比，猪的调控元件在快速和缓慢进化的DNA序列中比在猪、小鼠和人的中等进化中保守。最后通过整合47个人类全基因组关联研究（GWAS）数据，提供了关于组织特异性调控保守的生物学见解。证明了根据性状，小鼠或猪可能是更适合不同复杂性状和疾病的生物医学模型。

结果图形

（1）数据摘要

整合猪14个主要组织的223个全基因组测序数据集，其中通过染色质免疫沉淀测序（ChIP-seq）检测四种组蛋白修饰（H3K4me3、H3K4me1、H3K27ac和H3K27me3）、通过染色质转座酶可及性测序（ATAC-seq）检测转座酶可及的染色质、通过减少代表性重亚硫酸盐测序（RRBS）检测DNA甲基化水平、通过RNA-seq进行基因表达。在对样本进行比对和过滤后，共生成约9 billion的比对reads，平均比率为68.81%。在14个组织中，共获得H3K4me3、H3K4me1、H3K27ac、H3K27me3和ATAC的平均peaks分别为32387、106849、72252、98721和122585，平均大小分别为794 bp、1894 bp、618 bp、1190 bp和653bp，分别覆盖全基因组的1.56%、2.78%、2.37%、7.74%和3.31%（图1b、c）。此外，利用8个组织（脂肪、小脑、脑皮层、下丘脑、肝、肺、肌肉和脾脏）的16个CTCF ChIP-seq数据集和肝脏组织的4个Hi-C数据集来鉴定CTCF和Hi-C环，以将调节元件（增强子）与潜在靶基因相关联。

图1：不同组织和标记的表观基因组信息数据

该研究检测所利用的组织。
不同组织中表观遗传标记的平均peaks数。
不同组织中表观遗传标记的基因组覆盖率。
基于全基因组1kb窗口归一化信号的检测、组织和生物学重复（P348和P350）间的Pearson相关性
蛋白质编码基因近端的平均表观遗传标记信号。TSS转录起始位点，TES转录终止位点。
根据不同检测和不同组织在MYO1A位点的表观遗传信号。UCSC轨迹垂直比例显示归一化信号：RNA-seq为0-200、H3K27ac和H3K4me3为0-100、其他标记和ATAC-seq为0-50。

基于表观遗传标记的和基因表达谱的信号强度对样本进行分层聚类清楚地概括了测序分析，随后组织类型和生物学重复（图1d）与主成分分析（PCA）结果一致。六种检测形成三个主要簇：（1）活性调控区（H3K4me3、H3K27ac、H3K4me1和ATAC）；（2）Polycomb抑制（H3K27me3）和（3）基因表达（RNA-seq）。四个活性调控标记呈正相关，但与H3K27me3（尤其是H3K27ac）呈负相关。RNA-seq（基因体内）信号强度与活性调控标记呈弱正相关，与H3K27me3呈负相关。总体而言，三个活性调控标记（ATAC、H3K4me3、H3K27ac）在不同组织间的基因转录起始位点（TSS）上游显示出peak，而H3K4me1在TSS上游1 kb范围内显示出peak（图1e）。

为阐明肠组织中大肠杆菌感染和微绒毛膜形态相关的调控元件和基因表达的复杂相互作用，研究人员进行了肌球蛋白1A（MYO1A）分析。MYO1A在肠组织中特异性高表达，并在肠组织TSS周围显示出H3K27ac信号特异性富集，但在其他组织中未见（图1f）。此外MYO1A的TSS对其他活性调控标记（即H3K27ac、H3K4me3和H3K4me1）是开放且可富集的，但不适用于Polycomb抑制（H3K27me3）（图1f）。

（2）预测和表征14种组织中的染色质状态

图2：14个组织中的染色质景观

15种染色质状态的定义。
15种染色质状态的缩写。
染色质状态的单个表观遗传标记的emission率，从白色到深蓝色的颜色表示0-1。
染色质状态的基因组覆盖率。M±SD表示平均值±标准偏差。
基因组注释染色质状态的平均富集，每个组织均包括CpG岛、基因、TSS/TES_1K（TSS和TES周围±1 kb距离）、表达基因（TPM≥0.1）和抑制基因（TPM<0.1）
基因组进化率分析（GERP）的非编码哺乳动物保守元件的染色质状态的倍数富集。
与基因TSS相关位点的染色质状态密度。
空肠染色质状态的平均甲基化水平。
Hi-C（250 kb分辨率）预测7号染色体上空肠的染色质状态、表观遗传信号和标准化甲基化水平。
14个组织中VIL1位点（chr15:120459825-120493312，susScr11）的染色质状态景观和mRNA表达。UCSC轨迹的垂直比例显示RNA-seq的归一化信号为0-200。

（3）基因组和组织中染色质状态的动态

图3：不同组织的全基因组染色质状态动态

根据不同组织中每个间隔的平均染色质状态频率，将2 Mb间隔（1224列）聚类到模块（M1-M12）中。底部显示每个区间中的蛋白质编码基因、lncRNA和CpG岛数目。
平均mRNA表达（log2(TPM+1)），每个模块的基因和平均甲基化水平间隔2Mb。M1-M12模块分别由24、100、183、167、111、139、168、41、98、33、75、85个区间组成。M3用作统计双侧t检验的参考，其中*P<0.05，**P<0.01和**P<0.001。基因表达P值（M1=0.33，M2<2.2 e-16，M4=4.8e-10，M5=0.15，M6=0.017，M7=1e-14，M8<2.2 e-16，M9=3.3e-10，M10=2.5 e-15，M11=8.6e-08，M12=0.08); 甲基化水平P值（M1=0.066，M2<2.2 e-16，M4=6.7e-09，M5=8.1e-07，M6=0.00027，M7<2.2e-16，M8=0.1，M9=0.00028，M10=0.049，M11=0.26，M12=5.5e-07）。未对多重比较进行调整。
基于累积基因组覆盖率的染色质状态变化。虚线=0.75
在所有组织之间的染色质状态转换。
在增强子（enhancer，EnhA）状态下使用H3K4me1信号进行表观基因组分层聚类。
空肠肌层特异性表达的基因启动子中的染色质状态富集。
其他组织中空肠特异性基因靶向增强子（EnhA）的染色质状态转换。

（4）组织特异性染色质状态的功能表征

图4：组织特异性强增强子（EnhA）及其在14种组织中的潜在功能

组织中17个TSR（强增强子(EnhA)）模块的数量和富集分布。TSR组织特异性调节元件。顶部颜色代表右侧图例所指的17个强增强子模块（列）。侧面颜色代表14个组织（行）。
生物过程的每个模块近端基因的功能富集GO分析。列表示17个强增强子模块。行表示每个模块中的GO富集。
每个模块EnhAs预测靶基因的平均表达（TPM）。列表示每个模块中的基因，行表示每个组织。
每个模块转录因子motif的富集。
基于近端基因富集每个模块中的人类表型。

（5）染色质状态预测增强了猪适应性进化和复杂性状的生物学解释

图5：染色质状态在猪的驯化和复杂性状中起着重要作用

亚洲猪和欧洲猪染色质状态下的驯化选择特征富集。ASD亚洲猪驯化，EUD欧洲猪驯化。值>1（虚线）表示显著富集。
亚洲猪和欧洲猪之间组织特异性启动子（TssA）的驯化选择特征富集。值>1（虚线）表示通过Fisher精确检验检测的显著富集。对角线偏差显示了组织对亚洲猪或欧洲猪的富集趋势。
全基因组关联研究（GWAS）显示在猪的14个组织和44个复杂性状的染色质状态内信号富集。比较的统计学显著性以“15-Qui”为参考，采用双侧t检验计算。未对多重比较进行调整，***P<0.001，每组P值分别为“1 TssA”<2.2e-16、“2 TssAHet”=9.1e-09、“3 TxFlnk”<2.2e-16、“4 TxFlnkWk”=6.7e-16、“5 TxFlnkHet”=2.8e-12、“6 EnhA”<2.2e-16、“7 EnhAMe”=3.6e-16、“8 EnhAWk”=2.5e-16、“9 EnhAHet”<2.2e-16、“10 EnhPois”<2.2e-16、“11 ATAC_Is”= 0.00015、“12 TssBiv”<2.2e-16、 “13 Repr”=7.1e-15、“14 ReprWk”=3.8e-10。
在三个猪群（dd:Duroc，ll:Landrace，yy:Yorkshire）的平均日增重（ADG）中，启动子（TssA）和强增强子（EnhA）组织特异性调节元件（TSR）的GWAS信号富集。显著性基于基因型周期序列测试的10000次迭代。虚线设置为-log10（P=0.05）。
长白猪（Landrace）ADG的曼哈顿图（88984）。
GWAS靶向的基因组区域中每个组织的染色质状态。虚线矩形框包括与GWAS靶向一致的肌肉特异性增强子。红色箭头表示预测的CTCF循环和H3K27ac信号，表明肌肉特异性增强子可以靶向ZNF532和ALPK2。
Hi-C loop（25kb分辨率）描述肌肉特异性增强子和推测的靶基因。
肌肉特异性增强子近端基因的表达（标准化和居中TPM）。

（6）猪、小鼠和人表观基因组的比较分析

图6：染色质状态的种间保守

在三个物种中预测了15种染色质状态。
六种组织中序列保守和表观基因组保守之间的关系。在序列保守方面，从变化最快（第0个），变化中等（第20个）和变化最慢（第49个）排序了50个基因组区域。计算猪和人每个区域内每个染色质状态的表观基因组保守并作图。
六种组织中表达保守和表观基因组保守之间的关系。表达保守基于三个物种中14302个直系同源基因的表达。区域从最大的表达差异（第0个）到最小差异（第49个）排序。
基于（±2kb）极端序列保守（第49位）的人特异性TssA GO富集分析。计数指基因数量。
人GWAS（47个性状）在六种组织中的15种不同染色质状态中信号富集。富集是遗传力除以每个染色质状态下SNP的比例。大于虚线（设置为1）的值表示显著富集。误差线表示富集估计值周围的标准误差。
人GWAS（47个性状）在六个组织中物种特异性或共享EnhA中的富集。（hpm_share表示人类-猪-鼠共享）。
猪的组织特异性增强子（EnhA）在人物种中的GWAS富集情况。

h-j. 人-猪和人-鼠之间不同GWAS富集在大脑皮层（1799 vs 61增强子）、小肠（5311 vs 2430增强子）和脂肪（2014 vs 1638增强子）中的共享强增强子（EnhA）情况。

关于易基因染色质免疫共沉淀测序 (ChIP-seq) 技术

染色质免疫共沉淀（Chromatin Immunoprecipitation,ChIP），是研究体内蛋白质与DNA相互作用的经典方法。将ChIP与高通量测序技术相结合的ChIP-Seq技术，可在全基因组范围对特定蛋白的DNA结合位点进行高效而准确的筛选与鉴定，为研究的深入开展打下基础。

DNA与蛋白质的相互作用与基因的转录、染色质的空间构型和构象密切相关。运用组蛋白特定修饰的特异性抗体或DNA结合蛋白或转录因子特异性抗体富集与其结合的DNA片段，并进行纯化和文库构建，然后进行高通量测序，通过将获得的数据与参考基因组精确比对，研究人员可获得全基因组范围内某种修饰类型的特定组蛋白或转录因子与基因组DNA序列之间的关系，也可对多个样品进行差异比较。

应用方向：

ChIP 用来在空间上和时间上不同蛋白沿基因或基因组定位

转录因子和辅因子结合作用
复制因子和 DNA 修复蛋白
组蛋白修饰和变异组蛋白

技术优势：

物种范围广：细胞、动物组织、植物组织、细菌微生物多物种富集经验；
微量建库：只需5ng以上免疫沉淀后的DNA，即可展开测序分析；
方案灵活：根据不同的项目需求，选择不同的组蛋白修饰特异性抗体。

关于易基因简化基因组甲基化测序研究解决方案

简化甲基化测序(Reduced Representation Bisulfite Sequencing,RRBS)是利用限制性内切酶对基因组进行酶切，富集启动子及CpG岛等重要的表观调控区域并进行重亚硫酸盐测序。该技术显著提高了高CpG区域的测序深度，在CpG岛、启动子区域和增强子元件区域可以获得高精度的分辨率，是一种准确、高效、经济的DNA甲基化研究方法，在大规模临床样本的研究中具有广泛的应用前景。

为适应科研技术的需要，易基因进一步开发了可在更大区域内捕获CpG位点的双酶切RRBS(dRRBS)，可研究更广泛区域的甲基化，包括CGI shore等区域。

为助力适用低起始量DNA样本（5ng）量多维度甲基化分析，易基因开发了富集覆盖CpG岛、启动子、增强子、CTCF结合位点的甲基化靶向基因组测序方法：extended-representation bisulfite sequencing（XRBS），实现了高灵敏度和微量样本复用检测，使其具有高度可扩展性，并适用于有限的样本和单个细胞基因组CG位点覆盖高达15M以上。

技术优势：

起始量：100ng gDNA；
单碱基分辨率；
多样本的覆盖区域重复性可达到85%-95%、测序区域针对高CpG调控区域，数据利用率更高；
针对性强，成本较低；
基因组CG位点覆盖高达10-15M，显著优于850K芯片。

应用方向：

RRBS/dRRBS/XRBS广泛应用于动物，要求全基因组扫描（覆盖关键调控位点）的：

队列研究、疾病分子分型、临床样本的甲基化 Biomarker 筛选
复杂疾病及肿瘤发病机制等甲基化研究
模式动物发育和疾病甲基化研究

易基因科技提供全面的表观遗传学研究整体解决方案，技术详情了解请致电易基因0755-28317900。

参考文献：

Pan Z, et al. Pig genome functional annotation enhances the biological interpretation of complex traits and human disease. Nat Commun. 2021 Oct 6;12(1):5848.