X

Nature Genetics | 迄今最大规模DNA甲基化QTL图谱

分子生物学领域内的一个重要课题是个体基因组特征,如单核苷酸多态性(single nucleotide polymorphism, SNP,与基因调控各层级之间的因果关联以及这种关联对表现型的影响机制。换句话说即是对表观修饰和基因表达等分子特征的遗传基础的解析。在这一研究方向上,最具代表性的范式无疑是表达数量性状座位分析(expression quantitative trait loci, eQTL,它聚焦在基因调控中居于核心地位的和定量方式最为直截的基因稳态转录水平这一支点上【1】


包括迄今规模最大的人类组织转录组表达数据库GTEx在内的多项研究依靠QTL方法揭示了诸多对基因表达水平具有显著影响的组织或环境特异性基因特征【2,3】。随着研究界对基因表达这一笼统概念内含的复杂基因调控机制,包括转录前表观遗传调控、转录后RNA调控,和翻译调控等的认知逐渐加深,以及相应定量化生物信息学方法的开发,多样化的QTL分析范式不断被提出,例如针对RNA剪接模式的sQTL【4】和针对RNA翻译效率的roQTL5等。


由于QTL分析在统计学功效和生物学意义方面表现出的优异性质,其常被应用至伴有基因分型(genotyping)或全外显子/基因组测序的大型正常组织或疾病组织的转录组数据集,并与全基因组关联分析研究(GWAS)等数据联合分析,以挖掘某些基因组遗传变异在基因表达层面与发育障碍或疾病的关联。这类多数据模态的整合分析能够最终建构起一条完整的从遗传变异到分子调控扰动再到表型差异的逻辑链条。


2022年1月3日,来自德国、新加坡和英国等多国的科学家联合在Nature Genetics杂志上发表了题为Genetic variation influencing DNA methylation provides insights into molecular mechanisms regulating genomic function的长文,报道了迄今最大规模的人类DNA甲基化QTL(meQTL)图谱,并对其与各类已知DNA甲基化顺式调控元件和反式调控因子间的关联进行了深入分析,同时还与DNA甲基化相关表型的GWAS图谱进行了整合,系统性地揭示了由DNA甲基化所介导的人类遗传变异对各类生理或病理特征的控制机制。



为了克服以往的DNA甲基化QTL研究往往局限于较小规模的人群样本、缺乏独立的重复队列验证、缺少多样化的组织细胞类型等缺陷,该研究搜集和分析了3799例欧洲人群和3195例南亚人群血液样本、对两个样本集分别做了发现集和验证集的区分、并设定了极为严格的meQTL显著性阈值。基于这一分析框架,该研究最终得到了超过一千万个高置信度的meQTL关联,其由两百多万个SNP位点和七万多个甲基化CpG位点构成,其中绝大部分meQTL共存于两个人种群体中,标志着人类DNA甲基化水平调控的遗传机制在很大程度上是跨种群的。


在数据质量与分析严谨性方面,该研究的另一大亮点是对同一血液样本集中的不同细胞亚群(诸如CD4/CD8阳性细胞、中性粒细胞、单核细胞及脂肪细胞等)进行了分离并单独定量了meQTL关联,并与基于全血样本数据所得到的meQTL图谱进行了交叉对比。结果发现,各类细胞亚群中的meQTL在作用方向和作用强度上,即某一DNA位点变异对某一CpG位点甲基化水平的影响的正负性和尺度,都具有很好的一致性。这较好地说明了人类DNA甲基化水平调控的遗传机制在很大程度上也是跨组织细胞类型的。


值得一提的是,QTL分析中的一个重要维度是对遗传变异位点和分子特征位点之间的空间关系的考量,因为它能够帮助研究者辨别二者间潜在的调控机制。具体而言,在该研究中,作者将二者间距离小于1Mb的meQTL配对称为顺式meQTL(cis meQTL),将距离大于1Mb但处于同一染色体上的meQTL称为长距离顺式meQTL(long-range cis meQTL),最后将二者分处不同染色体上的meQTL称为反式meQTL(trans meQTL)。基于这一分类标准,作者发现近93%的meQTL都属于顺式作用模式,表明DNA甲基化水平主要是由邻近DNA序列变异而非远程基因组作用调控的。不过,另一方面,长距离顺式meQTL显著富集于同一拓扑相关结构域(TAD)中、反式meQTL显著富集于基因组主调控因子对应基因区域内,这些事实增强了我们对于DNA甲基化水平调控的少数者机制的丰富性的认知。


例如,SNP位点rs730775通过反式作用与多达49个CpG位点的甲基化水平形成关联。为了对二者间可能的分子调控机制进行解释,研究者整合分析了公开的eQTL和GWAS数据,发现rs730775坐落于基因NFKBIE的第一个内含子区域,且是NFKBIE的eQTL位点。同时,NFKBIE所编码蛋白是NF-kB1蛋白的直接抑制者,而后者则与上述49个位点中的31个位点具有直接结合关联,且这些位点显著富集于NF-kB信号通路家族的基因中。综合这些证据,作者提出了rs730775通过直接影响NFKBIE表达水平来间接控制由NF-kB1蛋白所介导的下游各远端CpG位点甲基化水平的分子调控轴。


总之,这项研究利用大规模、多种群、多细胞类型的人类全血样本得到了丰富的基因组与甲基化组信息,基于经典的QTL分析范式挖掘出众多具有潜在重要DNA甲基化调控效应的单核苷酸多态性位点,与基因组功能性区域数据和相关生理与病理GWAS数据的联立分析则得到了meQTL因子与疾病发生的关联及导致这种关联的分子机制,无疑为以QTL研究为代表的整个基因型——表现型因果关联研究集体提供了宝贵的资源和具体到DNA甲基化角度的全新认知。


原文链接:

https://doi.org/10.1038/s41588-021-00969-x


制版人:十一



参考文献


1. Nica, A. C. & Dermitzakis, E. T. Expression quantitative trait loci: Present and future. Philos. Trans. R. Soc. B Biol. Sci. 368, (2013).

2. The GTExArd Consortium et al. The Genotype-Tissue Expression (GTEx) pilot analysis: multitissue gene regulation in humans. Science (80-. ). 348, 648–60 (2015).

3. Gong, J. et al. PancanQTL: Systematic identification of cis -eQTLs and trans -eQTLs in 33 cancer types. Nucleic Acids Res. 46, D971–D976 (2018).

4. Ibrahim, S., Saunders, K., Kydd, J. H., Lunn, D. P. & Steinbach, F. RNA splicing is a primary link between genetic variation and disease. Science (80-. ). 119, 63–80 (2007).

5. Cenik, C. et al. Integrative analysis of RNA, translation, and protein levels reveals distinct regulatory variation across humans. Genome Res. 25, 1610–1621 (2015).