Nature Genetics | 深度学习揭示大量自闭症相关非编码区突变

原标题:Nature Genetics | 深度学习揭示大量自闭症相关非编码区突变

撰文 | 伊凯

责编 | 兮

随着多组学定量技术的蓬勃发展,当下基因组学的核心任务已经演变为在全基因组水平剖析机体中复杂的遗传因素与机体表型的关联及其具体作用机制,例如通过对转录组测序、启动子甲基化测序、表观遗传修饰测序、转录因子/RNA结合蛋白结合位点测序等大规模数据进行挖掘和联合分析,从而解释和预测相关基因的功能、识别对应疾病状态的分子标志物、以及对基因组不同功能分区进行注释等【1】。由于基因组学研究在本质上对序列局部依赖性(local dependency)和长程相关性(long-range association)等进行特征提取的要求及其大规模和深层次的数据特性很好地契合了神经网络算法的工作逻辑,近年来飞速发展的深度学习技术便无可避免地成为了基因组学研究的一项利器【2-4】。在众多凭借神经网络的成功应用而大放异彩的基因组学研究领域中,对非编码区突变的功能性研究尤为引人注目。

利用全基因组测序技术(whole genome sequencing, WGS)对特定疾病进行全基因组关联分析(genome-wide association study, GWAS)是研究单核苷酸多态性(single nucleotide polymorphism, SNP)与相关疾病表型的关联的经典手段。不过,由GWAS识别出的绝大多数突变均位于不参与翻译过程的非编码区域中,无法直接改变蛋白质序列,因而对解释这些突变的下游功能提出了挑战【5】。为了回应这一挑战,美国普林斯顿大学的Olga Troyanskaya课题组于2015年在Nature Methods上发表了题为Predicting effects of noncoding variants with deep learning–based sequence model的研究,首次提出利用卷积神经网络(convolutional neural network, CNN)预测非编码区突变通过破坏转录因子结合、组蛋白结合或DNA可接近性而与疾病发展产生功能性关联【6】

作为对这一重要思路和方法的扩展与应用,2019年5月28日,Troyanskaya课题组联合美国洛克菲勒大学著名的基因转录后调控研究专家Robert DarnellNature Genetics上发表了题为Whole-genome deep-learning analysis identifies contribution of noncoding mutations to autism risk的研究,利用深度学习技术揭示了与自闭症具有功能性关联的大量非编码区突变。

自闭症谱系障碍(ASD,Autism Spectrum Disorder ),是根据典型自闭症的核心症状进行扩展定义的广泛意义上的自闭症,是一种较为严重的发育障碍性疾病。过去的十年间,人们对自闭症的遗传基础的认识有了相当大的进步,但绝大多数对自闭症相关突变的功能性研究仅集中在能够改变蛋白质序列的基因编码区中,有研究表明这些突变只能够解释约30%的自闭症谱系障碍病例的遗传基础【7】。因此,对大量的功能不明的非编码区突变进行注释和分析对深入理解自闭症的发生机制就显得尤为重要。在该项研究中,研究人员利用深度学习技术,着重从非编码区突变对基因调控元件(gene regulatory element)的破坏从而抑制转录因子或RNA结合蛋白对相应DNA/RNA靶点结合能力的角度解释了这些突变与自闭症的功能性关联。

首先,研究者利用现有的染色质免疫沉淀测序(ChIP-seq)和交联免疫沉淀测序(CLIP-seq)数据分别对2002个转录调控因子和232个转录后调控因子对应的卷积神经网络分类器进行了训练。随后,研究者利用这些分类器对存在于自闭症患者中的突变对应的基因序列进行分析,对其扰动转录调控或转录后调控因子结合的能力进行打分(下图a)。接着,为了将突变对调控因子结合能力的影响与突变所导致的疾病表型进行关联,研究者利用人类基因突变数据库(The Human Gene Mutation Database, HGMD)所记录的疾病相关突变和千人基因组计划(1000 Genomes Project)所记录的健康人群的罕见突变分别作为正、负样本,以突变对调控因子的扰动水平为输入特征,构建了一个L2正则化(L2 regularization)逻辑回归分类器,从而获得每个在自闭症患者群体中观察到的突变的疾病相关性分数(disease impact score)。通过对自闭症患者与对应同胞进行比较,研究人员发现前者所具有的突变对应的疾病相关性分数显著高于后者(下图b),这表明通过DNA突变对基因调控因子的扰动能力来预测其疾病相关性是有效的

为了探究由上述方法识别出的与自闭症具有显著统计关联的非编码区突变是否与之亦有功能上的潜在关联,研究者首先利用GTEx数据库的人体几十种组织的基因表达谱筛选出每个组织特异高表达的基因群,然后比较每一组织特异基因群所对应的突变的疾病相关分数在自闭症患者和对应健康同胞之间的差异,结果发现差异最为显著的前12种组织均为脑部组织(下图),这一证据从组织特异性的角度展示了由卷积神经网络和逻辑回归联合分析识别出的重要非编码区突变在功能上的确与自闭症有显著关联。

有了上述重要突变与自闭症具有潜在功能性关联的证据,研究人员接下来着重分析了这些突变所对应的基因在功能上的富集情况。经由基于基因-基因功能和表达关联性的网络分析,研究者识别了自闭症相关非编码区突变对应的基因所富集的信号通路,其中包括多个与神经发育和突触连接等直接相关的基因模块。这一分析结果从功能富集的角度说明了前述突变群与自闭症的直接功能相关。

最后,研究人员还试图利用实验手段证实基于卷积神经网络的对非编码区突变扰动转录因子结合能力的预测。为此,研究者对数十个重要非编码区突变构建了相应的荧光素酶报告系统(luciferase reporter),通过与不携带突变的正常序列的对应结果进行比较,研究者发现绝大多数突变的确显著改变了对应基因被特定转录因子结合的能力(下图)。这一结果不仅验证了神经网络的预测分析,同时也为相关突变的功能性机制研究提供了重要启示。

总之,这项研究在发表于2015年的里程碑式的DeepSEA模型的基础上系统性地研究了自闭症患者携带的非编码区基因突变通过直接影响转录调控或转录后调控因子与对应靶点的结合能力而参与疾病发生发展的能力。作者经由这一分析模式识别出了大量潜在的自闭症关键非编码区突变,这与前人利用传统基因组学方法始终无法识别出在自闭症遗传基础中具有显著关联的非编码区突变的情形形成了鲜明对比,再一次展示了深度学习技术基于其特征提取和非线性拟合特性在大规模、深层次基因组数据挖掘与分析中的强大本领。

https://doi.org/10.1038/s41588-019-0420-0

参考文献

1. Eraslan, G., Avsec, Ž., Gagneur, J. & Theis, F. J. Deep learning: new computational modelling techniques for genomics.Nat. Rev. Genet. (2019). doi:10.1038/s41576-019-0122-6

2. Alipanahi, B., Delong, A., Weirauch, M. T. & Frey, B. J. Predicting the sequence specificities of DNA- and RNA-binding proteins by deep learning. Nat. Biotechnol. 33, 831–838 (2015).

3. Quang, D. & Xie, X. DanQ: A hybrid convolutional and recurrent deep neural network for quantifying the function of DNA sequences. Nucleic Acids Res.44, 1–6 (2016).

4. Sharma, C., Gupta, R. K., Pathak, R. K. & Choudhary, K. K. DeepCpG: accurate prediction of single-cell DNA methylation states using deep learning.Fluoride47, 15–22 (2014).

5. Leslie, R., O’Donnell, C. J. & Johnson, A. D. GRASP: Analysis of genotype-phenotype results from 1390 genome-wide association studies and corresponding open access database.Bioinformatics 30, (2014).

6. Zhou, J. & Troyanskaya, O. G. Predicting effects of noncoding variants with deep learning-based sequence model. Nat. Methods 12, 931–934 (2015).

7. Iossifov, I. et al. The contribution of de novo coding mutations to autism spectrum disorder.Nature (2014). doi:10.1038/nature13908

sinobioart@bioart.com.cn原创内容,未经授权,禁止转载到其它平台。返回搜狐,查看更多

责任编辑:

声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
免费获取
今日搜狐热点
今日推荐