暨南大学发现隐藏的蛋白质组:大量“非编码基因”可以表达蛋白质

原标题:暨南大学发现隐藏的蛋白质组:大量“非编码基因”可以表达蛋白质

2019年7月24日,暨南大学生命科学技术学院何庆瑜教授、张弓教授承启生物首席科学家、王通教授团队在Nucleic Acids Research上发表论文,发现了约4700个人类“非编码基因”实际上可能翻译成蛋白质,并提供了其中314个由长链非编码RNA (lncRNA) 表达的蛋白质证据。这些蛋白质不是小肽,而是含50个氨基酸以上的蛋白质,它们能稳定存在,并可以在癌症等病变中发挥重要作用。由于这些蛋白质长期以来被人们认为不会存在,所以被称为“隐藏的蛋白质组”(Hidden Proteome)。

人类基因组上已知大约有5万个基因,其中约2万个被标注为可以表达蛋白质的 “编码基因”,而另外3万个基因被标注为“非编码基因”(non-coding genes)。已有的报道中,除了部分非编码基因可以表达为小肽行使调控功能外,也有个别lncRNA被发现实际上能翻译成>50氨基酸的蛋白质,例如CLUU1, ESRG等,问题是,如果这种情况不是个案而是普遍存在的现象,则确实存在部分“编码基因”被错误地标注成了“非编码基因”,这将意味着人基因组需要被系统性地重新注释。

事实上,这一问题很早就被学界关注过。2013年,Eric Lander等人仅仅根据Ribosome profiling计算模型认为lncRNA不可能编码蛋白质。但仅仅一年后,该团队又发表文章,仅仅是调整了计算模型,认为lncRNA可能编码蛋白质,然而其始终拿不出蛋白质实验证据。2014年,人类蛋白质组草图在Nature上发表,声称发现千余个lncRNA所编码的“新蛋白质”,但随后便被人类蛋白质组组织(HUPO)爆出其分析不合规范,存在大量的假阳性鉴定,在用较严格的标准进行质控后,这些所谓的“新蛋白质证据”几乎都被认定为假阳性。因此,如何避免蛋白质组学质谱技术的固有缺陷,提供独立的蛋白质编码信息源,就显得非常重要。

早在2013年,暨南大学张弓教授团队便利用自主建立的翻译组测序技术(RNC-seq),在肺癌细胞中发现了1397个有可能被翻译的“非编码RNA”(Nucleic Acids Research 2013, 41, 4743)。经过6年的继续探索,他们从9株人细胞系中共鉴定到约4700种lncRNA正在被翻译,且可能以经典翻译起始方式翻译出>50氨基酸的蛋白质。利用目前公认的验证标准,他们提供了其中314个新蛋白质的证据。这些蛋白质是稳定存在的,并且有着明确的细胞定位,功能实验也证实它们以蛋白质形式(而非RNA形式)行使着明确的生物学功能。

为何这些“新蛋白”长期以来一直被认为不存在?这是因为人类基因组的注释本来就是算法预测的结果,而任何算法预测都不会完全准确。通常来说,编码基因都有多个外显子,而且在进化上相对保守,于是算法就根据这两个“经验”进行判定。但此次暨南大学团队发现的新蛋白,大部分只有一个外显子,而且进化上出现得非常晚,大量新蛋白只在灵长目才出现,连小鼠基因组中都没有。因此,算法可能错误地将这些编码基因归为了“非编码基因”。当然,这些新蛋白在转录、翻译、蛋白质各水平上表达量都较低,理化性质也比较特殊,因此也增加了检测的难度。

此项工作揭示了一个隐藏的蛋白质组,发现了大批以往不为人所知的新蛋白质,为人类基因组的可能注释错误提供了大规模的校正;这些新蛋白质可能含有与人类生理病理相关的重要分子,因而打开了一个新的人类蛋白质的宝库,开辟新的研究领域。

该文的共同第一作者为暨南大学生命科学技术学院的卢少华博士、张静博士和连新磊博士。几家公司的技术人员也参与到此项研究中。当今世界上两大质谱仪生产商Thermo和AB Sciex的技术人员在研究过程中都给予了技术支持,帮助优化了质谱方法以及质谱仪上的数据收集;安徽国平药业的技术人员在重同位素标记的MRM实验上给予了帮助;深圳承启生物则为研究提供了系统生物学数据分析挖掘的支持。因此,这是一次成功的产学研合作。

原文标题

A hidden human proteome encoded by ‘non-coding’ genes

https://academic.oup.com/nar/advance-article/doi/10.1093/nar/gkz646/5538014,

DOI: 10.1093/nar/gkz646

转自生物通(有修改)返回搜狐,查看更多

责任编辑:

声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
免费获取
今日搜狐热点
今日推荐