>科技>>正文

科大讯飞今年第11冠,和每个人的健康息息相关!

原标题:科大讯飞今年第11冠,和每个人的健康息息相关!

如何快速、精准的检索到所需的最新研究成果、相关临床试验?在个性化的癌症治疗中,面对错综复杂的病例和等待新生的病患,医生们为找到最合适的治疗方案,这样的需求越来越迫切。

“这就涉及到精准医疗领域的文本检索技术。”

在近日结束的2018年度文本检索评测会议(2018 TREC)上公布了本年度7个评测成绩,清华-讯飞联合实验室研发的系统在精准医疗(Precision Medicine,简称PM)评测两个子任务共计六项指标中获得三项第一,二项第二,总成绩居各参赛队伍之首

这也不仅验证了深度学习、语义理解技术对于文本检索领域的重要推动,也是科大讯飞今年摘下的第十一个“世界冠军”

医疗文献文本检索领域的“华山论剑”

在文本检索领域,TREC是国际权威评测。

这项由美国国防部高等研究计划署与美国国家标准和技术局联合主办的文本检索评测会议,曾在2014-2016年举办了TREC Clinical Decsision Support(CDS,临床决策支持)评测,评测任务的查询输入是从电子病历提炼出的检索主题,检索输出是病历相关的疾病诊疗文献。2017年升级为Precision Medcine(PM)评测任务,聚焦与癌症治疗相关的文献检索。

2018 TREC会议于2018年11月14-16日在美国马里兰州举行(摄影:张潇)

“这项评测是为了满足现实医疗中的迫切需求。” 清华-讯飞联合实验室主任吴及副教授介绍。现有的文献搜索引擎有效度往往不高,“因为表达词汇的不统一,输入这个关键词、但在文献中却是用另外一词汇来表示,以及同样的词汇在不同上下文语境下的含义不同,所以往往检索不到想要的内容。”

特别在面向恶性肿瘤诊疗的精准医疗中,相关研究发展日新月异,临床医生们更加需要从海量的研究文献和临床试验中检索相关研究成果,为患者提供最合适的治疗方案。

TREC的PM评测任务就是为解决临床中的现实需求、促进医疗文献文本检索技术的发展与交流而设立。自它的前身CDS任务设立以来,梅奥医学中心(Mayo Clinc)、美国国家医学图书馆(NLM)等权威医学机构,以及剑桥大学、苏黎世联邦理工学院、日内瓦大学、奥地利格拉茨大学、德国波兹南科技大学、加州大学洛杉矶分校、得克萨斯大学达拉斯分校、特拉华大学、清华大学、复旦大学、哈尔滨工业大学等在医学自然语言处理领域深耕的实验室均参与了相关评测。

清华-讯飞联合实验室首次亮相摘得总成绩第一

2018 TREC PM评测设置了两项子任务。“直接面向实用,题目就来自癌症治疗中的临床病例。”吴及介绍,评测的查询输入为得克萨斯州立大学、马里兰州安德森癌症中心的肿瘤学专家创建的合成病历,该病历作为患者医疗记录是半结构化文本,描述了患者的癌症类型、相关的基因变异、年龄性别以及其他可能相关的因素;具体任务分为科学文献子任务和临床试验子任务。

在前者中,参赛团队需要从MEDLINE/PubMed数据库生物医学文献摘要中,检索出与给定患者信息相符且与治疗相关的文献。据悉,该数据库包含了医学类的权威论文,截至组委会给定的日期,就有2680万的样本。后者则需要检索ClinicalTrials.gov的临床试验库,以帮助患者检索出有助于其治疗的临床试验,这其中的样本有24万多。

“科学文献子任务的结果代表了基于现有知识的检索,临床试验子任务的结果则代表了现有疗法失效情况下对患者采取试验疗法的可能性。”今年,参加前者的有24支队伍,后者的参赛队有21支。

清华-讯飞联合实验室团队合影

自左至右:陈鑫、周学思、吴及、宋健、赵刚

清华-讯飞联合实验室此次首次参加TREC PM评测,清华大学电子工程系副系主任、清华讯飞联合实验室主任吴及副教授“带队”,清华2018年7月电子系2016级博士生周学思,2017级硕士生宋健、陈鑫和联合实验室工程师赵刚组队,研发了参赛系统MSIIP。

该系统一举拿下三项第一、两项第二的好成绩,队伍的总成绩也居各参赛队之首。

具体在科学文献子任务中,MSIIP获得infNDCG的第一,P@10的第二;在临床试验子任务中,获infNDCG的第二,P@10和R-prec的第一。

化散为整、深度学习,让机器更懂语义

首次参赛就收获如何好成绩绝招是什么?

吴及介绍,主要得益于参赛团队将深度学习、知识整合、语义理解技术运用到了文本检索的方向上,“在检索时加入语义理解,可以识别有些不同词汇表达、但相同含义的内容,提升检索的有效性。”

据悉,该系统有三大特点:

其一,可有针对性地从不同方向的多个知识库中抽取、提炼有效信息,并将原先零散的信息按需要的方式进行整合,变为有用的知识。

其二,利用基于文本特征的检索与基于概念序列特征的检索重排之间的互补性,有效挖掘了蕴含在文本中的信息,找到语义相同、字面可能不同的信息。

此外,还在层次化、多维度的规则框架中有效融合了基于深度神经网络的PM文献分类信息,以实现在2680万多份样本中让最合适、最匹配的迅速“脱颖而出”。

“突破了传统文本检索的局限,将深度学习放入检索框架并让其发挥做作用。”而这也是该团队自2017年研发“智医助理”医考机器人并获得456分高分之后取得的又一项突破,“让机器能够更好的理解语义、词义,并运用到文本检索领域。”

可以想象的是,为解决现实刚需应运而生的这一研究方向,也将更好地帮助临床医生、从而助力更多人的健康。返回搜狐,查看更多

责任编辑:

声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
阅读 ()
投诉
免费获取
今日搜狐热点
今日推荐