白癜风公益惠民活动 http://disease.39.net/bjzkbdfyy/171027/5796518.html清华大学曾坚阳研究组提出从大规模科学文献中提取生物医学实体关系的新型深度学习模型
理解药物、靶点、病*、副作用等等生物医学实体之间的相互作用规律,是生物医学研究者们长期以来致力于探索和研究的问题,关于这些作用规律的研究成果广泛分布在超过万篇的科研文献当中,且文献的数量还在不断增加。
目前,大多数知名的生物医学数据库,例如DrugBank、CTD、SIDER和BioGRID,都是由人类科学家花费大量的时间和精力从科学文献中整理而来的。
虽然深度学习(DeepLearning)技术可以被用来加速这一过程,但在生物医学这种专业性领域,大规模的训练数据却并非能够轻易得到。
近日,清华大学交叉信息院曾坚阳研究组在Nature子刊NatureMachineIntelligence杂志发表了题为:Anovelmachinelearningframeworkforautomatedbiomedicalrelationextractionfromlarge-scaleliteraturerepositories的研究论文。
该论文提出了一种基于远监督的深度学习框架,能够在不依赖于人工标注数据的情况下有效利用大规模的生物医学文献语料。此外,作者所提出的集成了隐式句法树学习和注意力机制的模型,在多项生物医学关系抽取任务当中,都取得了领先的实验结果。
这项研究成果表明,借助这种新型的机器学习框架,研究者们能够快速从大量文献中筛查感兴趣的生物医学实体关系信息,所得到的文献支撑将对后续开展药物研发、药物重定位等研究起到重要的指导作用。
目前,该关系抽取框架已成功应用到多个生物医学场景当中,包括:
1.通过抽取出的提示性信息指导了若干湿实验验证,从而确认了新的药物-靶点作用关系。
2.在一项针对新冠肺炎的老药新用研发任务中,该关系抽取模型被应用到一个回顾性研究当中,即通过查找文献支持来验证针对“非典”(SARS)或“中东呼吸综合征”(MERS)的老药新用策略的可行性,从而间接证明该老药新用策略针对COVID-19的有效性。链接: