那里有许多科学论文,要找到正确的论文或它们之间的正确联络或许十分困难。语义学者运用AI来了解和索引期刊文章,可是直到最近还仅限于少量主题。现在它现已扩展到简直包括了科学的每个分支-约有1.75亿篇论文。
我介绍了Allen AI学院的一个项目Semantic Sc??holar,该项目于2016年初次启动时,其时它仅对计算机科学和神经科学范畴的论文进行了索引。第二年,它添加了包括各种子主题的生物医学论文。
他们企图处理的问题仅仅是,有太多信息可供学者解析。虽然他们或许会尽心竭力跟上文献,但要害的见地或相关成果或许隐藏在不流畅的期刊中,而这些期刊仅在引证或谈论中得到最含糊的参阅。
“咱们之所以创立它,是因为科学中的信息过多,”项目负责人道格·雷蒙德(Doug Raymond)在承受采访时解说道。 “团队的重点是,咱们怎么使科学更易于发现?”
语义学者运用自然言语处理来获取论文的要旨,了解所描绘的进程,化学物质或成果,并使该信息易于查找。它不只使查找与给定主题相关的文献变得愈加简单,而且能够树立形式并找到曾经或许不清楚的联络。
例如,有或许运用该渠道来辨认性别和其他人口统计平衡方面的作者趋势(正在开展作业),或许找到体系地引证自己的坏人。在其他情况下,这种趋势或许更直接相关:肾脏疾病的大多数患者是女人,但研讨中运用的大多数是男性。
并不是说该体系本身在进行研讨,可是现实和趋势或许会在这种剖析下呈现,而在其他情况下它们或许依然处于休眠状况。尤其是因为该体系现在包括了大多数科学范畴,而且能够在它们之间以及内部树立联络。
从少量几个学科扩展到简直一切学科都不是一个简单的进程,虽然应战并不是您或许猜到的。
雷蒙德说:“咱们发现咱们的大多数模型都能很好地推行到科学的新范畴。” “也就是说,总有改善的空间。有些域在编写摘要或安置表格方面有不同的约好。”
他们对他们创立的言语模型SciBERT(BERT的开展,它是更通用的NLP署理)进行了调整,以了解不同类型的表明法等。可是明显,在学习了CS并转向有机化学后,它并没有像我那样窒息。成果的功用足以打包成Supp.ai之类的东西。
雷蒙德说,最大的问题是改善体系根底架构以支撑不断添加的数据量时面对的应战愈加平平。
Raymond解说说:“最难的是,转移到实时且即时的数据管道,而不是批量处理它们。” “一旦规划到达如此之高,再加上论文和协作伙伴的数量,咱们就必须重做管道,以在数小时而不是数天内完结作业。”
更多协作伙伴意味着与Elsevier和Nature等首要的科学出书组织协作,在遭到SciHub的要挟以及学者们向敞开拜访形式改变的压力下,与像Semantic Sc??holar这样的新作业协作时,感觉像棒棒糖相同存在。
实际上,该体系现已吸收了大部分敞开获取文献,而且在付费专区后边供给了论文的要害信息-用户将无法不付费就提取完好的文档。另一方面,与Unpaywall的协作关系能够使与敞开获取论文的链接坚持最新。渠道可巧注意到,敞开获取文章在一切文章中所占的份额正在敏捷添加:在曩昔十年中,超越10%的部分添加了一倍多,略低于30%。
现在扩展部分已基本完结,语义学者团队正在研讨一些新功用:改善的文章摘要,特定范畴的功用和概要视图,例如,能够向细胞生物学家展现最新的和最相关的发现。他们的研讨范畴而又不会露出于不断宣布的研讨成果。