最近,知盛数据欧洲研发团队参与撰写的论文《文献浏览器:通过非参数性主题探查进行科学文档的有效检索》(以下简称“文献浏览器”)成功发表,并刊登于知名学术刊物《The Visual Computer》中。
该论文研究的出发点是在当今文献资源丰富并且信息量高速膨胀的环境下,科研工作者很难快速查询到需要的相关文献。如何提高文献的检索效率和准确性,研究者们希望能够借助人工智能技术的力量来提升效率,并为越来越庞大的信息资源查询管理工作做好准备。
《文献浏览器》论文中提到,当前检索工具主要是以匹配关键词来对资料进行过滤,整理出包含相关关键词的主题或语句,最后由使用者进行阅读后确认是否与检索目标相关。而对于如何提高检索结果的准确性,很大程度上需要人脑来辨识。
知盛数据的研发团队设计了利用主题建模(topic modelling)来理解自然语言,通过科学语料库来理解相关主题含义,让检索结果与研究者所需要的内容能够直接相关而且信息有效。这样,不但能够让科研工作者能够识别,同时通过关键词的重复、重叠,让文献之间建立起关联性,帮助科研工作者快速梳理出其他相关信息。
依靠对关键词与自然语言的理解,生成与之直接相关的高频词汇和信息,匹配出使用者所需要检索的文献列表。
除此之外,采用提升检索结果的整体视觉化效果,来近一步明晰文献之间的关联性。在”文献浏览器“所建立的系统界面中,用扩散型图表对关键词“motion”快速反应出capture、movement、character等其他相关高频词汇,同时用平行列表提供了文献列表并标明了与检索目标的相关性,让使用者能够清晰地辨识所生成的信息。
在研究过程中,由八名由博士后和博士组成的小组对系统检索结果进行了评估。在八个不同领域关键词的检索中,小组成员在评估文献的关联准确性(Precision Rate)和覆盖既往所知的重要文献比例(Recall Rate)来核定检索的结果,最终得出在八个领域中所得出的文献拥有88%的匹配度。研发团队根据评估结果认为,通过这种”文献浏览器“来检索能够得出专业的结果,对个人的研究能够起到很大帮助。
这项研究在后期还将继续进行延展,并不断丰富语料库的规模和种类,未来可以作为文献检索的高效辅助工具,帮助人们解决因越来越多的信息量而造成的检索困难和时间成本问题。
人工智能在众多领域会发挥越来越多的作用,知盛数据的研究人员不仅仅关注在健康医疗领域应用层面,同时放眼计算机视觉、机器学习、人机交互、数据挖掘、图像处理、计算机图形学等多方面研究,并在基础研究上已经拥有80多项全球专利。
近期推荐
-
AI深度强化学习模型有效提升糖尿病管理 l 知盛数据科学家参加纽约深度学习会议
-
知盛数据荣获2019大数据人工智能生态大奖
-
知盛数据参加中美临床开发研究会议 共商生物医药发展
-
方恩医药—ICH的践行者
-
来自星星的孩子 I 用科技点亮自闭症儿童的夜空
-
2019中国准独角兽企业榜单发布 I 知盛数据名列全国百强
-
ODSC2019·波士顿 I 知盛分享健康管理技术方案
知盛数据官方微信