基于论文内部结构化数据的图搜索引擎

1 Semion学术搜索引擎

科学出版的快速发展迫切需要新的改进工具以快速简便的搜索不断增长的科学论文。然而,传统的搜索引擎中并未有效把科学文献结构化,从而丢弃了大量关于文献不同部分如何相互关联的结构化信息。

QQ截图20190710223402

semion.io的建立就是基于文献内部结构化信息的关系,即利用这种关系可以极大地改善学术文献搜索。每份文献丰富的内部结构可以为给定的搜索查询提取关键图和描述段落,同时适当地对结果进行语境化处理。

examplesearch

semion .io是一个研究项目,它利用科学文献错综复杂的内部结构,直接搜索关键图表,方程式和段落,并进行语境化处理。

2 工作原理

semion.io将每个文献分解成组成部分(段落,表格,图表,章节,方程式…),并确定链接,互连和引用。

exampledoc

例如,一个段落可能描述一个特定的统计图,其标题可能反过来引用一个方程式或引用另一篇论文。或者,一个图形的标题引用一个表格。在搜索过程中,这种关系对于确定相关的搜索结果和上下文相关的信息至关重要。例如,搜索排名不是只关注原始引用计数,而是根据引用论文的相应部分与搜索查询的相关程度来强调引用关系。

3 图结构

semion搜索引擎内部构建了arXiv上所有预印本中包含的组合信息的单一有向图 - 论文图。每个节点代表一个图形,段落,方程式或其他组成部分及其相关描述。图形边缘对每个原始文档内部或是跨越论文边界的相互连接进行编码。因此,学术文献搜索实际上是建立在基于大规模论文图形搜索问题上。semion.io为每个搜索请求确定论文图的相关分区,然后遍历子图,并在适当的上下文中计算被认为最相关节点的排名。

examplegraph

4 使用价值

利用semion搜索引擎搜索1,556,121个预印本科技文献,7,546,100个统计图,98,941,368个段落,73,620,871个方程式。

你可以根据搜索内容选择要阅读的论文并一目了然地看到关键统计图,段落,表格和方程式。并可无缝导航到文献引用部分和相关链接。利用semion还可跟踪最新的预印本提交,接收相关论文的每日提醒,及时跟踪到与你研究方向最相关的科学文献。

网站地址 https://www.semion.io

来了,老弟
-------------    本文结束  感谢您的阅读    -------------
0%