解锁100年的科学论文:Scholarcy如何与BMJ合作推动I4OC的发展

解锁100年的科学论文:Scholarcy如何与BMJ合作推动I4OC的发展

参考挖掘是引文网络和丰富的可发现数字图书馆创建的基础。近年来,已经开发了许多工具来满足这种需求,但它们通常受输入格式,基础设施要求和运行时性能的限制。该领域的最新发展重点是从艺术和人文学科文献中参考挖掘PDF,但是对于在整个研究领域中从各种文档和格式中提取和解析参考文献的快速,准确方法的需求日益增长。

img

BMJ面临的挑战

BMJ的档案扩展到数十万篇文章(有些可追溯到19世纪40年代),这些文章仅以PDF格式存在。在2018年底,BMJ希望挖掘这些PDF以供参考,并以CrossRef XML格式自动构建它们,以便作为开放引用计划(I4OC)的一部分向研究界广泛提供。出版商需要一种快速,有效的方式来提取,解析和链接29种期刊中超过200,000篇文章的引文,并将其引用到源文档,以支持开放引用计划并使其档案更容易被发现。

BMJ的数字战略研究负责人Helen King在去年年底期待寻找这个问题的解决方案,并解释说:

“我们正在考虑一系列解决方案来帮助我们挖掘我们的档案,提取数百万个参考文献,并以CrossRef XML格式自动构建它们,以便将它们作为Open Citations Initiative的一部分提供给社区。

我们曾与Scholarcy的创始人Phil Gooch交谈,并对该工具使用机器学习和自动语言分析以从研究论文中提取关键事实,参考和数据印象深刻。关于Scholarcy真正让我们震惊的另一件事是它的参考提取和解析过程的速度,能够每分钟处理1000个PDF,精度高达95%。“

学术的挑战

1.将20多种不同的参考样式转换为一致的格式

今年1月,BMJ为我们提供了PDF格式的200,000篇文章(148GB数据)。其中大部分已于1960年至1998年间出版,但有些可追溯到19世纪40年代。虽然到了20世纪80年代末/ 90年代初,大多数期刊都转向温哥华参考格式,但每个期刊的早期版本都有自己的引用风格,因此我们需要将最多29种不同的样式转换为CrossRef XML格式作为项目的一部分。

2. OCR:你所看到的并不总是你得到的

每个PDF以前都被扫描为图像并通过光学字符识别(OCR)软件运行。这意味着我们的机器学习模型必须处理各种不一致和嘈杂的数据,以及许多不同的引用样式,格式和排版怪癖。例如,在一些早期问题中,1将被排版为serif字母’I’,0作为小写字母’o’。

在扫描的文章中,引用部分通常在屏幕和打印中看起来像这样:

img

但是从PDF中提取的原始OCR文本如下所示:

img

我们的机器学习模型必须将这些噪声数据转换为干净的结构化参考,如下所示:

img

3.较旧的文章并不总是有一个定义的参考部分

我们在BMJ档案中发现的许多文章,特别是1960年以前写过的文章,都是在文章的任何地方都可以找到参考文献。这意味着必须对Scholarcy的模型进行调整,以准确提取文章中的所有引用来源,无论其位置,格式或是否符合更新的发布协议。

4.许多单个文件PDF包含多篇文章

我们面临的另一个挑战是,在要处理的PDF文件中,大约40,000个包含多篇文章。同样,Scholarcy的算法需要能够识别并准确地从单个文件中解析多篇文章,然后再提取每篇相应文章的所有参考文献。通过使用模糊匹配来定位PDF中的每个文章标题,然后从那里读取直到下一篇文章的开头或文件的结尾来实现这种分割。

项目成果

从需求收集,算法细化到在CrossRef中提取超过200万次引用作为验证XML记录的过程,整个项目运行了12周。特别受益的出版物包括英国医学杂志本身(279,000条新记录),Gut(177,000),临床病理学杂志(171,000)和神经病学,神经外科和精神病学杂志(168,000)。

99.9%的提取记录是完全有效的XML。仅在0.1%的情况下,XML需要一些手动更正以满足CrossRef验证标准。这些记录已上传到CrossRef,现在可以作为开放引文提供给任何人重复使用。

谈到BMJ-Scholarcy联合倡议的结果,Helen King说:

“Scholarcy的参考提取的速度和准确性超出了我们的预期。我不认为我们可以在如此短的时间内与其他外部或内部解决方案取得相同的结果。由于这一举措,我们大大丰富了CrossRef网络,为数千篇重要论文注入了新的活力,几十年甚至几百年前。“

来了,老弟
-------------    本文结束  感谢您的阅读    -------------
0%