Parsr:一个小巧实用的文档清理,解析和提取工具

Parsr 是一个小巧实用的文档(图像,pdf)清理,解析和提取的工具,可为数据科学家和开发者生成随时可用且整理完成的数据。

它为用户提供了结构化且标记完全的信息集,适用于包括数据输入和文档分析自动化,存档等即用型应用程序。

目前 Parsr 可以执行:

  • 文档层次结构再生-单词、行和段落
  • 标题检测
  • 表检测重建
  • 列表检测
  • 文字顺序检测
  • 命名实体识别(日期,百分比等)
  • 键值对检测(用于提取特定的基于表单的条目)
  • 页码检测
  • 页眉页脚检测
  • 链接检测
  • 去除空白

图像(.JPG,.PNG,.TIFF 等)或者 PDF 文件解析提取,生成以下输出格式:

  • JSON
  • Markdown
  • Text
  • CSV(用于表格)或 Pandas Dataframes
  • PDF

关于 Parsr 的使用配置指南请参见 https://github.com/axa-group/Parsr

来了,老弟
-------------    本文结束  感谢您的阅读    -------------
0%