资讯中心
关注合合信息解决方案最新动态,了解产业最新成果。
>详情
TextIn ParseX SDK&前端代码开源!助力开发者解析版面元素信息
2024-09-03 18:33:55

TextIn ParseX通用文档解析是一款大模型友好的文档解析工具,支持将pdf文档、jpg、img图像等文件快速转换为markdown格式,支持各类表格、公式解析,帮助大语言模型的数据清洗和文档问答任务。点击链接可免费试用👈

产品特点

  • 支持多种扫描内容:能良好处理各类图片与扫描文档,包括手机照片、截屏等内容。
  • 支持多种语言:支持简体中文/繁体中文/英文/数字/西欧主流语言/东欧主流语言等共 50+ 种语言。
  • 表格识别效果好:能准确识别各种格式的表格,包括有线表格、无线表格、密集表格,并支持各种类型的合并单元格识别与还原。
  • 阅读顺序还原准:能理解和还原文档的结构和元素排列,确保阅读顺序的准确性,支持多栏布局的论文、年报、业务报告等内容。
  • 自研文档树引擎:从语义出发,提取段落embedding值,预测标题层级关系,通过构造文档树提高检索召回效果。

为了让用户获得文档解析引擎返回的丰富版面元素,我们开发了一系列的sdk函数,包括目录树、公式、表格、图片、全文markdown等结果的获取函数。对于api用户来说,评估文档解析引擎的版面分析结果准确性是困难的,可视化的前端界面可以一定程度解决定性评估的问题,另外一些场景中,用户希望能够可视化文件解析的结果,并对结果进行编辑修正,获得更高精度的解析结果,这个时候前端可视化组件就是必不可少的了。为了满足这些需求,方便用户,我们将textin.com上面的前端可视化组件进行了开源,请用户批评指正。

SDK功能介绍

TextIn ParseX是一套标准的多平台支持的python sdk,帮助开发者解pdf_to_markdownRestful API返回结果,获取对应的版面元素的数据结构。开发者只需在终端安装对应的依赖就可以使用。

为了方便用户获取版面元素,此次更新,调用接口增加了'page_details'参数,返回的json结果里面新增加了'pages'的字段。

pip install TextInParseX

如果报错timeout,可以尝试国内源:
pip3 install TextInParseX -i http://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com

首先,你要在textin开通文档解析服务,然后可以在试用工作台点击用户图标,再点击账号与开发者信息(或者登陆后从textin首页->账户与充值->账号与开发者信息,或者点击https://www.textin.com/console/dashboard/setting)中获得api_id和secret_code。

你可以通过ParseX直接调用url获取解析对象。

也可以参考textin.com的restful api调用,通过python,curl,或者postman工具获得api的原始json文件,再通过ParseX解析json文件获得解析对象。

如果你想要获得全文级别的结果,例如文档的markdown信息,所有文本、表格、段落、图片信息,可以如下处理:

分别获取每页的表格信息、图片信息,段落纯文本信息,段落坐标,每行的信息:

如果想获取每行的位置和文本,可以如下处理:

前端组件功能介绍

在解析结果审核校对、效果测评等场景下,需要可视化展示文档解析后的结果。

TextIn.com体验页上,我们提供丰富的可视化和交互功能,这部分前端组件现已开源!

项目用ES6开发,基于React框架。仓库地址:https://github.com/intsig-textin/parsex-frontend


目前前端组件已实现以下特性:

  1. 预览渲染主流图片格式和pdf文件,提供缩放和旋转功能
  2. markdown结果渲染,支持各级标题、图片、公式渲染展示
  3. 各类解析元素提取展示,支持查看表格、公式、图片,和原始 JSON 结果
  4. 解析元素文档位置溯源,原文画框标注各元素位置,可以点击画框跳转解析结果,也可以点击解析结果跳转原文画框
  5. 各级目录树还原展示,支持点击跳转相应章节
  6. 接口调用选项参数配置,支持配置不同参数组合,获取相应解析结果
  7. 复制和导出markdown文件
  8. 复制解析后的表格和图片,可以直接粘贴到Excel表格中

以上功能,都可以在 TextIn.com 上体验使用,地址:https://www.textin.com/console/recognition/robot_markdown?service=pdf_to_markdown

后续我们将开放更多的sdk函数,例如让用户获取所有的手写元素,复选框元素,也欢迎各位用户朋友给我们提更多的类似需求。

在一些国家标准、专利、扫描书的场景,用户还需要将文件解析后的结果进行校对,为了满足这样的需求,后续我们会在前端组件里面导入编辑的功能,并增加电子档pdf格式的导出功能。


SDK:https://github.com/intsig-textin/parsex-sdk

前端组件:https://github.com/intsig-textin/parsex-frontend

文档解析的测评工具:https://github.com/intsig-textin/markdown_tester

文本向量化模型:https://huggingface.co/aspire/acge_text_embedding

点击阅读原文,在TextIn官网获取新用户1000页免费额度。更多额度福利、大模型应用技术学习材料,关注公众号即刻领取!

点击链接可免费试用👈

即刻咨询,获取您的专属解决方案

预约咨询
Copyright@2024 上海合合信息科技股份有限公司 保留所有权利
在线咨询
申请试用
电话咨询
添加助手 领取资料
截屏保存图片到相册,打开微信扫码识别
qr_image
扫码领取资料包
金融
产业金融营销工具包
产业金融营销工具包
20种金融拓客工具包
20种金融拓客工具包
10种金融风控工具包
10种金融风控工具包
15张重点产业图谱
15张重点产业图谱
10张万亿城市产业图谱
10张万亿城市产业图谱
实体
供应链风险管理资料包
供应链风险管理资料包
供应商准入尽调资料包
供应商准入尽调资料包
企业合规经营工具包
企业合规经营工具包
财务应收授信工具包
财务应收授信工具包
制造业风控合规工具包
制造业风控合规工具包