资讯中心
关注合合信息解决方案最新动态,了解产业最新成果。
告别肉眼评测:一键选择更为高效地智能文档解析工具!
2024-07-16 11:50:36

大模型时代,用户的文档解析需求非常多样、各有偏重:年报、财报、论文、政策文件、企业内部文件,或是教科书、试卷、公式等。而尽管所有解析产品的目标都是成为“全能多面手”,在当前阶段,产品能力各有千秋也是正常的发展过程。

为了协助需要解析PDF的用户直观筛选最适合自己场景的产品,合合信息TextIn团队开发了一款免费的测评工具它能方便快捷且全面地展示文档解析产品的能力,希望能够帮助开发者们节省“选择”和“测试”这两项工作消耗的时间和精力,更好地聚焦到业务场景。

这套测评指标里,分了5个维度,针对表格、段落、标题、阅读顺序、公式进行定量测评。


使用方法

入口链接:👇

https://github.com/intsig/markdown_tester

使用方式很便捷,支持上传任意自己想测的样本。


•首先,运行install.sh,安装软件包:



•待测评样本按照下述方式放置:



•运行下述命令


•使用命令如下:



其中:


•path_to_pred_md:预测值文件所在文件夹。


•path_to_gt_md:真值文件所在文件夹。


运行效果


表格数据结果示例:



更直观的雷达图示例:



这个工具,团队内部把它称之为文档解析效果评估的“瑞士军刀”。


不论你是文档处理的行家里手,或者对文档解析有使用需求,它都能协助你迅速、高效地评估你的业务场景下各款解析产品的能力。


而为什么会将这把原本内部用的“瑞士军刀”公开出来?主要是因为,近期团队收到了越来越多的对测评工具的需求。用户、上下游同行在评估各款解析产品的时候,一直有个困扰:测试效果要么是端到端的,要么是肉眼判断的。前者很难真正定位到解析表现,后者更是耗时费力还只能观测一小部分样本。


有一位客户的主要应用场景是大模型问答。在拥有测试工具前,他们评测对比各款解析产品效果,主要依靠问答效果随机测试,并人工二次检索文档来大致反推解析能力。且不讨论这样评测的人力消耗程度,从科学性上来说,也是高随机性、低准确度的。


在使用了这款测评工具后,“肉眼观测”解析效果这项工作,已经退出这位客户的舞台了。


其实,目前出现的测评难题来源于大语言模型发展下需求和产品形态的变化。例如,传统的OCR技术在处理表格时,可能只是输出每个单元格的位置和数值。


但当用户使用大模型来回答问题时,更需要的是表格中的数据内容,而且数据越清晰,答案的质量就越高。所以,更倾向于使用逗号分隔或者Markdown格式来展示这些数据。


除了表格,标题、文本段落、单栏双栏的还原也同样面临着“专业不对口”的问题。这就意味着,以前用来评估OCR效果的那套方法,在大模型和RAG的场景下可能就不太适用了。


那么,要如何比较不同的文档解析产品在业务场景下的表现?一些产品的更新发版又对实际使用有多大的提升?


合合信息TextIn团队公开测评工具的目的就是把这些问题公开化、透明化。

所以,这套工具设计和优化的过程中,团队关注的有以下要素:


1.确定评测的主要目标和关键指标

2.选择能够准确反映性能的评价指标

3.减少不必要的复杂性

4.确保符合行业标准和最佳实践

5.让评价结果易于解读和理解

6.保持评价过程的透明度


希望这款测评工具能为开发者们解决评估解析产品的难题。之后,TextIn团队还会继续“磨刀”,不断扩充测评的维度、厂商,让这款工具更加好用。


最后,也欢迎各位开发者向TextIn团队提出需求,包括但不限于对这个tester本身的优化建议,或者提供样本对比测试,甚至是指定厂家做对比测试。


如需体验textin文档解析,请点击👉https://cc.co/16YSIy

即刻咨询,获取您的专属解决方案

预约咨询
Copyright@2024 上海合合信息科技股份有限公司 保留所有权利
在线咨询
申请试用
电话咨询
添加助手 领取资料
截屏保存图片到相册,打开微信扫码识别
qr_image
扫码领取资料包
金融
产业金融营销工具包
产业金融营销工具包
20种金融拓客工具包
20种金融拓客工具包
10种金融风控工具包
10种金融风控工具包
15张重点产业图谱
15张重点产业图谱
10张万亿城市产业图谱
10张万亿城市产业图谱
实体
供应链风险管理资料包
供应链风险管理资料包
供应商准入尽调资料包
供应商准入尽调资料包
企业合规经营工具包
企业合规经营工具包
财务应收授信工具包
财务应收授信工具包
制造业风控合规工具包
制造业风控合规工具包