大模型时代,用户的文档解析需求非常多样、各有偏重:年报、财报、论文、政策文件、企业内部文件,或是教科书、试卷、公式等。而尽管所有解析产品的目标都是成为“全能多面手”,在当前阶段,产品能力各有千秋也是正常的发展过程。
为了协助需要解析PDF的用户直观筛选最适合自己场景的产品,合合信息TextIn团队开发了一款免费的测评工具,它能方便快捷且全面地展示文档解析产品的能力,希望能够帮助开发者们节省“选择”和“测试”这两项工作消耗的时间和精力,更好地聚焦到业务场景。
这套测评指标里,分了5个维度,针对表格、段落、标题、阅读顺序、公式进行定量测评。
使用方法
入口链接:👇
https://github.com/intsig/markdown_tester
使用方式很便捷,支持上传任意自己想测的样本。
•首先,运行install.sh,安装软件包:
•待测评样本按照下述方式放置:
•运行下述命令
•使用命令如下:
其中:
•path_to_pred_md:预测值文件所在文件夹。
•path_to_gt_md:真值文件所在文件夹。
运行效果
表格数据结果示例:
更直观的雷达图示例:
这个工具,团队内部把它称之为文档解析效果评估的“瑞士军刀”。
不论你是文档处理的行家里手,或者对文档解析有使用需求,它都能协助你迅速、高效地评估你的业务场景下各款解析产品的能力。
而为什么会将这把原本内部用的“瑞士军刀”公开出来?主要是因为,近期团队收到了越来越多的对测评工具的需求。用户、上下游同行在评估各款解析产品的时候,一直有个困扰:测试效果要么是端到端的,要么是肉眼判断的。前者很难真正定位到解析表现,后者更是耗时费力还只能观测一小部分样本。
有一位客户的主要应用场景是大模型问答。在拥有测试工具前,他们评测对比各款解析产品效果,主要依靠问答效果随机测试,并人工二次检索文档来大致反推解析能力。且不讨论这样评测的人力消耗程度,从科学性上来说,也是高随机性、低准确度的。
在使用了这款测评工具后,“肉眼观测”解析效果这项工作,已经退出这位客户的舞台了。
其实,目前出现的测评难题来源于大语言模型发展下需求和产品形态的变化。例如,传统的OCR技术在处理表格时,可能只是输出每个单元格的位置和数值。
但当用户使用大模型来回答问题时,更需要的是表格中的数据内容,而且数据越清晰,答案的质量就越高。所以,更倾向于使用逗号分隔或者Markdown格式来展示这些数据。
除了表格,标题、文本段落、单栏双栏的还原也同样面临着“专业不对口”的问题。这就意味着,以前用来评估OCR效果的那套方法,在大模型和RAG的场景下可能就不太适用了。
那么,要如何比较不同的文档解析产品在业务场景下的表现?一些产品的更新发版又对实际使用有多大的提升?
合合信息TextIn团队公开测评工具的目的就是把这些问题公开化、透明化。
所以,这套工具设计和优化的过程中,团队关注的有以下要素:
1.确定评测的主要目标和关键指标
2.选择能够准确反映性能的评价指标
3.减少不必要的复杂性
4.确保符合行业标准和最佳实践
5.让评价结果易于解读和理解
6.保持评价过程的透明度
希望这款测评工具能为开发者们解决评估解析产品的难题。之后,TextIn团队还会继续“磨刀”,不断扩充测评的维度、厂商,让这款工具更加好用。
最后,也欢迎各位开发者向TextIn团队提出需求,包括但不限于对这个tester本身的优化建议,或者提供样本对比测试,甚至是指定厂家做对比测试。
如需体验textin文档解析,请点击👉https://cc.co/16YSIy