表格识别技术的准确率是其应用价值的关键,而这一准确率受到多种因素的影响。主要包括:
1.图像质量:图像的清晰度、分辨率、对比度和光照条件都会影响识别准确率。模糊、低分辨率或对比度不足的图像会降低识别效果。
2.表格复杂度:表格的样式、结构复杂性(如合并单元格、细线表格、无线表格等)会影响识别的难度。复杂的表格布局可能需要更高级的识别算法。
3.文档格式:不同的文档格式(如PDF、图像文件等)可能包含不同的元数据和结构信息,这些信息的可用性会影响识别过程。
4.表格内容:表格中的数据类型(如文本、数字、混合内容)和语言特性也会影响识别准确率。
5.预处理和后处理:图像的预处理(如去噪、增强对比度)和识别后的后处理(如错误纠正、数据格式化)步骤对提高识别准确率至关重要。
6.训练数据集:深度学习模型的性能很大程度上依赖于训练数据集的质量和多样性。丰富的训练数据可以帮助模型更好地泛化。
7.环境因素:在某些情况下,识别环境(如扫描设备的质量、图像获取条件)也会影响原始文档的图像质量,进而影响识别准确率。
如何用深度学习技术解决表格识别难点?
表格识别技术主要包括表格检测和表格结构识别两大任务。表格检测主要检测表格主体,即从图片中确认表格区域;表格结构识别是对表格区域进行分析,提取表格中的数据与结构信息,得到表格的行列逻辑结构。两大任务均具有相当的复杂性。
首先,表格类别多样,根据有无边框可以分为有线表、少线表、无线表等。从有线表、少线表到无线表,表格识别难度逐渐增加。同时,表格文件中常见的背景填充、单元格行列合并等情况,会进一步增加表格识别难度。其他外部因素,如图片倾斜褶皱、背景干扰等问题,都会对表格识别带来挑战。
合合信息以其高精确度表格识别技术大幅节省文件处理时间,作为其智能文字识别技术的核心部分,显著提升了图像处理和复杂场景下文字识别的能力。合合信息智能文字识别技术覆盖了图片、PDF格式文档中多种类的表格识别需求,包括有线表,三线表,无线表等,并且支持合并单元格、多表格并存等复杂情况的识别。
无线表识别是表格识别中的难点,教科书上的部分统计表、药品配方表,都存在框线不完整甚至无框线的情况。无线表缺少表格线,直接套用有线表识别方案无法得到理想的表格结构。合合信息无线表识别采用序列模型、规则匹配等方案,通过自研模型直接预测表格的逻辑结构,再得到表格的物理结构,在保证表格区域内容的完整性的同时,检测准确率较传统方法显著提升。
02B端领域应用
B端领域中,作为合合信息智能文字识别引擎中的重要模块,表格识别技术已落地在银行、证券、保险、制造、物流等近30个行业中,广泛应用于发票、合同、财报、银行流水、物流单据识别等多个场景。除了通用表格识别模块产品外,合合信息还推出了财报机器人、合同机器人、票据机器人等内置表格识别引擎的场景化智能文档处理系统。
以财务场景为例,合合信息表格识别技术被应用于企业发票与订单的数字全流程管理中,曾助力全球知名汽车零配件供应商伟巴斯特实现票据智能扫描、识别、验真、合规自动检查、发票与订单数据匹配、数字化数据、影像留存等全流程财税管理,作业效率提升500%~1000%。
合合信息表格识别技术受到了学术界与行业的共同认可,在2019年国际文档分析识别大会(ICDAR)中,荣获表格识别竞赛冠军。公司智能文字识别相关技术还在国际顶会ICPR、ICFHR等竞赛中获得十余项冠军,并于CVPR、AAAI、ACL、ACM MM等国际顶会上发表。