在企业文档处理业务中,表格类文档是较大难点,如发票、单据、财报等,常常出现表格线过密、无表格线、表格合并、文字叠印等情况,对表格内容的信息抽取、审阅、录入提出了挑战。高精确度的表格识别技术能够大幅节省文件处理时间,是合合信息智能文字识别技术中,图像处理和复杂场景文字识别技术的重要应用。
表格识别主要包括表格检测和表格结构识别两大任务。表格检测主要检测表格主体,即从图片中确认表格区域;表格结构识别是对表格区域进行分析,提取表格中的数据与结构信息,得到表格的行列逻辑结构。
两大任务均具有相当的复杂性。首先,表格类别多样,根据有无边框可以分为有线表、少线表、无线表等。从有线表、少线表到无线表,表格识别难度逐渐增加。同时,表格文件中常见的背景填充、单元格行列合并等情况,会进一步增加表格识别难度。其他外部因素,如图片倾斜褶皱、背景干扰等问题,都会对表格识别带来挑战。
△合合信息通用智能文字识别引擎对合并单元格表格进行识别
近年来人工智能技术飞速发展,计算机视觉(CV)、自然语言处理(NLP)和图神经网络等深度学习方法被广泛引入表格识别任务中,例如语义分割、目标检测、序列预测等。在16年领域深耕中,合合信息智能文字识别技术覆盖了图片、PDF格式文档中多种类的表格识别需求,包括有线表,三线表,无线表等,并且支持合并单元格、多表格并存等复杂情况的识别。
基于分治思想,合合信息引入深度学习技术,将表格识别分为有线表识别和无线表识别两种方案。有线表识别中,合合信息利用语义分割、角点回归等技术方案还原有线表,在财报相关表格识别测试中,有线表识别单元格结构准确率高于98%。
无线表识别是表格识别中的难点,教科书上的部分统计表、药品配方表,都存在框线不完整甚至无框线的情况。无线表缺少表格线,直接套用有线表识别方案无法得到理想的表格结构。合合信息无线表识别采用序列模型、规则匹配等方案,通过自研模型直接预测表格的逻辑结构,再得到表格的物理结构,在保证表格区域内容的完整性的同时,检测准确率较传统方法显著提升。
△合合信息通用智能文字识别引擎对无线表格进行识别
现阶段,合合信息智能文字识别技术中的表格识别技术已被应用于以“扫描全能王”为代表的C端APP中,通过“文件转换excel”功能服务于大众生活和办公需求。用户可以使用扫描全能王拍摄个人合同、清单、工作表格等,APP自动提取图片、PDF中的文字内容,并将其转化为可编辑的excel文档,便于二次编辑和分享。近半年来,“文件转换excel”相关功能累计被调用百万次。
B端领域中,作为合合信息智能文字识别引擎中的重要模块,表格识别技术已落地在银行、证券、保险、制造、物流等近30个行业中,广泛应用于发票、合同、财报、银行流水、物流单据识别等多个场景。除了通用表格识别模块产品外,合合信息还推出了财报机器人、合同机器人、票据机器人等内置表格识别引擎的场景化智能文档处理系统。
以财务场景为例,合合信息表格识别技术被应用于企业发票与订单的数字全流程管理中,曾助力全球知名汽车零配件供应商伟巴斯特实现票据智能扫描、识别、验真、合规自动检查、发票与订单数据匹配、数字化数据、影像留存等全流程财税管理,作业效率提升500%~1000%。
合合信息表格识别技术受到了学术界与行业的共同认可,在2019年国际文档分析识别大会(ICDAR)中,荣获表格识别竞赛冠军。公司智能文字识别相关技术还在国际顶会ICPR、ICFHR等竞赛中获得十余项冠军,并于CVPR、AAAI、ACL、ACM MM等国际顶会上发表。