从企业注册起,无论规模大小,都会产生大量的证件、票据、合同等各类型的材料文档,这些文档伴随着企业的经营发展不断增量,但受限于纸质文档形式,无法被编辑、检索,往往成为“高存储成本、低数据价值”的存在。
在数字化的今天,许多企业认识到,企业纸质文档电子化,是企业数字化转型的第一步。通过OCR可以将企业经营中产生的各类凭证与资料智能识别、结构化输出至内部系统,不仅降低了人工操作成本,用机器代替了简单重复劳动,并可通过海量企业数据的分析挖掘,塑造数据资产核心竞争力,从而实现经营决策智能化、业务流程自动化。
另外,对于金融机构、大型制造业、电商平台等拥有规模化对公业务的企业来说,在开户、信贷、供应商准入审核、平台入驻审核等业务场景中,都需要对企业的资质证件、财报等文档进行系统录入与审核。OCR同样是提升业务效率的基础设施。
《中国人民银行关于优化企业开户服务的指导意见》(银发〔2017〕288号)中就指出:鼓励银行将人脸识别、光学字符识别(OCR)、二维码等技术手段嵌入开户业务流程,作为读取、收集以及核验客户身份信息和开户业务处理的辅助手段。
合合信息基于先进的OCR与深度学习技术,支持企业全生命周期文档识别,提供企业证照识别验真,企业票据识别验真,企业通用文档与合同、财报、保单识别服务,并支持多种文档类型自动分类,图像自动优化处理。
01
企业证照识别验真
企业证照识别
银行开户、供应商准入等业务场景中,需要对企业资质进行审核,将搜集到的企业证照图像上的信息采集录入业务系统,传统人工录入效率低、人力成本大,且易出错。合合信息支持将多种类型的企业证照智能分类、识别、自动填单录入企业内部系统。
企业证照中最重要的是企业三证,分别指营业执照、税务登记证、组织机构代码证。2015年推行“三证合一,一照一码”后,营业执照与组织机构代码证、税务登记证合三为一,三证合一的营业执照拥有了“一个顶三个”的作用。
合合信息支持新版与旧版企业三证的全字段识别,可单张或批量识别,操作者无需手动选择三证类型,系统自动判断并分类证照类型,结构化识别、输出。
另外,对于存在图像模糊、亮度低、反光、倾斜、纸张褶皱、多余背景等问题的证照图像,合合信息支持自动预处理优化,通过对图像进行边缘检测、切边压缩、增强锐化、曲面矫正、阴影消除、去摩尔纹等一系列自动化优化处理,输出高质量的证照电子图像,提升留存资料的规范性。
合合信息证照识别模块支持对接企业内部业务系统,如客户管理系统,供应商管理系统,自动录入企业信息,或补全存量企业数据中不完整的信息,减少人工操作环节,提升信息录入效率。
● 营业执照
营业执照有多种版式,比如:根据主体类型不同,营业执照的照面字段有所差异;2019年3月启用的新版营业执照,从竖版变为了横版。
合合信息支持对不同版式的营业执照的共计14个关键字段进行结构化识别,并可自动区分是否为副本、是否为电子营业执照。
△横版营业执照识别演示
△竖版营业执照识别演示
● 税务登记证
支持对税务登记证的8个关键字段进行结构化识别:纳税人识别号、纳税人名称、法定代表人、地址、登记注册类型、经营范围、批准设立机关、扣缴义务。
● 组织机构代码证识别
支持对组织机构代码证的8个关键字段进行结构化识别:代码、机构名称、机构类型、法定代表人、地址、有效期、颁发单位、登记号。
合合信息还支持卫生许可证、事业单位法人证、企业法人身份证、企业名下不动产权证等多种企业、事业单位相关证照识别。
● 大数据证照验真
为了防范企业资质证照造假、提交证照不是最新有效证照等情况,在采集录入企业信息后,还需要对企业信息进行多方核验。传统核验方式是从国家企业信用信息公示系统、各类资质证照对应的政务官网进行信息搜集与逐项校对,核验效率低,且容易产生疏漏。
合合信息可通过API接口调用旗下启信宝2.3亿家的1000+维度的全景全量企业大数据,包含工商信息、知识产权、资质认证、行政许可、税务信息、司法涉诉、失信被执行、经营信息等,在企业业务系统内实现「证照OCR识别 — 自动填单 — 与启信宝大数据一致性校验 — 不匹配数据自动纠错提示」的一站式企业信息录入与校验审核,无需切换、跳转不同系统平台,极大提升企业材料审核效率,严格防范证照造假、失效风险。
02
企业票据识别验真
企业经营过程中,会产生大量的发票与单据作为业务凭证,这些票据数量庞大,需要大量人力整理归档或用于财务、审计。合合信息支持对多类型票据进行切分、分类、识别,助力企业实现全流程票据信息电子化、结构化。
可识别的标准票据类型包括:增值税普通发票、增值税普通发票(卷票)、增值税专用发票、增值税电子普通发票、货物运输业增值税专用发票、机动车销售统一发票、二手车销售统一发票、通用机打发票、通用定额发票、旅客运输普票、公路客运发票、船运客票、出租车发票、停车费发票、过路过桥费发票、飞机行程单、火车票、增值税销货清单、商铺小票、海关进出口货物报关单、电子承兑汇票、银行回执单等。
其中,增值税发票(普票、专票、电子票)与机动车销售统一发票、二手车销售统一发票,可自动验真。
针对企业内部个性化版式的单据,如银行的柜面单据、企业的出入库单,合合信息推出文字识别训练平台,零基础的开发者或实际业务人员也可以在极短时间内实现从创建新的文档结构化任务、训练提升识别效果,到实际测试和部署的全周期AI开发工作流。经实测,特定版式文档OCR模型最快仅需4小时即可完成开发全流程。
03
合同/财报/保单等企业文档识别
通用文档识别
对于大量的企业内部纸质材料,合合信息支持对各种表格、图片、文档等进行精准的检测与识别,适用于印刷体、手写体,支持56种语言文字识别,包括:简体中文、繁体中文、日语、韩语、英语、法语、葡萄牙语、德语、意大利语等。
对于包含表格的文档,合合信息支持对表格进行高精度的识别还原,支持无框线、紧密表格线等复杂表格的识别;对于包含印章的文档,可进行印章的存在性判断、印章内容识别与印章强化、展平、提取、消除等图像处理。
合同识别
实务中,企业纸质合同除了需要进行电子化归档,更需要在合同评审、用印环节,对合同内容进行合规审查、比对校验、风险排查。
针对企业法务场景需求,合合信息推出TextIn合同机器人,支持合同全文比对,规避用印合同与电子版合同存在差异带来的损失风险,还能通过STR识别与NLP算法,智能结构化抽取合同关键信息,并进行关键信息比对,支持图片、PDF、word多种格式,可通过API接口传输至企业业务系统,协助企业法务完成自动填单、内容一致性检查,让合同审阅更高效。
财报识别
在银行、供应链金融平台、投资机构、融资租赁企业进行贷前、投前、租前审核中,需要分析企业客户财报。财报可真实系统地揭示企业一定时期的财务状况、经营成果和现金流量,为业务决策提供数据参考。
合合信息基于自研的智能文字识别、表格识别、自然语言处理技术,推出TextIn财报机器人,智能采集、校验、结构化输出财报数据,识别一页财报信息平均仅需2-3秒。通过匹配内置财务准则、科目匹配、试算平衡校验,能高效地将不同文件格式、报表格式的财务数据以统一的标准格式输出,大幅度缩短财报录入时长,规范数据输出格式,提升财务分析效率。
保单识别
保险核保或保单融资业务中,金融机构需要对企业保单进行识别录入。合合信息支持对各类财险保单、寿险保单进行自动分类与全字段配置、识别,支持手写体判存识别,智能识别签字、手写日期、手抄内容,自动区分并提示手写体内容与印刷体内容;支持印章识别与模糊A4纸识别。
04
客户案例
合合信息已为银行、证券、保险、融资租赁、制造业、建筑地产、征信、智慧政务、园区等30多个领域提供企业与个人证件OCR识别服务。
某股份制银行
某股份制银行将合合信息提供的营业执照、身份证、银行卡等OCR能力运用于手机银行、柜面等渠道,赋能移动开户展业,且提升了行内运营中心业务处理效率,降低了集中运营的人力成本。
基于合合信息成熟的OCR技术,该行将传统的材料录入流程从“两录一校”转变为“一录一校”,据行方反馈,减少了30人天的工作量。企业信息智能识别录入行内系统后,通过启信宝大数据,该行在企业开户/贷前,对企业身份与资质进行尽职调查、风险排查,强化了企业客户风险管理能力。
顺德农商银行
顺德农商银行携手合合信息部署了营业执照、身份证/临时身份证、银行卡、户口本、行驶证、增值税发票、通用文档、通用表格识别等OCR模块,还基于自身业务的个性化需求,定制了佛山房产证、佛山不动产权证与支票识别,构建了对业务中涉及的各类卡证照、票据、文本信息的智能分类、图像优化、识别和数据结构化能力,以机器识别代替人工录入,显著提升了材料识别录入效率与准确率。
某汽车集团
合合信息为某汽车集团的汽车金融、财务法务等提供OCR服务,通过实现营业执照、身份证、银行卡等多种标准证件识别以及保单、合同等定制文档版式识别,提升业务审核效率。据客户反馈,过去审核100笔订单需要11个小时,上线OCR模块后,审核时间缩短至7小时。
时代中国
时代中国有150万份存量文档及每天1000份增量文档存放在内部档案系统中,全部为单页扫描文档,不能检索,更无法形成有价值的数据资产。如果企业需要将这些数据变成可编辑检索的内容,就需要人工进行手工录入,1个人完成150万份文件的输入大致需要耗费近30年。
接入合合信息OCR解决方案后,提升了时代中国的资料质检和信息录入能力,降低了运营成本,让工作人员的工作重心从录入转为数字资产的价值挖掘。数据显示,同样是1位员工,150万份材料仅仅只需要50天即可完成录入。同时,文档经OCR识别后可以直接转化为双页可编辑的PDF文件,并可以直接存储在指定的档案系统中。