随着大模型应用落地速度加快,企业级应用相关技术模块日渐成熟,在各个行业领域,企业改革现有业务流程与生产方式,使用AI提高运作效率的可行性大幅度提升。
其中,金融行业作为数据密集、更新快速的代表性行业之一,经常与前沿IT科技强绑定,是企业级技术更新的先锋领域。
以目前相当热门的企业知识库问答产品为例,各大银行、券商已逐步开启引入AI技术提升工作效率的尝试。
本文希望探讨:
在实际业务场景中,知识库问答产品能起到什么作用?要落地企业级应用,目前的技术能实现怎样的产品性能?
知识库(Knowledge Base)是一个存储、组织和提供知识信息的系统,通常具有结构化、访问便捷、动态更新、多源整合等特点。
LLM时代,知识库已经成为金融领域的重要组成部分。金融机构利用知识库进行研报解读、产品推荐、风险控制、合规性检查等,帮助从业人员提高决策的精确性和效率。
目前,金融机构正在使用LLM技术构建更为复杂和动态的知识管理系统,以实现对行业信息的深度挖掘和实时分析。
从金融机构与企业需求端出发,企业需要实现:
- 知识资产管理:对企业既有及后续获得的更新知识完成自动化文档信息分类管理,降低人工信息整理成本;
- 搜索效率提升:快速准确地获取并利用特定领域的知识和信息,在传统搜索引擎的基础上智能判别剔除冗余信息,整合高质量信息,以提高决策效率和质量;同时,知识库问答产品有能力主动给出建议与关联资料,协助从业人员及时获取有效信息;
- 沟通协助:面对与客户、合作伙伴沟通过程中的多样化问题,知识库问答可以为一线工作人员提供强有力的信息支持。
在实际业务场景中,知识库问答产品能够扮演智能助手的角色,帮助金融从业人员及时获取所需信息和资源。
在金融这类强专业性、知识密集型领域,知识库问答产品的信息来源具有多样化的特点:信息来自互联网实时开放信息、行业知识图谱与企业闭源知识库等。公告、财报、研报文件格式涵盖PDF、Word、网页、图片,其中包含大量扫描版文档,需要经由解析工具的处理输入知识库存储,以便抽取调用。
金融知识库文档构成中,机构研报、企业财报、年报等类型占到相当高的比例,这些文件大多具有复杂的版式,机器读取难度较高。
2.1 有线、无线表格与合并单元格
扫描文件中各类复杂表格形式为文档解析提出了识别重构难题。
2.2 多栏布局
研报及网页抓取结果的常见情况,要求文档解析还原正确阅读顺序。
2.3 页眉页脚形式
页眉页脚可能包含多种形式、内容,在部分情况下,还会包含大量注释,需要准确识别并与正文加以区分
那么,当前To C产品在这一领域表现如何呢?
文档解析工具的差异又会对问答产品性能产生怎样的影响?
测试:
首先,在国内某通用大模型问答C端产品上传一份PDF版企业年报,并提出金融分析领域的常见问题:请介绍公司的资产结构。
大模型给出了多个方面的介绍,但答案较为笼统,并未包含具体的数据信息。
替换文档解析工具,将PDF文件上传至TextIn平台进行解析,并把解析后的Markdown文件上传,向大模型提出同一个问题。此次,大模型给出了资产规模、净资产等数据信息。
回到年报原文档进行验证,以排除幻觉干扰。在以下表格中可以看到,在改变解析工具后,大模型的回答来自于年报中表格数据,信息准确。
在这一类案例中,文档解析工具性能对问答类产品表现的影响显著可见。
相比当前产品,企业级金融知识库产品要求更高的效率与准确率,容错性更低,这也意味着从解析到检索召回,产品对各个模块的技术要求将再次提高。
TextIn文档解析具备快速、准确、兼容性强的特点,为企业知识库产品开发提供有力的支持,保障知识库构建与数据更新的重要环节,让开发工作没有“后顾之忧”。
合合信息文档解析产品已经上架TextIn平台,每位开发者都可以注册账号并开通使用。
https://www.textin.com/market/detail/pdf_to_markdown