资讯中心
关注合合信息解决方案最新动态,了解产业最新成果。
>详情
超好用的扣子Coze插件:基于pdf2md搭建企业级知识库完整实操案例
2024-09-03 15:29:27

最近在做AI智能体定制项目的过程中,发现一款超好用的扣子Coze插件,99%的人都不知道。

下面分享一个实操案例:使用扣子Coze搭建企业级知识库。

为了方便演示,对案例中的数据进行了简化及脱敏,同时对案例的交互流程进行了简化。在这个案例中,主要使用到了Coze的“知识库”、“插件”功能,保姆级教程,直接嘴里喂饭,服务到“胃”。

文章背景

我们团队已经做了不少AI智能体定制开发的项目,积累了比较多的企业案例。

目前在使用扣子Coze搭建企业级知识库的时候,主要有两大难点,一个是PDF文件识别的准确率,另一个是图像识别准确率。

Coze官方提供的OCR插件能力有限,并不支持影印版PDF文件识别,而且在特定场景下,识别的准确率也不高,不能直接输出为类似markdown的结构化数据。

而在企业内部,通常积累了大量的PDF格式文档,这些文档识别准确率不足,严重影响了RAG系统的效果。在发现这个插件之前,我们团队需要在数据工程方面投入大量的时间,对企业数据做比较复杂的数据清洗。在使用上这个插件后,极大提升了我们的项目交付效率。

价值说明

在搭建企业级知识库的过程中,通常需要经过数据收集、数据处理、RAG系统搭建等核心步骤。而在数据处理过程中,文档/图像识别的准确性,对RAG系统搭建有着至关重要的影响,如果数据处理得不好,那么将严重影响RAG的效果,通过RAG检索到的答案可能是错误的,这对企业来说,是无法接受的。

PDF文件识别

以《[千年养生智慧.身边的《黄帝内经》]杨文忠.扫描版》为例:

PDF识别效果

可以看到影印版PDF文件,直接转成了结构化数据,把数据稍作整理,就可以上传到知识库,然后通过RAG的方式提升大模型回答的准确率。

图像内容识别

以疾病诊断证明书为例:

图像识别效果

这里使用了Coze官方的OCR插件(Image2text)和pdf2markdown插件进行了对比:


效果上相差很大,pdf2markdown插件把内容直接转成了markdown格式,而Image2text插件把内容分段了,而且分行的内容被直接截断,划分到不同的text,其输出结果是不如pdf2markdown插件的。

pdf2markdown插件输出结果,因为是markdown语法,看起来不太直观

我们把上述输出结果粘贴到markdown编辑器里面,效果如下:

插件说明

看完上面的效果演示,是不是觉得这个功能非常牛?下面来介绍一下这款插件

插件名称

pdf转markdown

插件地址

https://www.coze.cn/store/plugin/7381354890590814208?from=plugin_card

插件功能

将pdf文档、jpg图像等文件快速转换为markdown格式,支持各类表格、公式解析,实现pdf转md格式、图片img转md格式,帮助大语言模型的数据清洗和文档问答任务。

刚开始特别好奇,是哪个独立开发者开发了这么牛X的第三方插件。

经过一番打听才知道,原来是在OCR领域已经耕耘17年的合合信息旗下的TextIn官方开发的,识别准确率高达99%!那我就可以放心的商用了,TextIn官方维护插件,服务质量肯定会有保障。

插件使用

参数说明

app_id 和 secret_code 是开发者信息,注册账号即可获取,url是pdf文档或图像的链接地址

获取app_id 和 secret_code

访问地址:https://www.textin.com/?from=kol-wjsz ,点击“登录”按钮

使用手机号注册,注册成功后点击右上角的“账户”,进入个人中心


在账号管理页面查看开发者信息

工作流配置

为了最小化演示,我这里搭建了个简单的工作流

开始节点

只需要填入url参数

pdf2markdown节点

app_id  和 secret_code 输入上一章节获取到的开发者信息,url引用开始节点的url变量

结束节点

output参数引用pdf2markdown插件的markdown参数

试运行完成后,发布工作流

搭建企业级知识库

在企业级知识库搭建的过程中,存在大量的PDF文档,如果依赖人工去上传,无疑非常耗时耗力。我们基于Coze官方提供的API,开发了批量上传文档到知识库的插件,优化后的流程如下:

创建知识库

为了方便演示,我就手动创建个知识库,并把《[千年养生智慧.身边的《黄帝内经》]杨文忠.扫描版》这个PDF文档转Markdown的解析结果手动上传到Coze的知识库。

上传文件

设置自动分段与清洗

预览分段效果

创建Bot并验证

询问“衰老的特征与原因”

对照我们知识库输入的内容,可以看到结果基本符合预期

总结

本文通过案例实操的方式,介绍了如何借助pdf2markdown插件,快速使用扣子Coze搭建企业级知识库。得益于pdf2markdown插件对文件识别的准确率,极大地提升了RAG系统的回答效果。

现在TextIn官方注册就送1000页的文档解析额度,正在玩Coze的朋友不要错过了,赶紧来领!

点击链接试用产品👈

即刻咨询,获取您的专属解决方案

预约咨询
Copyright@2024 上海合合信息科技股份有限公司 保留所有权利
在线咨询
申请试用
电话咨询
添加助手 领取资料
截屏保存图片到相册,打开微信扫码识别
qr_image
扫码领取资料包
金融
产业金融营销工具包
产业金融营销工具包
20种金融拓客工具包
20种金融拓客工具包
10种金融风控工具包
10种金融风控工具包
15张重点产业图谱
15张重点产业图谱
10张万亿城市产业图谱
10张万亿城市产业图谱
实体
供应链风险管理资料包
供应链风险管理资料包
供应商准入尽调资料包
供应商准入尽调资料包
企业合规经营工具包
企业合规经营工具包
财务应收授信工具包
财务应收授信工具包
制造业风控合规工具包
制造业风控合规工具包