最近在做AI智能体定制项目的过程中,发现一款超好用的扣子Coze插件,99%的人都不知道。
下面分享一个实操案例:使用扣子Coze搭建企业级知识库。
为了方便演示,对案例中的数据进行了简化及脱敏,同时对案例的交互流程进行了简化。在这个案例中,主要使用到了Coze的“知识库”、“插件”功能,保姆级教程,直接嘴里喂饭,服务到“胃”。
文章背景
我们团队已经做了不少AI智能体定制开发的项目,积累了比较多的企业案例。
目前在使用扣子Coze搭建企业级知识库的时候,主要有两大难点,一个是PDF文件识别的准确率,另一个是图像识别准确率。
Coze官方提供的OCR插件能力有限,并不支持影印版PDF文件识别,而且在特定场景下,识别的准确率也不高,不能直接输出为类似markdown的结构化数据。
而在企业内部,通常积累了大量的PDF格式文档,这些文档识别准确率不足,严重影响了RAG系统的效果。在发现这个插件之前,我们团队需要在数据工程方面投入大量的时间,对企业数据做比较复杂的数据清洗。在使用上这个插件后,极大提升了我们的项目交付效率。
价值说明
在搭建企业级知识库的过程中,通常需要经过数据收集、数据处理、RAG系统搭建等核心步骤。而在数据处理过程中,文档/图像识别的准确性,对RAG系统搭建有着至关重要的影响,如果数据处理得不好,那么将严重影响RAG的效果,通过RAG检索到的答案可能是错误的,这对企业来说,是无法接受的。
PDF文件识别
以《[千年养生智慧.身边的《黄帝内经》]杨文忠.扫描版》为例:
PDF识别效果
可以看到影印版PDF文件,直接转成了结构化数据,把数据稍作整理,就可以上传到知识库,然后通过RAG的方式提升大模型回答的准确率。
图像内容识别
以疾病诊断证明书为例:
图像识别效果
这里使用了Coze官方的OCR插件(Image2text)和pdf2markdown插件进行了对比:
效果上相差很大,pdf2markdown插件把内容直接转成了markdown格式,而Image2text插件把内容分段了,而且分行的内容被直接截断,划分到不同的text,其输出结果是不如pdf2markdown插件的。
pdf2markdown插件输出结果,因为是markdown语法,看起来不太直观
我们把上述输出结果粘贴到markdown编辑器里面,效果如下:
插件说明
看完上面的效果演示,是不是觉得这个功能非常牛?下面来介绍一下这款插件
插件名称
插件地址
https://www.coze.cn/store/plugin/7381354890590814208?from=plugin_card
插件功能
将pdf文档、jpg图像等文件快速转换为markdown格式,支持各类表格、公式解析,实现pdf转md格式、图片img转md格式,帮助大语言模型的数据清洗和文档问答任务。
刚开始特别好奇,是哪个独立开发者开发了这么牛X的第三方插件。
经过一番打听才知道,原来是在OCR领域已经耕耘17年的合合信息旗下的TextIn官方开发的,识别准确率高达99%!那我就可以放心的商用了,TextIn官方维护插件,服务质量肯定会有保障。
插件使用
参数说明
app_id 和 secret_code 是开发者信息,注册账号即可获取,url是pdf文档或图像的链接地址
获取app_id 和 secret_code
访问地址:https://www.textin.com/?from=kol-wjsz ,点击“登录”按钮
使用手机号注册,注册成功后点击右上角的“账户”,进入个人中心
在账号管理页面查看开发者信息
工作流配置
为了最小化演示,我这里搭建了个简单的工作流
开始节点
只需要填入url参数
pdf2markdown节点
app_id 和 secret_code 输入上一章节获取到的开发者信息,url引用开始节点的url变量
结束节点
output参数引用pdf2markdown插件的markdown参数
试运行完成后,发布工作流
搭建企业级知识库
在企业级知识库搭建的过程中,存在大量的PDF文档,如果依赖人工去上传,无疑非常耗时耗力。我们基于Coze官方提供的API,开发了批量上传文档到知识库的插件,优化后的流程如下:
创建知识库
为了方便演示,我就手动创建个知识库,并把《[千年养生智慧.身边的《黄帝内经》]杨文忠.扫描版》这个PDF文档转Markdown的解析结果手动上传到Coze的知识库。
上传文件
设置自动分段与清洗
预览分段效果
创建Bot并验证
询问“衰老的特征与原因”
对照我们知识库输入的内容,可以看到结果基本符合预期
总结
本文通过案例实操的方式,介绍了如何借助pdf2markdown插件,快速使用扣子Coze搭建企业级知识库。得益于pdf2markdown插件对文件识别的准确率,极大地提升了RAG系统的回答效果。
现在TextIn官方注册就送1000页的文档解析额度,正在玩Coze的朋友不要错过了,赶紧来领!