超越OpenAI,百川问鼎医疗开源大模型新巅峰:高质量知识库背后的文档结构化解析
8月11日,全球最强开源医疗模型发布,来自中国。
百川智能最新发布的Baichuan-M2-32B医疗推理大模型,在OpenAI发布的Healthbench评测集上,超越其刚发布的开源模型gpt-oss-120b,领先除GPT5以外所有的开源闭源前沿模型,标志着中国在垂直领域大模型上的技术突破。这一成果不仅凸显了医疗大模型在诊断支持、研究分析等场景的潜力,也使业界再次聚焦到一个决定性环节——医疗大模型知识库建设。在这一过程中,文档结构化解析能力正成为大模型性能能否充分释放的关键。
图1:Baichuan-M2成为全球第二款在HealthBench-Hard测试集超过32分的模型,力压世界所有其他顶尖闭源大模型(图源:百川智能)
医疗大模型建设的核心挑战:数据结构化不足
AI医疗可谓是大模型落地趋势中讨论度最高的垂直领域之一,医疗大模型的知识能力来源于对海量医学文献、临床记录、试验报告等原始资料的高质量吸收。然而,医疗数据有着高度异构和结构复杂的特点:
首先,版式结构高度复杂。医药研究报告、临床试验文档等文件通常包含跨页表格、双栏或多栏段落、插图说明及公式化学式等,这些元素在原始数据中是以视觉布局为主而非机器可读结构存在。
其次,专业语义密集且多样化。医疗文档涉及大量拉丁文、分子式、缩写和领域特有术语,通用文档解析工具在面对这些内容时易出现识别错误或语义丢失,直接影响知识抽取的准确度。
最后,多格式、多语言并存。国际化的医疗研究文件往往包含多语种文本,不同机构的文档在排版、编码方式上差异明显,对解析系统的适配性和鲁棒性提出了更高要求。
这些问题导致,如果在大模型知识库构建阶段直接输入未经高精度结构化处理的文档内容,模型可能面临信息噪声高、上下文缺失、语义歧义等问题,从而影响推理的准确性和稳定性。
合合信息TextIn:构建高质量医疗知识库的前置引擎
针对医疗文档复杂度高、结构化难的行业痛点,合合信息的文档结构化解析技术提供了系统化解决方案,为医疗大模型知识库建设提供高质量数据底座。该技术融合了高精度OCR、版面分析、多路混合检索与医疗垂直语义模型,形成了从原始文档到结构化语义数据的全链路处理能力。
在实际应用中,TextIn可在1.5秒内完成百页医药研究报告的信息提取,并将其还原为符合语义逻辑的十级目录结构。系统可精准处理双栏、多栏段落及跨页表格,支持单元格合并与跨页表格语义拼接;在表格类型识别方面,既可解析有线表,也能还原无线表和密集表格的结构,确保实验数据、化学式、药品成分等信息无损传递至知识库。
图2:合合信息TextIn多栏表格解析效果
针对医疗领域的语义需求,TextIn内置生命科学垂直语义模型,能够识别并标签化特定领域实体(如药物名称、临床试验阶段、检测指标等),并将这些实体与其上下文精确关联。这一过程不仅提升了知识抽取的精度,也为后续的大模型推理提供了更为严谨的语义链路。
图3:合合信息TextIn医疗票据抽取效果
技术价值:从解析到推理的全链路优化
在医疗大模型知识库建设的全流程中,TextIn文档结构化解析技术的引入带来三大核心价值:
1. 数据质量可控化——通过精确的版面还原与语义结构化,显著降低原始文档噪声对知识库质量的侵蚀。
2. 构建效率跃升——传统人工处理需数小时的复杂医疗文档,在TextIn的处理下可压缩至秒级,支持大规模知识库的快速迭代。
3. 知识可检索性增强——多粒度目录结构与领域实体标注,使医疗知识库在查询、更新和推理调用时更高效、更精准。
这些能力的融合,不仅解决了大模型在医疗领域落地时的“数据瓶颈”,也让模型在应对真实世界的推理任务时更具稳定性和可解释性。
图4:合合信息TextIn提供全链路的文档结构化工具
结语:以结构化解析夯实医疗AI的知识根基
合合信息TextIn以其深度优化的文档结构化解析技术,为医疗领域的大模型注入准确、完整、可复用的知识基础,让“数据—知识—推理”的链路真正闭合。未来,随着更多医疗机构和科研单位将这一能力融入知识库建设流程,医疗大模型将在更丰富、更可靠的数据支撑下,释放更大应用价值。
