超越OpenAI，百川问鼎医疗开源大模型新巅峰：高质量知识库背后的文档结构化解析

2025-08-13 10:30:16

8月11日，全球最强开源医疗模型发布，来自中国。

百川智能最新发布的Baichuan-M2-32B医疗推理大模型，在OpenAI发布的Healthbench评测集上，超越其刚发布的开源模型gpt-oss-120b，领先除GPT5以外所有的开源闭源前沿模型，标志着中国在垂直领域大模型上的技术突破。这一成果不仅凸显了医疗大模型在诊断支持、研究分析等场景的潜力，也使业界再次聚焦到一个决定性环节——医疗大模型知识库建设。在这一过程中，文档结构化解析能力正成为大模型性能能否充分释放的关键。

图1：Baichuan-M2成为全球第二款在HealthBench-Hard测试集超过32分的模型，力压世界所有其他顶尖闭源大模型（图源：百川智能）

医疗大模型建设的核心挑战：数据结构化不足

AI医疗可谓是大模型落地趋势中讨论度最高的垂直领域之一，医疗大模型的知识能力来源于对海量医学文献、临床记录、试验报告等原始资料的高质量吸收。然而，医疗数据有着高度异构和结构复杂的特点：

首先，版式结构高度复杂。医药研究报告、临床试验文档等文件通常包含跨页表格、双栏或多栏段落、插图说明及公式化学式等，这些元素在原始数据中是以视觉布局为主而非机器可读结构存在。

其次，专业语义密集且多样化。医疗文档涉及大量拉丁文、分子式、缩写和领域特有术语，通用文档解析工具在面对这些内容时易出现识别错误或语义丢失，直接影响知识抽取的准确度。

最后，多格式、多语言并存。国际化的医疗研究文件往往包含多语种文本，不同机构的文档在排版、编码方式上差异明显，对解析系统的适配性和鲁棒性提出了更高要求。

这些问题导致，如果在大模型知识库构建阶段直接输入未经高精度结构化处理的文档内容，模型可能面临信息噪声高、上下文缺失、语义歧义等问题，从而影响推理的准确性和稳定性。

合合信息TextIn：构建高质量医疗知识库的前置引擎

针对医疗文档复杂度高、结构化难的行业痛点，合合信息的文档结构化解析技术提供了系统化解决方案，为医疗大模型知识库建设提供高质量数据底座。该技术融合了高精度OCR、版面分析、多路混合检索与医疗垂直语义模型，形成了从原始文档到结构化语义数据的全链路处理能力。

在实际应用中，TextIn可在1.5秒内完成百页医药研究报告的信息提取，并将其还原为符合语义逻辑的十级目录结构。系统可精准处理双栏、多栏段落及跨页表格，支持单元格合并与跨页表格语义拼接；在表格类型识别方面，既可解析有线表，也能还原无线表和密集表格的结构，确保实验数据、化学式、药品成分等信息无损传递至知识库。

文档结构化解析