医疗报告信息抽取：医疗数据流通加速，但"流通"的前提是"读懂"

2026-06-12 11:01:52

2026年4月7日，北京市医疗保障局等十部门印发了《北京市支持创新医药高质量发展若干措施（2026年）》。文件明确提出：建立供需对接机制，利用国家人工智能应用中试基地基础设施，为企业提供专业数据服务和有效供给，形成不少于10个高质量数据集；促进健康医疗数据流通，制定完善健康医疗数据开发利用、数据匿名化、分级分类等行业数据规范，保障数据流通交易和跨境流通安全合规。

医疗报告信息抽取，正是让这些数据"流得动""读得懂"的关键基础设施。但这里有一个被忽视的问题：没有"通用文档解析"这回事。"能解析PDF"和"能解析医疗报告"是两个完全不同的技术命题。前者是格式问题，后者是医学知识问题。医疗文档属于高新信息密度文档，里面需要了解医学语义、掌握临床知识、遵循行业规范。

医疗报告信息抽取，难在"医学知识"而非"文字识别"

医疗文档的复杂性，首先体现在格式极其多样：门诊病历、住院记录、检验报告、影像报告、手术记录、出院小结，每种都有独特的版式和信息结构。但比格式更复杂的，是内容的专业性。专业术语密集且高度缩写化："WBC""RBC""ALT""AST"这些指标在不同科室的报告中可能出现在不同位置，而且参考范围因年龄、性别、检测方法而异。系统不仅要识别这些缩写，还要知道它们代表什么、正常值范围是多少、异常值意味着什么。

文档质量也是一个挑战。急诊手写的病历、传真过来的转院记录、扫描褪色的历史档案，都给识别带来了困难。但更重要的是，医疗文档处理中的错误分层非常严格。检验报告里一个数值的小数点错误，可能导致完全不同的诊断方向；病历里一个过敏史的遗漏，可能导致严重的用药事故。不是所有错误都同等致命——关键路径上的错误（如过敏史、禁忌症、药物剂量）和非关键路径上的错误（如患者地址、联系电话），后果完全不同。医疗文档处理系统必须支持风险分层，对关键信息给予更高的识别置信度和人工复核优先级。

传统的做法是靠医护人员或数据录入人员逐份阅读和录入。这个模式的瓶颈很明显：一是速度慢，二是准确性依赖经验，三是难以规模化。这导致大量数据沉淀在纸质档案或PDF文件里，无法进入数据分析和AI训练流程。

更深层的问题是数据孤岛。同一家医疗集团旗下的不同医院，信息系统可能各不相同；同一患者在不同时期、不同机构的检查报告，格式和表述也有差异。如果没有统一的文档解析和信息抽取能力，这些报告就无法汇聚成连贯的健康档案，跨机构的数据流通也就无从谈起。当政策推动医疗数据开放共享时，这个瓶颈会变得更加突出。流通的前提是数据标准化，而标准化的前提是文档解析。

从技术角度看，医疗报告需要怎样的理解能力

医疗报告信息抽取的核心挑战，在于"版面理解+语义理解+医学知识"的三重叠加。系统不仅要识别文字，还要理解文档结构——哪里是患者信息、哪里是检查项目、哪里是结果数值、哪里是参考范围、哪里是医生建议。同时，系统还需要具备医学语义理解能力，知道"白细胞计数"和"WBC"是同一个指标，知道"↑"表示高于参考范围，知道不同检测方法对应的正常值范围不同。

合合信息旗下的智能文档抽取，针对医疗场景进行了专项优化。系统支持多栏、图文混排、复杂表格的版面分析，能够准确还原医疗报告中的信息层级。对于检验报告中常见的多行项目表、合并单元格的参考范围栏、跨页的连续检验结果，系统都能准确解析结构。在信息抽取层面，系统采用了零样本抽取技术，用户不需要预先标注大量医疗报告来训练模型，只需用自然语言描述想要的字段，系统就能自动理解语义并返回结构化结果。

但零样本抽取在医疗场景中的价值，不仅在于"降低部署成本"，更在于"避免训练数据偏差"。医疗数据高度敏感，获取标注样本极其困难，而且不同医院的报告格式差异巨大，基于有限样本训练的模型往往泛化能力不足。零样本抽取通过大模型的语义理解能力，直接理解字段描述和文档内容，不需要依赖特定医院的标注数据，这对于跨医院、跨地区的数据整合至关重要。

系统还支持多语言识别，包括中文、英文、日文等52种语言。对于涉及外籍患者的报告或进口药品的英文说明书，系统可以直接处理。同时，系统支持精准坐标溯源，每个抽取结果都可以高亮定位到原文的具体位置，方便医护人员和质控人员复核。这种可追溯的抽取机制，对于满足医疗行业的合规和质控要求至关重要。

产品亮点：医疗级的准确性和可追溯性

合合信息TextIn智能文档抽取依托合合信息强大的文本智能技术，在基础的文字识别率（印刷体）达到99.7%。除了准确性外，通过识别内容可回溯能力，进一步加强确定性。

系统支持精准坐标溯源。每个抽取结果都可以高亮定位到原文的具体位置，方便医护人员和质控人员复核。如果系统把"血红蛋白"的值误识别为相邻的"血小板"值，用户可以一键跳转原文位置进行校验。这种可追溯的抽取机制，对于满足医疗行业的合规和质控要求至关重要。在医疗场景中，买AI工具时，企业问"准确率多少"——但监管问的是"你们怎么证明这个结果是准确的？"可解释性和可溯源性，本身就是合规资产。

在部署方式上，系统支持私有化部署，数据不出域。对于医院这种对数据安全要求极高的环境，私有化部署可以确保患者隐私数据不会离开院内网络。系统同时提供标准API，方便对接医院现有的HIS、LIS、PACS等系统，以及新兴的临床科研数据平台和AI辅助诊断系统。这种"数据不出域"的设计，对于满足《数据安全法》《个人信息保护法》和医疗行业数据合规要求有直接帮助。

另一个实用能力是图像预处理。对于扫描质量不佳的历史档案、拍照角度倾斜的纸质报告、带有折痕和污渍的旧病历，系统内置的图像增强、切边、去干扰、形变矫正等功能可以显著提升识别效果，让原本难以读取的内容变得可用。这不是让AI"更聪明"，而是让输入"更干净"——从源头解决文档质量反噬的问题。

场景延伸：从单份医疗报告的信息抽取到临床数据网络构建

在电子病历场景中，智能文档抽取可以帮助医疗机构将历史纸质病历、转院记录、检验报告转化为结构化数据，构建患者级的健康档案。当患者跨院就诊时，医生可以快速获取其完整的病史、用药记录、过敏史、检验结果，而不需要患者逐次口述或携带纸质报告。这种跨机构的数据整合能力，对于分级诊疗和医联体建设有直接帮助。

在医保控费场景中，智能文档抽取可以将病历、处方、检验报告、出院小结转化为结构化数据，自动提取诊断名称、药品名称、用量、疗程、检验项目等关键信息。医保审核人员可以基于结构化数据快速筛查异常处方和过度检查，而不需要逐份翻阅纸质档案。这种自动化审核能力，对于应对日益增长的医保审核工作量有直接帮助。同时，系统的可追溯设计让审核人员能够证明：每一个判断都有原文依据，而不是主观臆断。

在临床科研场景中，智能文档抽取可以将大量病历和报告转化为标准化的科研数据集，供AI模型训练和临床研究发现。研究人员可以基于结构化数据快速筛选符合条件的病例，分析治疗方案的有效性，而不需要逐份阅读病历。这种数据驱动的科研模式，对于加速新药研发和诊疗方案优化有重要意义。但更重要的是，系统的可追溯设计让研究人员能够向伦理委员会和监管机构证明：数据来源可靠、提取过程透明、结果可复现。