哈佛团队把OpenAI的推理模型塞进真实的急诊室,结果让所有人沉默了:在76个真实病例中,AI的诊断准确率达到67%,而两位主治医师只有50%和55%。这篇发在Science上的研究,不是选择题考试,而是真刀真枪的临床对照。AI医疗,从”能跑通demo”到”真敢上临床”,也许就差这一步。
一项”不太情愿”的研究
说起这项研究的缘起,不得不提两位主导者的态度。
Adam Rodman,贝斯以色列女执事医疗中心(BIDMC)的医生,同时也是这项研究的资深作者。他坦承:”我原本以为这会是一个有趣的实验,但效果不会太好。结果完全不是那么回事。”
Arjun Manrai,哈佛医学院生物医学信息学助理教授,也是研究的第一作者。他的表述更直接:”我们对AI模型进行了几乎每一项基准测试,它都超越了之前的模型和我们医生的基线。”
这不是那种”AI在选择题上又拿了高分”的论文。研究者刻意避开了医学AI研究中常见的套路——用标准化考试题来测试模型,那些题目模型早就刷满了。他们选了一条更难的路:拿真实的急诊室病例,让AI和真人医生正面对决。
实验怎么做的?
研究团队从BIDMC急诊室收集了76个真实病例,然后在三个关键时间节点分别评估AI和医生的诊断:
- 分诊阶段:患者刚到急诊室,信息最少的时候
- 首诊阶段:医生第一次接触患者
- 入院阶段:决定是否收治入院或转入ICU
评估过程是双盲的——两位独立的主治医师评判所有诊断,但他们不知道哪些来自AI、哪些来自人类。
输入给AI的数据和医生在电子病历中看到的一模一样,没有经过任何清洗或预处理。
结果:AI在每个节点都不输
最震撼的数据来自分诊阶段——这是信息最匮乏、时间压力最大的时刻:
| 诊断来源 | 准确率 |
|---|---|
| OpenAI o1 | 67.1% |
| 医生A | 55.3% |
| 医生B | 50.0% |
在70例直接对照中,AI的准确率更是达到了88.6%。
研究团队还用《新英格兰医学杂志》(NEJM)2021到2024年的143个复杂临床病理会议病例做了测试——这些病例向来以难度著称,经常涉及罕见病和误导性症状。o1在143个病例中有78.3%把正确诊断纳入了鉴别诊断列表,而GPT-4是72.9%。
有一个病例特别值得说:一位难治性肺栓塞患者,医疗团队一直在调整抗凝方案,但AI从患者的狼疮病史中锁定了根本病因。这不是在已知选项里挑答案,而是在医生忽略的信息中发现线索。
为什么这次不一样?
医疗AI的研究多如牛毛,但大多数有几道硬伤:用选择题测试、用模拟数据、用回顾性分析挑好做的题。这篇论文不一样的地方在于:
第一,用真实病例。 不是编的,不是筛选过的,是急诊室里实打实来的患者。
第二,双盲对照。 评估者不知道诊断来源,排除了”给AI打低分”或”给AI放水”的可能。
第三,多时间节点。 不是只看最终诊断,而是追踪了从分诊到入院的完整路径。
第四,用了推理模型。 o1不是传统的”一问一答”模型,它会在回答前花时间”思考”,这种推理能力在需要综合多条线索的临床诊断中尤其关键。
但别急着给AI发执业证
研究团队反复强调,这并不意味着AI已经准备好在急诊室做出生死决定。他们列出了几个关键局限:
只处理文字。 AI拿到的全是电子病历里的文本信息,但临床诊断远不止读文字——还要看X光片、做体格检查、捕捉患者说不出口的微妙信号。目前模型在非文本信息上的推理能力还很有限。
没有前瞻性试验。 所有测试都是回顾性的,用的是已有的病例记录。在真正的临床流程中嵌入AI,结果可能完全不同。研究者明确呼吁”迫切需要前瞻性临床试验”。
AI容易过度检查。 模型倾向建议大量检查项目,在资源紧张的真实医院环境中,这些检查可能弊大于利。
问责真空。 Adam Rodman指出,目前没有任何”正式问责框架”来界定AI诊断出错时谁负责。这是法律和伦理上的巨大空白。
急诊医生Kristen Panthagani也提出了尖锐的批评:研究对比的是内科主治医师,而不是急诊专科医生。急诊医生的首要任务不是猜出最终诊断,而是快速排除致命威胁。这是两种完全不同的临床思维。
AI医疗走到哪一步了?
这项研究发表的时间点很微妙。根据Elsevier的数据,2026年已有66%的医生使用AI健康工具,比2023年的38%几乎翻倍。FDA批准的AI诊断工具已超过340个。AI医疗市场2025年估值约390亿美元,2026年预计突破520亿美元。
但数字背后是一个更根本的问题:AI在医疗中的角色到底是什么?
研究团队的立场很清晰——增强,而非替代。Manrai说:”人类永远希望由其他人类来引导他们走过生死决定、治疗选择和关于生活质量的对谈。AI在医疗中的承诺不是替代,而是用远胜以往的工具来增强。”
他们特别警告那些”AI医生公司”不要拿这项研究来证明可以踢开人类医生。
一个更实际的近景
比起”AI能不能替代医生”,一个更紧迫的问题是:AI能不能先做好医生的”第二双眼睛”?
研究提出了两个近景应用场景:
被动扫描。 在分诊环节,AI静默地扫描电子病历,实时标记潜在的误诊风险。不需要AI做最终判断,只需要它提醒一声”你有没有考虑过X?”
全天候第二意见。 凌晨三点值班医生面对疑难病例时,一个随时在线的第二意见工具。Elsevier 2025年的调查显示,已有20%的临床医生在日常工作中非正式地咨询LLM寻求第二意见。
这两种用法不需要AI做到100%正确,只需要它在医生可能遗漏的地方提供一个提醒。这比”AI取代医生”现实得多,也安全得多。
写在最后
每年约有740万美国人在急诊室遭遇误诊,其中79.5万人因此死亡或永久致残。五大高危病种(中风、心梗、主动脉瘤、脊髓损伤、静脉血栓栓塞)贡献了39%的严重误诊伤害。
AI在分诊阶段的突出表现之所以重要,恰恰因为那是最容易出错的时刻——信息最少、时间最紧、变数最多。如果AI能在这个节点哪怕把误诊率降低10个百分点,影响的也是数以万计的生命。
但话说回来,从”论文里表现很好”到”临床上真正有用”,中间隔着的前瞻性试验、监管框架、问责机制和患者信任,每一步都不比训练一个大模型容易。
这项研究不是终点,甚至不是起点的终点。它只是证明了一件事:这件事值得认真做下去。




发表回复