急诊室里,AI比医生先看到了真相

哈佛团队把OpenAI的推理模型塞进真实的急诊室,结果让所有人沉默了:在76个真实病例中,AI的诊断准确率达到67%,而两位主治医师只有50%和55%。这篇发在Science上的研究,不是选择题考试,而是真刀真枪的临床对照。AI医疗,从”能跑通demo”到”真敢上临床”,也许就差这一步。

一项”不太情愿”的研究

说起这项研究的缘起,不得不提两位主导者的态度。

Adam Rodman,贝斯以色列女执事医疗中心(BIDMC)的医生,同时也是这项研究的资深作者。他坦承:”我原本以为这会是一个有趣的实验,但效果不会太好。结果完全不是那么回事。”

Arjun Manrai,哈佛医学院生物医学信息学助理教授,也是研究的第一作者。他的表述更直接:”我们对AI模型进行了几乎每一项基准测试,它都超越了之前的模型和我们医生的基线。”

这不是那种”AI在选择题上又拿了高分”的论文。研究者刻意避开了医学AI研究中常见的套路——用标准化考试题来测试模型,那些题目模型早就刷满了。他们选了一条更难的路:拿真实的急诊室病例,让AI和真人医生正面对决。

实验怎么做的?

研究团队从BIDMC急诊室收集了76个真实病例,然后在三个关键时间节点分别评估AI和医生的诊断:

  • 分诊阶段:患者刚到急诊室,信息最少的时候
  • 首诊阶段:医生第一次接触患者
  • 入院阶段:决定是否收治入院或转入ICU

评估过程是双盲的——两位独立的主治医师评判所有诊断,但他们不知道哪些来自AI、哪些来自人类。

输入给AI的数据和医生在电子病历中看到的一模一样,没有经过任何清洗或预处理。

结果:AI在每个节点都不输

最震撼的数据来自分诊阶段——这是信息最匮乏、时间压力最大的时刻:

诊断来源准确率
OpenAI o167.1%
医生A55.3%
医生B50.0%

在70例直接对照中,AI的准确率更是达到了88.6%。

研究团队还用《新英格兰医学杂志》(NEJM)2021到2024年的143个复杂临床病理会议病例做了测试——这些病例向来以难度著称,经常涉及罕见病和误导性症状。o1在143个病例中有78.3%把正确诊断纳入了鉴别诊断列表,而GPT-4是72.9%。

有一个病例特别值得说:一位难治性肺栓塞患者,医疗团队一直在调整抗凝方案,但AI从患者的狼疮病史中锁定了根本病因。这不是在已知选项里挑答案,而是在医生忽略的信息中发现线索。

为什么这次不一样?

医疗AI的研究多如牛毛,但大多数有几道硬伤:用选择题测试、用模拟数据、用回顾性分析挑好做的题。这篇论文不一样的地方在于:

第一,用真实病例。 不是编的,不是筛选过的,是急诊室里实打实来的患者。

第二,双盲对照。 评估者不知道诊断来源,排除了”给AI打低分”或”给AI放水”的可能。

第三,多时间节点。 不是只看最终诊断,而是追踪了从分诊到入院的完整路径。

第四,用了推理模型。 o1不是传统的”一问一答”模型,它会在回答前花时间”思考”,这种推理能力在需要综合多条线索的临床诊断中尤其关键。

但别急着给AI发执业证

研究团队反复强调,这并不意味着AI已经准备好在急诊室做出生死决定。他们列出了几个关键局限:

只处理文字。 AI拿到的全是电子病历里的文本信息,但临床诊断远不止读文字——还要看X光片、做体格检查、捕捉患者说不出口的微妙信号。目前模型在非文本信息上的推理能力还很有限。

没有前瞻性试验。 所有测试都是回顾性的,用的是已有的病例记录。在真正的临床流程中嵌入AI,结果可能完全不同。研究者明确呼吁”迫切需要前瞻性临床试验”。

AI容易过度检查。 模型倾向建议大量检查项目,在资源紧张的真实医院环境中,这些检查可能弊大于利。

问责真空。 Adam Rodman指出,目前没有任何”正式问责框架”来界定AI诊断出错时谁负责。这是法律和伦理上的巨大空白。

急诊医生Kristen Panthagani也提出了尖锐的批评:研究对比的是内科主治医师,而不是急诊专科医生。急诊医生的首要任务不是猜出最终诊断,而是快速排除致命威胁。这是两种完全不同的临床思维。

AI医疗走到哪一步了?

这项研究发表的时间点很微妙。根据Elsevier的数据,2026年已有66%的医生使用AI健康工具,比2023年的38%几乎翻倍。FDA批准的AI诊断工具已超过340个。AI医疗市场2025年估值约390亿美元,2026年预计突破520亿美元。

但数字背后是一个更根本的问题:AI在医疗中的角色到底是什么?

研究团队的立场很清晰——增强,而非替代。Manrai说:”人类永远希望由其他人类来引导他们走过生死决定、治疗选择和关于生活质量的对谈。AI在医疗中的承诺不是替代,而是用远胜以往的工具来增强。”

他们特别警告那些”AI医生公司”不要拿这项研究来证明可以踢开人类医生。

一个更实际的近景

比起”AI能不能替代医生”,一个更紧迫的问题是:AI能不能先做好医生的”第二双眼睛”?

研究提出了两个近景应用场景:

被动扫描。 在分诊环节,AI静默地扫描电子病历,实时标记潜在的误诊风险。不需要AI做最终判断,只需要它提醒一声”你有没有考虑过X?”

全天候第二意见。 凌晨三点值班医生面对疑难病例时,一个随时在线的第二意见工具。Elsevier 2025年的调查显示,已有20%的临床医生在日常工作中非正式地咨询LLM寻求第二意见。

这两种用法不需要AI做到100%正确,只需要它在医生可能遗漏的地方提供一个提醒。这比”AI取代医生”现实得多,也安全得多。

写在最后

每年约有740万美国人在急诊室遭遇误诊,其中79.5万人因此死亡或永久致残。五大高危病种(中风、心梗、主动脉瘤、脊髓损伤、静脉血栓栓塞)贡献了39%的严重误诊伤害。

AI在分诊阶段的突出表现之所以重要,恰恰因为那是最容易出错的时刻——信息最少、时间最紧、变数最多。如果AI能在这个节点哪怕把误诊率降低10个百分点,影响的也是数以万计的生命。

但话说回来,从”论文里表现很好”到”临床上真正有用”,中间隔着的前瞻性试验、监管框架、问责机制和患者信任,每一步都不比训练一个大模型容易。

这项研究不是终点,甚至不是起点的终点。它只是证明了一件事:这件事值得认真做下去。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

推荐阅读

  • 急诊室里,AI比医生先看到了真相

    哈佛团队把OpenAI的推理模型塞进真实的急诊室,结果让所有人沉默了:在76个真实病例中,AI的诊断准确率达到67%,而两位主治医师只有50%和55%。这篇发在Science上的研究,不是选择题考试,…

  • 你写的代码,凭什么 AI 署名?VS Code 这波“暗改”惹怒了全球开发者

    你写了一整天代码,敲完最后一行,习惯性地用 VS Code 提交 commit。过了会儿去 GitHub 一看——提交记录里赫然多了一行: 你压根没用 Copilot。 这事不是段子。5 月 2 日,…

  • Manus收购黄了,Meta转身买下一家华人创立的机器人公司

    2026年5月1日,Meta正式完成了对机器人人工智能初创公司Assured Robot Intelligence(简称ARI)的收购。这条消息在科技圈激起的涟漪,远比表面上看起来要大。 华人创始人,…

  • 全国首部具身智能法规施行:杭州给机器人“办身份证”,释放了什么信号?

    5月1日,《杭州市促进具身智能机器人产业发展条例》正式施行。这是全国首部聚焦具身智能机器人产业的地方性法规——从立法调研到出台,不到一年时间。 这不是一次普通的立法。 什么是”具身智能机器…

暗夜独行