急诊室里，AI比医生先看到了真相

哈佛团队把OpenAI的推理模型塞进真实的急诊室，结果让所有人沉默了：在76个真实病例中，AI的诊断准确率达到67%，而两位主治医师只有50%和55%。这篇发在Science上的研究，不是选择题考试，而是真刀真枪的临床对照。AI医疗，从”能跑通demo”到”真敢上临床”，也许就差这一步。

一项”不太情愿”的研究

说起这项研究的缘起，不得不提两位主导者的态度。

Adam Rodman，贝斯以色列女执事医疗中心（BIDMC）的医生，同时也是这项研究的资深作者。他坦承：”我原本以为这会是一个有趣的实验，但效果不会太好。结果完全不是那么回事。”

Arjun Manrai，哈佛医学院生物医学信息学助理教授，也是研究的第一作者。他的表述更直接：”我们对AI模型进行了几乎每一项基准测试，它都超越了之前的模型和我们医生的基线。”

这不是那种”AI在选择题上又拿了高分”的论文。研究者刻意避开了医学AI研究中常见的套路——用标准化考试题来测试模型，那些题目模型早就刷满了。他们选了一条更难的路：拿真实的急诊室病例，让AI和真人医生正面对决。

实验怎么做的？

研究团队从BIDMC急诊室收集了76个真实病例，然后在三个关键时间节点分别评估AI和医生的诊断：

分诊阶段：患者刚到急诊室，信息最少的时候
首诊阶段：医生第一次接触患者
入院阶段：决定是否收治入院或转入ICU

评估过程是双盲的——两位独立的主治医师评判所有诊断，但他们不知道哪些来自AI、哪些来自人类。

输入给AI的数据和医生在电子病历中看到的一模一样，没有经过任何清洗或预处理。

结果：AI在每个节点都不输

最震撼的数据来自分诊阶段——这是信息最匮乏、时间压力最大的时刻：

诊断来源	准确率
OpenAI o1	67.1%
医生A	55.3%
医生B	50.0%

在70例直接对照中，AI的准确率更是达到了88.6%。

研究团队还用《新英格兰医学杂志》（NEJM）2021到2024年的143个复杂临床病理会议病例做了测试——这些病例向来以难度著称，经常涉及罕见病和误导性症状。o1在143个病例中有78.3%把正确诊断纳入了鉴别诊断列表，而GPT-4是72.9%。

有一个病例特别值得说：一位难治性肺栓塞患者，医疗团队一直在调整抗凝方案，但AI从患者的狼疮病史中锁定了根本病因。这不是在已知选项里挑答案，而是在医生忽略的信息中发现线索。

为什么这次不一样？

医疗AI的研究多如牛毛，但大多数有几道硬伤：用选择题测试、用模拟数据、用回顾性分析挑好做的题。这篇论文不一样的地方在于：

第一，用真实病例。 不是编的，不是筛选过的，是急诊室里实打实来的患者。

第二，双盲对照。 评估者不知道诊断来源，排除了”给AI打低分”或”给AI放水”的可能。

第三，多时间节点。 不是只看最终诊断，而是追踪了从分诊到入院的完整路径。

第四，用了推理模型。 o1不是传统的”一问一答”模型，它会在回答前花时间”思考”，这种推理能力在需要综合多条线索的临床诊断中尤其关键。

但别急着给AI发执业证

研究团队反复强调，这并不意味着AI已经准备好在急诊室做出生死决定。他们列出了几个关键局限：

只处理文字。 AI拿到的全是电子病历里的文本信息，但临床诊断远不止读文字——还要看X光片、做体格检查、捕捉患者说不出口的微妙信号。目前模型在非文本信息上的推理能力还很有限。

没有前瞻性试验。 所有测试都是回顾性的，用的是已有的病例记录。在真正的临床流程中嵌入AI，结果可能完全不同。研究者明确呼吁”迫切需要前瞻性临床试验”。

AI容易过度检查。 模型倾向建议大量检查项目，在资源紧张的真实医院环境中，这些检查可能弊大于利。

问责真空。 Adam Rodman指出，目前没有任何”正式问责框架”来界定AI诊断出错时谁负责。这是法律和伦理上的巨大空白。

急诊医生Kristen Panthagani也提出了尖锐的批评：研究对比的是内科主治医师，而不是急诊专科医生。急诊医生的首要任务不是猜出最终诊断，而是快速排除致命威胁。这是两种完全不同的临床思维。

AI医疗走到哪一步了？

这项研究发表的时间点很微妙。根据Elsevier的数据，2026年已有66%的医生使用AI健康工具，比2023年的38%几乎翻倍。FDA批准的AI诊断工具已超过340个。AI医疗市场2025年估值约390亿美元，2026年预计突破520亿美元。

但数字背后是一个更根本的问题：AI在医疗中的角色到底是什么？

研究团队的立场很清晰——增强，而非替代。Manrai说：”人类永远希望由其他人类来引导他们走过生死决定、治疗选择和关于生活质量的对谈。AI在医疗中的承诺不是替代，而是用远胜以往的工具来增强。”

他们特别警告那些”AI医生公司”不要拿这项研究来证明可以踢开人类医生。

一个更实际的近景

比起”AI能不能替代医生”，一个更紧迫的问题是：AI能不能先做好医生的”第二双眼睛”？

研究提出了两个近景应用场景：

被动扫描。 在分诊环节，AI静默地扫描电子病历，实时标记潜在的误诊风险。不需要AI做最终判断，只需要它提醒一声”你有没有考虑过X？”

全天候第二意见。 凌晨三点值班医生面对疑难病例时，一个随时在线的第二意见工具。Elsevier 2025年的调查显示，已有20%的临床医生在日常工作中非正式地咨询LLM寻求第二意见。

这两种用法不需要AI做到100%正确，只需要它在医生可能遗漏的地方提供一个提醒。这比”AI取代医生”现实得多，也安全得多。

写在最后

每年约有740万美国人在急诊室遭遇误诊，其中79.5万人因此死亡或永久致残。五大高危病种（中风、心梗、主动脉瘤、脊髓损伤、静脉血栓栓塞）贡献了39%的严重误诊伤害。

AI在分诊阶段的突出表现之所以重要，恰恰因为那是最容易出错的时刻——信息最少、时间最紧、变数最多。如果AI能在这个节点哪怕把误诊率降低10个百分点，影响的也是数以万计的生命。

但话说回来，从”论文里表现很好”到”临床上真正有用”，中间隔着的前瞻性试验、监管框架、问责机制和患者信任，每一步都不比训练一个大模型容易。

这项研究不是终点，甚至不是起点的终点。它只是证明了一件事：这件事值得认真做下去。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我进行处理。