9秒出CT报告,1分钟完成心脏诊断——AI医疗看起来像魔法。但哈佛刚说完:20多种AI大模型,80%的初步诊断是错的。你敢信吗?

2026年4月,两则关于AI医疗的新闻同时炸开,却讲着完全相反的故事。
好消息: 清华大学与协和医院联合发布的AIAgent-Med v3.2系统,输入一张1247层的胸部CT,9.3秒内输出结构化诊断报告、三维病灶热力图、NCCN指南匹配度评分和个体化治疗路径建议。全程无人工干预,每一步推理可追溯。
同月,北京安贞医院联合智源研究院发布BAAICardiacAgent,把心脏磁共振诊断从30-60分钟压缩到1分钟,在2413例患者数据集上精度表现优异。

坏消息: 哈佛医学院评估了20多种最先进的AI大模型(包括ChatGPT、DeepSeek、Gemini、Claude),结果是:基于患者初步症状的"鉴别诊断"错误率高达80%。
9秒看CT vs 80%误诊。
到底该信谁?
一、80%误诊到底怎么回事?
先说清楚,80%这个数字不是在说"AI看病完全不行"。
哈佛团队测的是"鉴别诊断"——就是你说"我头疼、发烧、有点恶心",AI来猜你可能得了什么病。这种场景下,信息极度不完整,连人类医生也很难一次猜对。
但80%的错误率仍然触目惊心。更值得关注的是另一个数据:当患者提供更多检查结果后,误诊率从80%降到了40%。
这说明什么?
AI不是不会看病,而是它需要完整的信息才能判断。你给它的信息越少,它猜得越离谱。问题在于:普通人根本不知道该给AI提供什么信息——你不知道哪些症状是关键的,哪些是干扰项。
更讽刺的是:上周《自然》杂志报道,网上出现了两篇关于一种"不存在的皮肤疾病"的假论文,被同行评议文献引用后,Gemini等大模型开始把患者"诊断"为这种根本不存在的病,还正经八百地建议去看专科。
AI连不存在的病都能给你"确诊"。
二、好消息是真的好:AI医疗正在做人类做不到的事
说完吓人的,说点振奋的。
AIAgent-Med v3.2不只是"读图快"——它采用了分形注意力解耦框架(FADE),把影像理解、病理建模和循证决策三阶段显式分离。医生可以点击任何一个诊断结论,即时查看对应的CT切片区域、特征激活权重和文献依据节点。
翻译成人话:AI不只是给你一个结论,它给你的是一条完整的推理链,每一步都可以验证。
这在医学AI领域是巨大的进步。过去最大的问题就是"黑箱"——AI说你得了肺炎,但它说不清为什么,医生不敢信。现在AI把"思考过程"摊开给你看,医生就能判断这条推理链有没有道理。
BAAICardiacAgent解决的则是另一个痛点:医疗资源分布极不均衡。心脏磁共振诊断需要经验丰富的医师,人才培养周期长,中小城市的患者很难获得高质量诊断。AI把顶尖专家的诊断能力"标准化"了——不管你在北京还是县城,1分钟就能拿到同质化的诊断报告。
对普通人的意义:AI不是要替代医生,而是要把最好的医生"复制"到你身边。
三、AI看病的三大盲区,没人告诉你
但别急着欢呼。AI医疗目前有三个致命盲区,媒体很少提。
盲区一:罕见病几乎"看不见"。
中国人民大学团队发现,AI在识别常见疾病时表现优异,但面对罕见疾病时常常"视而不见"。原因很简单:训练数据不平衡。以胸部X光为例,健康的胸片和肺炎病例数量庞大,而像肺疝这样的罕见病例屈指可数。AI就像一个偏心的老师,把精力全放在"高频考点"上,"偏门知识"一塌糊涂。
这意味着什么?常见病AI越看越准,罕见病AI越看越瞎。 而罕见病恰恰是最需要早期诊断的——误诊一年的代价,可能是不可逆的。
盲区二:AI会"编造"诊断。
前面说的"不存在的皮肤病"不是孤例。AI本质上是概率预测机器,当它不确定的时候,不是告诉你"我不知道",而是编一个听起来合理的结果给你。在医学场景下,这种"过度自信"是致命的。
盲区三:黑客可以悄悄篡改你的诊断结果。
这是最让人后背发凉的一个。
四、最危险的漏洞:有人可以让AI"漏诊"你的肿瘤
2026年4月,印度理工学院和阿联酋人工智能大学联合发表了一项研究(arXiv:2604.17318v1),揭示了一个令人震惊的事实:有人可以在你完全不知情的情况下,让AI把你的肿瘤诊断篡改为"一切正常"。
具体怎么做到的?
研究团队设计了一种叫"MedFocusLeak"的攻击方案。原理听起来很简单:不改你的病灶区域,只改图像的背景——同时让AI的"注意力"从病灶上移开,转向被改过的背景。
打个比方:法官正在审案,有人在法庭旁边的展示板上偷偷贴了花哨的图片,分散了法官的注意力,让他忽略了桌上关键的证据,最终做出错误判决。
关键是:图像从外观上几乎看不出任何改动。三名医学实习生在高级医学专家监督下评估,图像质量保留度得分很高。
实测效果有多可怕?
在一个案例中,脑部MRI影像显示左侧颞叶有潜在肿瘤性病变,AI正确判断为"可能存在转移性病变"。经过攻击后,同一张图像输入AI,输出变成了"脑部结构正常,未见异常信号区域,未见肿块或病变迹象"——一个完全正常的描述。
如果这发生在真实临床场景中,患者可能因为这份"正常报告"而失去及时治疗的机会。
另一个案例更绝:原本诊断为"可能的良性黑色素细胞病变"的皮肤镜图像,攻击后被AI判断为"恶性黑色素瘤"——方向完全相反,把良性判成恶性。
这两种错误——把有病判成没病,把良性判成恶性——都可能造成严重后果。
五、推理型AI更难骗,但仍不是铁板一块
这项研究还发现了一个值得关注的现象:专门强化了推理能力的AI比普通AI更难被攻击。
MedVLM-R1这类"会思考"的AI,攻击成功率明显低于InternVL、QwenVL这类"看图说话"的模型。这就像一个经过严格训练的法官,即便旁边有人不断干扰,也能强迫自己把目光拉回证据本身。
但即便如此,攻击仍然取得了不可忽视的成功率。目前没有任何医疗AI能完全免疫这类攻击。
对技术人说:如果你在做医疗AI开发,推理能力不只是一个"锦上添花"的feature,它可能直接关系到系统安全性。让AI"一步一步想"而不是"一眼就说",不仅是技术路线的选择,更是安全底线。
六、院士的追问:出了事,谁负责?
中国科学院院士、复旦大学附属中山医院心内科主任葛均波教授提出了两个关键问题:
第一,患者隐私如何保护?
AI诊断需要大量患者数据,这些数据怎么存、怎么传、谁有权访问?一旦泄露,后果比普通数据泄露严重得多——你的全身体检报告泄露,和你的购物记录泄露,完全不是一个量级。
第二,AI出了问题,责任谁来担?
AI诊断错了,是AI公司的责任?医院的责任?还是使用AI的医生的责任?目前法律上还是灰色地带。
葛均波说了一句很实在的话:"AI的能力将来一定会超过最顶尖的医生。"但他也强调:目前必须明确AI辅助诊疗的边界,强化医生对AI结果的判断能力和责任意识。
普通人应该记住:AI目前是"辅助诊断"工具,不是"诊断决策"工具。它给的是参考,不是结论。
相关文章









猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体110233