用ChatGPT看病，80%误诊：AI医生的9秒奇迹和80%的残酷真相-工信会

> 自媒体 > （AI）人工智能 > 用ChatGPT看病，80%误诊：AI医生的9秒奇迹和80%的残酷真相

用ChatGPT看病，80%误诊：AI医生的9秒奇迹和80%的残酷真相

来源：nick

2026-05-17 20:35:21

106

管理

9秒出CT报告，1分钟完成心脏诊断——AI医疗看起来像魔法。但哈佛刚说完：20多种AI大模型，80%的初步诊断是错的。你敢信吗？

2026年4月，两则关于AI医疗的新闻同时炸开，却讲着完全相反的故事。

好消息：清华大学与协和医院联合发布的AIAgent-Med v3.2系统，输入一张1247层的胸部CT，9.3秒内输出结构化诊断报告、三维病灶热力图、NCCN指南匹配度评分和个体化治疗路径建议。全程无人工干预，每一步推理可追溯。

同月，北京安贞医院联合智源研究院发布BAAICardiacAgent，把心脏磁共振诊断从30-60分钟压缩到1分钟，在2413例患者数据集上精度表现优异。

坏消息：哈佛医学院评估了20多种最先进的AI大模型（包括ChatGPT、DeepSeek、Gemini、Claude），结果是：基于患者初步症状的"鉴别诊断"错误率高达80%。

9秒看CT vs 80%误诊。

到底该信谁？

一、80%误诊到底怎么回事？

先说清楚，80%这个数字不是在说"AI看病完全不行"。

哈佛团队测的是"鉴别诊断"——就是你说"我头疼、发烧、有点恶心"，AI来猜你可能得了什么病。这种场景下，信息极度不完整，连人类医生也很难一次猜对。

但80%的错误率仍然触目惊心。更值得关注的是另一个数据：当患者提供更多检查结果后，误诊率从80%降到了40%。

这说明什么？

AI不是不会看病，而是它需要完整的信息才能判断。你给它的信息越少，它猜得越离谱。问题在于：普通人根本不知道该给AI提供什么信息——你不知道哪些症状是关键的，哪些是干扰项。

更讽刺的是：上周《自然》杂志报道，网上出现了两篇关于一种"不存在的皮肤疾病"的假论文，被同行评议文献引用后，Gemini等大模型开始把患者"诊断"为这种根本不存在的病，还正经八百地建议去看专科。

AI连不存在的病都能给你"确诊"。

二、好消息是真的好：AI医疗正在做人类做不到的事

说完吓人的，说点振奋的。

AIAgent-Med v3.2不只是"读图快"——它采用了分形注意力解耦框架（FADE），把影像理解、病理建模和循证决策三阶段显式分离。医生可以点击任何一个诊断结论，即时查看对应的CT切片区域、特征激活权重和文献依据节点。

翻译成人话：AI不只是给你一个结论，它给你的是一条完整的推理链，每一步都可以验证。

这在医学AI领域是巨大的进步。过去最大的问题就是"黑箱"——AI说你得了肺炎，但它说不清为什么，医生不敢信。现在AI把"思考过程"摊开给你看，医生就能判断这条推理链有没有道理。

BAAICardiacAgent解决的则是另一个痛点：医疗资源分布极不均衡。心脏磁共振诊断需要经验丰富的医师，人才培养周期长，中小城市的患者很难获得高质量诊断。AI把顶尖专家的诊断能力"标准化"了——不管你在北京还是县城，1分钟就能拿到同质化的诊断报告。

对普通人的意义：AI不是要替代医生，而是要把最好的医生"复制"到你身边。

三、AI看病的三大盲区，没人告诉你

但别急着欢呼。AI医疗目前有三个致命盲区，媒体很少提。

盲区一：罕见病几乎"看不见"。

中国人民大学团队发现，AI在识别常见疾病时表现优异，但面对罕见疾病时常常"视而不见"。原因很简单：训练数据不平衡。以胸部X光为例，健康的胸片和肺炎病例数量庞大，而像肺疝这样的罕见病例屈指可数。AI就像一个偏心的老师，把精力全放在"高频考点"上，"偏门知识"一塌糊涂。

这意味着什么？常见病AI越看越准，罕见病AI越看越瞎。而罕见病恰恰是最需要早期诊断的——误诊一年的代价，可能是不可逆的。

盲区二：AI会"编造"诊断。

前面说的"不存在的皮肤病"不是孤例。AI本质上是概率预测机器，当它不确定的时候，不是告诉你"我不知道"，而是编一个听起来合理的结果给你。在医学场景下，这种"过度自信"是致命的。

盲区三：黑客可以悄悄篡改你的诊断结果。

这是最让人后背发凉的一个。

四、最危险的漏洞：有人可以让AI"漏诊"你的肿瘤

2026年4月，印度理工学院和阿联酋人工智能大学联合发表了一项研究（arXiv:2604.17318v1），揭示了一个令人震惊的事实：有人可以在你完全不知情的情况下，让AI把你的肿瘤诊断篡改为"一切正常"。

具体怎么做到的？

研究团队设计了一种叫"MedFocusLeak"的攻击方案。原理听起来很简单：不改你的病灶区域，只改图像的背景——同时让AI的"注意力"从病灶上移开，转向被改过的背景。

打个比方：法官正在审案，有人在法庭旁边的展示板上偷偷贴了花哨的图片，分散了法官的注意力，让他忽略了桌上关键的证据，最终做出错误判决。

关键是：图像从外观上几乎看不出任何改动。三名医学实习生在高级医学专家监督下评估，图像质量保留度得分很高。

实测效果有多可怕？

在一个案例中，脑部MRI影像显示左侧颞叶有潜在肿瘤性病变，AI正确判断为"可能存在转移性病变"。经过攻击后，同一张图像输入AI，输出变成了"脑部结构正常，未见异常信号区域，未见肿块或病变迹象"——一个完全正常的描述。

如果这发生在真实临床场景中，患者可能因为这份"正常报告"而失去及时治疗的机会。

另一个案例更绝：原本诊断为"可能的良性黑色素细胞病变"的皮肤镜图像，攻击后被AI判断为"恶性黑色素瘤"——方向完全相反，把良性判成恶性。

这两种错误——把有病判成没病，把良性判成恶性——都可能造成严重后果。

五、推理型AI更难骗，但仍不是铁板一块

这项研究还发现了一个值得关注的现象：专门强化了推理能力的AI比普通AI更难被攻击。

MedVLM-R1这类"会思考"的AI，攻击成功率明显低于InternVL、QwenVL这类"看图说话"的模型。这就像一个经过严格训练的法官，即便旁边有人不断干扰，也能强迫自己把目光拉回证据本身。

但即便如此，攻击仍然取得了不可忽视的成功率。目前没有任何医疗AI能完全免疫这类攻击。

对技术人说：如果你在做医疗AI开发，推理能力不只是一个"锦上添花"的feature，它可能直接关系到系统安全性。让AI"一步一步想"而不是"一眼就说"，不仅是技术路线的选择，更是安全底线。

六、院士的追问：出了事，谁负责？

中国科学院院士、复旦大学附属中山医院心内科主任葛均波教授提出了两个关键问题：

第一，患者隐私如何保护？

AI诊断需要大量患者数据，这些数据怎么存、怎么传、谁有权访问？一旦泄露，后果比普通数据泄露严重得多——你的全身体检报告泄露，和你的购物记录泄露，完全不是一个量级。

第二，AI出了问题，责任谁来担？

AI诊断错了，是AI公司的责任？医院的责任？还是使用AI的医生的责任？目前法律上还是灰色地带。

葛均波说了一句很实在的话："AI的能力将来一定会超过最顶尖的医生。"但他也强调：目前必须明确AI辅助诊疗的边界，强化医生对AI结果的判断能力和责任意识。

普通人应该记住：AI目前是"辅助诊断"工具，不是"诊断决策"工具。它给的是参考，不是结论。

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

聊天总把天聊死？这7个雷区，你可能正在踩。如何正确和女生聊天

3小时前

突发！OpenAI高层巨震，ChatGPT与CodeX或合并，超级AI来了！

3小时前