AI辅助诊断的幻觉问题是源自数据忽略

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

罗福如

2024-11-28

0 评论 144 浏览 0 收藏

4 分钟

在医疗诊断领域，人工智能技术的应用正日益普及，但其准确性和可靠性仍然是公众和专业人士关注的焦点。本文深入探讨了AI辅助诊断中存在的挑战，特别是AI如何突破人类医生诊断准确率的“天花板”，以及如何识别和利用那些可能被人类医生忽视的隐藏特征。

前段时间读了杰罗姆·格鲁普曼的《医生如何思考》（How Doctors Think）。这本书我觉得任何接受过重大治疗的人都应该读一下，它会彻底改变你对医生的看法。书里提到一个让我震惊的事实：即使是通过委员会认证的放射科医生，他们大约有 15% 的时间会对自己的诊断意见不一致（如果没记错的话）。

让我好奇的是，既然人类医生都有这种限制，那我们怎么让人工智能的诊断准确率比人类高？

目前的方法，比如放射科医生的诊断，准确率可能在 95% 左右。如果我们用这些准确率只有 95% 的方法来训练 AI，那么 AI 怎么能突破这条“天花板”？它需要一些我们还没意识到的知识来提高到 99.999% 的准确度，但这些知识我们自己却并不知道它们是什么。

举个极端但形象的例子。假设有种叫红流感的疾病，患者脸上会出现红点，这点大家都知道，但更少人注意到的是，这种病可能会在发病前四周让脚趾甲变紫。人类医生可能永远不会发现这个细节，但 AI 可能会自动发现两者的联系。问题是，我们如何主动找到这些“紫脚趾甲”式的隐藏特征？

更复杂的是，我们的数据本身可能会欺骗 AI。拿肺癌来说，训练数据相对简单。我们可以只用活检确认过的癌症患者的 CT 和 XR（而不是那些放射科医生怀疑有癌症但未确诊的样本），这样训练出来的 AI 特异性几乎是 100%。敏感性如何？这很难说，但实际上人类医生的敏感性也没有明确的标准。

但如果是肺炎，情况就完全不同了。肺炎没有像活检一样的“金标准”来验证，诊断往往依赖 XR 上的特征和医生的经验判断。训练数据不可避免会掺杂噪声，这种情况下，AI 的特异性一定低于 100%。

不过即便如此，AI 的一致性可能让它在实际表现中仍然优于平均水平的医生。即便训练数据并不完美，AI 也有可能接近顶级放射科医生的表现，这比普通医生要好得多。

然而，AI 还有一个问题是它的“黑箱”属性。我们不知道它在检测癌症时究竟看到了什么，忽略了什么，也无法完全理解它的决策过程。就像医学本身更像一场概率游戏一样，AI 也并非绝对确定的工具。

本文由人人都是产品经理作者【罗福如】，微信公众号：【罗福如】，原创/授权发布于人人都是产品经理，未经许可，禁止转载。

题图来自Unsplash，基于 CC0 协议。

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

罗福如

个人公众号“罗福如”

44篇作品 474529总阅读量

04-071896 浏览

05-095233 浏览

02-063904 浏览

05-244931 浏览

09-045429 浏览