AI辅助诊断的幻觉问题是源自数据忽略
在医疗诊断领域,人工智能技术的应用正日益普及,但其准确性和可靠性仍然是公众和专业人士关注的焦点。本文深入探讨了AI辅助诊断中存在的挑战,特别是AI如何突破人类医生诊断准确率的“天花板”,以及如何识别和利用那些可能被人类医生忽视的隐藏特征。
前段时间读了杰罗姆·格鲁普曼的《医生如何思考》(How Doctors Think)。这本书我觉得任何接受过重大治疗的人都应该读一下,它会彻底改变你对医生的看法。书里提到一个让我震惊的事实:即使是通过委员会认证的放射科医生,他们大约有 15% 的时间会对自己的诊断意见不一致(如果没记错的话)。
让我好奇的是,既然人类医生都有这种限制,那我们怎么让人工智能的诊断准确率比人类高?
目前的方法,比如放射科医生的诊断,准确率可能在 95% 左右。如果我们用这些准确率只有 95% 的方法来训练 AI,那么 AI 怎么能突破这条“天花板”?它需要一些我们还没意识到的知识来提高到 99.999% 的准确度,但这些知识我们自己却并不知道它们是什么。
举个极端但形象的例子。假设有种叫红流感的疾病,患者脸上会出现红点,这点大家都知道,但更少人注意到的是,这种病可能会在发病前四周让脚趾甲变紫。人类医生可能永远不会发现这个细节,但 AI 可能会自动发现两者的联系。问题是,我们如何主动找到这些“紫脚趾甲”式的隐藏特征?
更复杂的是,我们的数据本身可能会欺骗 AI。拿肺癌来说,训练数据相对简单。我们可以只用活检确认过的癌症患者的 CT 和 XR(而不是那些放射科医生怀疑有癌症但未确诊的样本),这样训练出来的 AI 特异性几乎是 100%。敏感性如何?这很难说,但实际上人类医生的敏感性也没有明确的标准。
但如果是肺炎,情况就完全不同了。肺炎没有像活检一样的“金标准”来验证,诊断往往依赖 XR 上的特征和医生的经验判断。训练数据不可避免会掺杂噪声,这种情况下,AI 的特异性一定低于 100%。
不过即便如此,AI 的一致性可能让它在实际表现中仍然优于平均水平的医生。即便训练数据并不完美,AI 也有可能接近顶级放射科医生的表现,这比普通医生要好得多。
然而,AI 还有一个问题是它的“黑箱”属性。我们不知道它在检测癌症时究竟看到了什么,忽略了什么,也无法完全理解它的决策过程。就像医学本身更像一场概率游戏一样,AI 也并非绝对确定的工具。
本文由人人都是产品经理作者【罗福如】,微信公众号:【罗福如】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。
题图来自Unsplash,基于 CC0 协议。
- 目前还没评论,等你发挥!