AI,个人随笔 DPO:当行业开始嫌 RLHF 太累的时候 DPO的诞生揭示了AI训练领域的一个残酷真相:RLHF虽有效却如同苦役。这种新方法摒弃复杂的评分体系,回归人类最本能的偏好判断,不仅解放了训练师,更重塑了大模型对齐的工程实践。本文将深入解析DPO如何用『二选一』的朴素智慧,解决RLHF时代的技术沉疴与人性困境。 青蓝色的海 AI对齐DPORLHF
AI Claude竟藏着3307种「人格」?深扒70万次对话,这个AI会看人下菜碟 AI会无脑附和吗?Anthropic研究发现,Claude能根据场景切换人格:谈恋爱时化身情感导师,聊历史时秒变严谨学者。一些对话中,它强烈支持用户价值观,但在3%的情况下,它会果断抵制。 新智元 AI产品AI对齐Claude
AI OpenAI 闹剧中被忽略的一部分——AI对齐 就在近日,OpenAI内部发生了人事变动,而在这场变动背后,我们或许忽略了一个部分,即“AI对齐”。怎么理解“AI对齐”?这篇文章里,作者做了拆解与分析,一起来看看,或许想了解AI行业更多内容的同学会感兴趣。 电厂 AI对齐ChatGPTOpenAI