AI人工智能 RLHF再也不需要人类了!谷歌团队研究证明,AI标注已达人类水平 最近,谷歌在研究中提出了用大模型代替人类,进行偏好标注,也就是AI反馈强化学习(RLAIF),结果发现,RLAIF可以在不依赖人类标注员的情况下,产生与RLHF相当的改进效果。具体如何理解谷歌在最新研究中提出的RLAIF方法呢?不妨来看看本文的解读。 新智元 ChatGPTRLHF大模型