李彦宏宣称无幻觉,文心一言亲测却 「打脸」?
百度创始人李彦宏在百度世界2024大会上宣称,大模型技术已经“基本消除了幻觉”,并介绍了其最新研发的检索增强的文生图技术(iRAG)。然而,新识研究所对文心一言的实际测试结果却显示,李彦宏所宣称的“无幻觉”效果似乎并不稳定,甚至在某些情况下与实际情况相去甚远。
11月12日,在百度世界2024大会上,李彦宏在主题为《应用来了》的演讲中,公开对外表达了“过去24个月,AI行业的最大变化是什么?是大模型基本消除了幻觉”的看法,并且发布了检索增强的文生图技术(iRAG),称其可“用于解决大模型在图片生成上的幻觉问题,极大提升实用性”。
然而在体验中,新识研究所却发现文心一言在文字与文生图上消除/解决了幻觉,可能只是李彦宏的“幻觉”。
一、李彦宏说大模型消除幻觉,文心一言复现却漏洞百出?
作为在发布会上展示的技术,除了当场演示不翻车之外,最起码要做到让用户可以复现。但李彦宏这次的现场演示,却实在让人怀疑他用的是不是提前预设好的东西。
在大会当场,李彦宏隆重推出了检索增强的文生图技术——iRAG。据介绍,该技术将百度搜索的亿级图片资源与基础模型能力相结合,能生成极为逼真的图片。李彦宏强调,iRAG技术效果远超原生文生图系统,成功消除了机器味,并显著提升了AI生成图片的实用性。
那么是怎么个消除了机器味、证明生成的图片是真实的呢?李彦宏拿出了天坛作为案例。
首先,李彦宏使用某开源模型生成了一张北京天坛的图片,然后告诉大家,这张天坛图片是错误的,因为天坛只有三层而该开源模型生成的图片中天坛有四层,并告诉大家,这就是图像等多模态模型幻觉的最真实情况。
而在指出这个开源模型的错误后,李彦宏也展示了文心一言利用iRAG技术生成的爱因斯坦在天坛的图片,以展现百度iRAG技术消除多模态模型幻觉的实力。
图源:小熊财经
这一切看似很流畅,使用了iRAG技术生成的图片也的确不再“臆想”,但在我们复现该图片的时候,却出现了问题。
在同样的要求之下,文心大模型生成的“天坛”却不像李彦宏当场展示的一般,而是给出了有四层的“天坛”图片,这不刚好也算是犯了李彦宏指出同行们的错误吗?
图源:文心一言生成
在层数之外,这张生成的“天坛”照片在下面栏杆的数量上也与真实的天坛对不上号,真实的天坛共有三层栏杆,而生成的图片则有四层甚至五层栏杆出现。
图源:文心一言生成
或许有人觉得我这样的要求有点“吹毛求疵”,但在五次同样的要求之下,文心一言有三次给出了“打脸”李彦宏的输出结果,实在令人有些汗颜。
而在另外一张现场展示的“大众揽巡汽车飞跃长城”图片上,文心一言也给出了同展示相去甚远的答案。
图源:文心一言生成
左上图为真实的大众揽巡,左下为大会展示的大众揽巡,而右图则为再次生成的大众揽巡,李彦宏展示的图片与真实的揽巡的确相差不远,但为何再次生成的图片,连大众的logo都被“幻觉”掉了呢?
在图片之外,李彦宏表示文字层面的RAG已经做得很好,基本让大模型消除了幻觉,但作为日常深度使用各家大模型的用户来说,起码在豆包、Kimi、文心一言这些大众使用频率最高的大模型应用上,是远远达不到李彦宏所说的程度的。
(事实上多伦多不是加拿大的首都)
而从技术上来说,RAG(检索增强生成)本质上是一种基于信息检索方法缓解LLM幻觉的技术,就是无法彻底杜绝模型的幻觉问题,这似乎就是Transformer架构本身的问题,例如在处理代码编写和数学等需要推理的任务时,RAG的表现就不那么理想了,而如此武断地给出RAG基本让大模型消除了幻觉的论断,真的没有问题吗?
二、李彦宏,才是被“忽悠瘸”的那个?
如果说像这样的事件是偶然的话那还可以理解,但从AI时代开始李彦宏与百度的多次发声与动作来看,也不能排除李彦宏被下面做产品、做业务甚至所宣传的人“忽悠”出幻觉的可能。
作为最先发布大模型的企业,百度的文心一言在去年年初可谓是风光无两,就差把中国大模型之光的title安在脑袋上了。但一年半之后的现在,占尽先发优势的文小言的MAU只有豆包的四分之一,同文心一言年龄相仿的月之暗面的产品Kimi也快要赶上。
数据来源:公众号@AI产品榜
而要追究个中原因,虽然的确脱不开近几个月豆包有抖音“独家宣传权”、Kimi大肆烧钱的因素,但归根结底,还是由于百度在大模型上的进展并没有保持住领先优势。
在今年4月Create 2024百度AI开发者大会上,百度带来了包括智能体开发工具AgentBuilder、AI原生应用开发工具AppBuilder、各种尺寸的模型定制工具ModelBuilder在内的三个AI开发工具,其中的智能体开发工具AgentBuilder似乎有很大的超越性,也被百度寄予了厚望。
但是,在创建智能体的能力上,百度的超越性并没有宣称的那么大。
以豆包为例,发现智能体、创建AI智能体也早已对C端用户放开,并在真实的使用中并不输给百度AgentBuilder开发的智能体。
图源:豆包
李彦宏对于大模型技术和趋势的一些发言和判断,也经常会让人觉得与现实发展并不相符。
同样在今年4月Create 2024百度AI开发者大会上,李彦宏曾表示:“开源模型会越来越落后”。他给出的原因是,大家以前用开源觉得便宜,其实在大模型场景下,开源是最贵的,所以开源模型会越来越落后。
开源模型成本高就一定会落后?显然并不是直接的因果关系。更何况在技术领域,几乎每一个开发者都信奉开源的力量,认为开源驱动了绝大多数技术创新,那为什么到了李彦宏这里就出现了另一种答案呢?
而再往前,早在去年百度发布文心一言时,李彦宏就称“百度文心一言和OpenAI差距可能在两个月左右”,但王小川直言“这可能是平行宇宙里的李彦宏说的,不是我们这个世界里的”。至于彼时百度文心一言和ChatGPT的差距究竟有多大,当前文心一言的使用体验有没有追上GPT-4o,其实明眼人都能看得出来。
再加上一直以来重发布、轻落地,重宣传、轻体验的大模型应用功能迭代,很难让人不怀疑,以技术出身的Robin,是真的跟随百度进入了AI时代,还是在潜移默化之间被筑起的信息茧房慢慢同化,成为了那些产品开发人员、业务人员乃至公关人员的“发声筒”了?
作者:杨启隆
编辑:丁力
本文由人人都是产品经理作者【新识研究所】,微信公众号:【新识研究所】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。
题图来自Unsplash,基于 CC0 协议。
李彦宏在百度世界2024大会上提出,大模型技术已经“基本消除了幻觉”,并通过检索增强的文生图技术(iRAG)展示了其在图片生成上的进步。然而,实际测试显示,文心一言在消除幻觉方面似乎并不稳定,有时甚至与宣称的效果相去甚远。这种现象引发了外界对百度大模型技术实际应用效果的质疑,也表明在实际应用中,技术的宣称与实际效果之间可能存在差距。