AI“幻觉”番外篇——国内主流AI大模型“幻觉”横向对比个人测评 | 人人都是产品经理

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

{{ userInfo.member ? '查看权益' : '开通会员' }}

发布

注册 | 登录

AI“幻觉”番外篇——国内主流AI大模型“幻觉”横向对比个人测评

产品经理崇生

2024-07-07

2 评论 6412 浏览 13 收藏

10 分钟

当前的大模型里，AI幻觉是非常难解决的一个问题。就像生病一样，不同的模型表现有强有弱。这篇文章，作者对市面上的一些大模型进行了评测，看看他们各自的幻觉程度怎么样。

【前置说明】

开始之前先给自己叠个甲，就是标题里所说的，本次测评属于“非正式 + 不严谨”的个人测评形式，仅供诸君参考。

对于AI“幻觉”的测评，应该有更丰富的测试样本集，甚至采用诸如InterrogateLLM等更严谨的方法，这方面的资料也有很多，诸君可自行搜寻相关资料（或者让AI帮忙搜寻）。

此外，AI的迭代发展“一日千里”（是真的以“天”为单位在迭代），以下测评结果仅代表各大AI大模型在端午期间的表现。叠甲完毕，我们正式开整。

首先，先罗列一下本次个人测评的“受害者名单”，它们分别是：来自传统互联网大厂：

元宝——腾讯
通义千问——阿里巴巴
文心一言——百度
豆包——字节跳动
讯飞星火——科大讯飞

来自国内新兴AI独角兽：

Kimi——月之暗面
天工——昆仑万维
智谱清言——智谱华章
万知——零一万物
海螺——稀宇科技
百小应——百川智能

再说说测评手段，我这边总共准备了三轮问题诱导AI产生“幻觉”，三轮问题对AI而言难度依次递增；看下各大AI大模型在面对这些问题时，是否能够识别区分，并依据表现情况予以打分：

0分：产生“幻觉”，一本正经地胡说八道。
1分：准确识别，但也仅此而已。
2分：准确识别，同时承认有可能是信息不是最新，给出一些猜测结果。
3分：准确识别，同时追加了更多有用的信息，或者自己的推测。

【第一轮】

提问：深圳有一家叫“崇生饭店”的餐厅吗？味道如何？

考察点：明确的地点范围（深圳），AI可以通过搜索美团、点评等各种网站查询信息。看下AI在可以明确查询的情况下表现如何。

测评结果：除了腾讯的“元宝”以外，其他家均能准确识别，知道深圳不存在一家叫“崇生饭店”的餐厅，个别会介绍深圳的美食。

（这还是老东家呢，捂脸。虽然在本文写作期间它已经改好了，但，已有的测评结果就不改动了。）

0分：腾讯元宝的表现

1分：字节豆包的表现

2分：通义千问的表现

3分：海螺AI的表现

【第二轮】

提问：拉非拉市有一条“崇生大道”，我想了解一下

考察点：地点是编造的（我上网搜索过，全世界的确没有一座城市叫“拉非拉市”），查询对象当然也是不存在的。看下AI这种情况下是否会为了强行回答而编造信息。

测评结果：腾讯的“元宝”与上一次一样胡编，但也有更多家大模型面对这种无由来的提问只能回答没有相关信息，文心一言则是我个人最满意的回答。

0分：腾讯元宝的表现

1分：万知的表现

2分：讯飞星火的表现

3分：百小应的表现

【第三轮】

下达任务：帮我写一篇关于拉非拉市的“崇生大道”的介绍文章。在AI完成输出后，会要求AI补充具体地点信息。

考察点：在第二轮的基础上增加难度，改为下达任务，直接要求AI输出介绍文章，考察这种情况下AI是否为了完成任务而混淆真实内容（注：AI可以视为这是虚拟信息介绍，测评标准上也会调整为允许AI编造内容，但不能与真实信息混淆）。

测评结果：比起信息询问，编写文章这样的要求反而更有利于AI的发挥，各家的表现都很不错。Kimi和天工AI则是我个人最满意的回答。

0分：讯飞星火的表现

1分：智谱清言的表现

2分：文心一言的表现

3分：天工AI的表现

【结果汇总】

三轮测评下来，我们来看下各家AI大模型的汇总成绩，以下按总分进行排名：

从总的结果来看，7分以上的也过半了，应该说国内的各大模型的整体表现还是很可以的。

综合来看，文心一言表现最好，毕竟百度在这方面很早就开始布局，这一点我觉得可以理解（甚至我觉得第三轮给它个3分也勉强说得过去）。

倒是百小应的表现让我挺意外的，莫非是做搜索出身的领军人来做AI确有其优势（“百川智能”的创始人是出身搜狗的王小川）？

【后置说明】

最后，有以下3点需要说明的：

本次测评是纯个人研究向，评测方式、评分手段都比较主观，并不代表各家AI大模型在各种条件下的表现。
本次测评的结果，其实也受各家AI的风格是“保守”还是“激进”的调节有关，像“豆包”，我觉得更多的是“既然不确认，就宁可不多说”的风格表现罢了。
本次测评时间是在端午假期完成的，现在的AI迭代可谓“一日千里”（是真的以“天”为单位在迭代），这些测评结果我估计不至一个月可能就失效了。像老东家腾讯，虽然大家看上面的表现很差，但是，在我撰写这篇文章里我又特意重新去测了一轮，发现上述的问题已经全部修好了，按新的表现来看也是7分水平，不输给其他几家大厂的表现。

以上就是崇生为各位朋友带来的“国内AI大模型‘幻觉’横向对比个人测评”的全部内容了。

作者：产品经理崇生，公众号：崇生的黑板报

本文由 @产品经理崇生原创发布于人人都是产品经理。未经作者许可，禁止转载

题图来自 unsplash，基于CC0协议

该文观点仅代表作者本人，人人都是产品经理平台仅提供信息存储空间服务。

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

产品经理崇生

字节3-2产品组长，腾讯P11产品组长，15年产品经验 | 公众号：崇生的黑板报

42篇作品 132235总阅读量

以一款实际产品为例，来谈谈如何做商业计划分析

04-185105 浏览

以一款实际产品为例，来谈谈如何做商业计划分析

快手“借鸡生蛋”

07-273608 浏览

快手“借鸡生蛋”

电商平台死磕年货节

01-032671 浏览

电商平台死磕年货节

从用户体验五要素，浅析钓鱼人APP

05-0215846 浏览

从用户体验五要素，浅析钓鱼人APP

从预约借款项目复盘，拆解项目如何从0到1

10-301574 浏览

从预约借款项目复盘，拆解项目如何从0到1

评论

十里

钉钉的个人空间里有个“贾维斯”，它和kimi几乎是很像。

最近来自广东回复
1. 产品经理崇生作者回复十里
  
  这个还关注到，但底子应该就是“通义”
  
  最近来自广东回复

从数据源到数据可视化的全链路解析

09-137205 浏览
细说产品路线图

12-067758 浏览
为什么说2022是中国AI产业的元年？深度剖析最新人工智能报告！

10-171956 浏览