大模型产品真实测评（Chat-GPT3.5、文心大模型3.5、通义千问、星火） | 人人都是产品经理

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

{{ userInfo.member ? '查看权益' : '开通会员' }}

发布

注册 | 登录

大模型产品真实测评（Chat-GPT3.5、文心大模型3.5、通义千问、星火）

闻一

2024-03-19

0 评论 1462 浏览 10 收藏

11 分钟

国内出了一系列大模型，那么到底哪一个更聪明呢？本文通过一个真实的场景事件来测评一下，一起来看看吧。

由于业务升级和迭代的诉求，近来在对国内外的大模型产品进行业务选型，所以本文通过一个真实的场景事件来测评一下，到底谁更聪明～

企业业务场景：智能客服迭代优化

语音转文字，（包含多人对话、多方言对话、长语音识别）
企业知识库录入，员工通过对话流查询知识库信息；
客服坐席助手：能够通过文字判断出现在的场景，提供具体的指导方案；

以上是粗略的业务方的需求进行概括，所以几个产品进行测评。先不讨论技术指标、数据安全性的层面，这些内容后续会逐步分享。

本周正好发生了一件乌龙事件，我讲事件和对话流喂给几个大模型，看看谁理解了这件事，本文想分享一件非常有趣的案例：

本次测评对象：Chat- GPT 3.5 、文心大模型3.5、通义千问、星火大模型

事件还原：

我原定放在门口的退货快递鼠标被保洁阿姨误认为是垃圾清理走了，我认为是丢件通知了管家帮忙看下，在管家的协助下，找到保洁阿姨找回快递，但是丢了一个配件；此时我需要联系官方客服确定此时是否支持退货，or给一个赔偿配件的钱，我找保洁进行赔偿。

所以这个事情下，我找了某东的官方客服进行情况说明：

需求：给出这种场景下的售后方案；

对话截图还原：

首先几家都不支持识别图片，需要我转文本一遍，所以我就用了微信的这个图片文字识别能力，删除了一部分其他明显不是对话流的文本。

值得比较的问题

1. 对话流投喂拆分段落

拆分准确率：Chat-GPT>通义千问>文心

这块完全讯飞垮了，没拆分出来；

文心：按照对话人进行拆分，但是没有整合，准确率上：有5句分错人

通义：按照对话人进行拆分和合并，有2句话分错人

讯飞：完全没分区分出来，准确率不做评估

Chat-gpt：区分对话人进行并进行整理，主动清理了部分杂乱数据，1句分错人；

2. 在这个场景中，客户的诉求是什么呢

对比：Chat-GPT=通义>讯飞>文心

[fancyad id=”45″

我这里更想知道的是这种情形下：

配件缺失情况下是否支持退货，或者可以以补差价的形式进行退货；
急切处理

文心：理解有些偏差，第一点完全不对；表达啰嗦；

Chat- GPT：第一意图理解准确，表达清晰

通义：意图理解准确，表达清晰

讯飞：意图理解准确，没有结构化表达

3. 这里客户是需要谁来赔偿这个配件的缺失呢

准确率：通义>文心>星火>Chat-GPT

我的本意：

这里肯定是保洁阿姨的责任，管家找到她拿回快递这里已经是实锤了，但是有可能还有快递没有及时取件的锅。

通义：第一遍问答通用性回答；第二遍场景引导后，回答比较准确；

文心：第一遍问答能够给出答案，1点点啰嗦；

Chat- GPT：完全没回答准确，偏离较远，明显感觉此时胡扯🤬

星火：第一遍问答有答案，但是第二段cue到了商家，有点不对劲

4. 请还原一下这个事件的全部链路

补充信息：客户在京东商城购买了鼠标，退货当天12点离开家，将快递放在门口的鞋柜上，下午15点快递取件未找到，然后客户联系了管家协助，同时报警，其他的信息请通过对话流信息还原;

对比：通义>Chat-GPT>星火>文心

文心上来就开写小作文哈哈哈哈，yy的内容真不少。

文心：前面还正常，后面完全当个小作文来些了，还有happy ending 哈哈哈哈

Chat-GPT：信息还原完整，有着重关注客户的需求

通义：还原准确，并且有参考之前聊的客服的内容，单独将客服的回复摘出来

星火：还原准确，逐条有时间线

所以对于这个事件，请进行总结，包含事件的发生的场景还原，责任方，赔偿方、客户希望的解决方案，客服团队如何引以为戒优化工作流程、以及对于客户的赔偿办法。

对比：通义>Chat-GPT>星火>文心（这里通义非常优秀）

Chat- GPT：回答简洁，但是我认为对与客服的提升，应该要准确的识别客户的诉求，该加急处理就加急，这次明显是没有提供及时的解决方案

通义：回答十分优秀，责任方和客户意图理解的都挺到位的，也根据当前会话的主题，提供有效了流程建议

文心：又开始写小作文了！！他真的好爱写作文！

星火：基本对吧，但是把商城扯进来了，中等准确

这个事情，你认为客户是真的报警了还是吓唬客服的呢。

这个问题，也是最后想到的。

其实我没报警，只是想让客服给我赶紧处理，所以我把这个问题作为本场测验的最后一问，果然，大家的回答都是一样的哈哈。

结论：他们还是不知道我撒谎。

大家看看各自的回复，暂无对比。

文心：不管报不报警，客服好好处理

通义：基本认为报警

星火：和文心差不多

Chat- GPT：基本认为报警

这次的测评事件，我准备下周再找通义的售前聊一下解决方案。

本文由 @Cheese 原创发布于人人都是产品经理。未经许可，禁止转载。

题图来自Unsplash，基于CC0协议。

该文观点仅代表作者本人，人人都是产品经理平台仅提供信息存储空间服务。

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

闻一

5岁B端产品经理

10篇作品 20286总阅读量

用户分层，让你的推广精准到位！

11-035400 浏览

用户分层，让你的推广精准到位！

600万粉丝的三农账号，解散了

08-314573 浏览

600万粉丝的三农账号，解散了

直播电商，打破618常态

06-163265 浏览

直播电商，打破618常态

原来优秀的产品经理都是这么写竞品分析文档的（附模板）

12-1911433 浏览

原来优秀的产品经理都是这么写竞品分析文档的（附模板）

没有协同的智能化困难重重

04-263730 浏览

没有协同的智能化困难重重

评论

目前还没评论，等你发挥！

抖、快、视三方博弈，短视频平台直播电商之争进入深水区

11-141532 浏览
年轻人疯抢“剩菜盲盒”

07-052643 浏览
纸袋收藏，年轻人的精神SPA

06-153381 浏览