大模型产品真实测评(Chat-GPT3.5、文心大模型3.5、通义千问、星火)

0 评论 1100 浏览 8 收藏 11 分钟

国内出了一系列大模型,那么到底哪一个更聪明呢?本文通过一个真实的场景事件来测评一下,一起来看看吧。

由于业务升级和迭代的诉求,近来在对国内外的大模型产品进行业务选型,所以本文通过一个真实的场景事件来测评一下,到底谁更聪明~

企业业务场景:智能客服迭代优化

  1. 语音转文字,(包含多人对话、多方言对话、长语音识别)
  2. 企业知识库录入,员工通过对话流查询知识库信息;
  3. 客服坐席助手:能够通过文字判断出现在的场景,提供具体的指导方案;

以上是粗略的业务方的需求进行概括,所以几个产品进行测评。先不讨论技术指标、数据安全性的层面,这些内容后续会逐步分享。

本周正好发生了一件乌龙事件,我讲事件和对话流喂给几个大模型,看看谁理解了这件事,本文想分享一件非常有趣的案例:

本次测评对象:Chat- GPT 3.5 、文心大模型3.5、通义千问、星火大模型

事件还原:

我原定放在门口的退货快递鼠标被保洁阿姨误认为是垃圾清理走了,我认为是丢件通知了管家帮忙看下,在管家的协助下,找到保洁阿姨找回快递,但是丢了一个配件;此时我需要联系官方客服确定此时是否支持退货,or给一个赔偿配件的钱,我找保洁进行赔偿。

所以这个事情下,我找了某东的官方客服进行情况说明:

需求:给出这种场景下的售后方案;

对话截图还原:

首先几家都不支持识别图片,需要我转文本一遍,所以我就用了微信的这个图片文字识别能力,删除了一部分其他明显不是对话流的文本。

值得比较的问题

1. 对话流投喂拆分段落

拆分准确率:Chat-GPT>通义千问>文心

这块完全讯飞垮了,没拆分出来;

文心:按照对话人进行拆分,但是没有整合,准确率上:有5句分错人

通义:按照对话人进行拆分和合并,有2句话分错人

讯飞:完全没分区分出来,准确率不做评估

Chat-gpt:区分对话人进行并进行整理,主动清理了部分杂乱数据,1句分错人;

2. 在这个场景中,客户的诉求是什么呢

对比:Chat-GPT=通义>讯飞>文心

[fancyad id=”45″

我这里更想知道的是这种情形下:

  • 配件缺失情况下是否支持退货,或者可以以补差价的形式进行退货;
  • 急切处理

文心:理解有些偏差,第一点完全不对;表达啰嗦;

Chat- GPT:第一意图理解准确,表达清晰

通义:意图理解准确,表达清晰

讯飞:意图理解准确,没有结构化表达

3. 这里客户是需要谁来赔偿这个配件的缺失呢

准确率:通义>文心>星火>Chat-GPT

我的本意:

这里肯定是保洁阿姨的责任,管家找到她拿回快递这里已经是实锤了,但是有可能还有快递没有及时取件的锅。

通义:第一遍问答通用性回答;第二遍场景引导后,回答比较准确;

文心:第一遍问答能够给出答案,1点点啰嗦;

Chat- GPT:完全没回答准确,偏离较远,明显感觉此时胡扯🤬

星火:第一遍问答有答案,但是第二段cue到了商家,有点不对劲

4. 请还原一下这个事件的全部链路

补充信息:客户在京东商城购买了鼠标,退货当天12点离开家,将快递放在门口的鞋柜上,下午15点快递取件未找到,然后客户联系了管家协助,同时报警,其他的信息请通过对话流信息还原;

对比:通义>Chat-GPT>星火>文心

文心上来就开写小作文哈哈哈哈,yy的内容真不少。

文心:前面还正常,后面完全当个小作文来些了,还有happy ending 哈哈哈哈

Chat-GPT:信息还原完整,有着重关注客户的需求

通义:还原准确,并且有参考之前聊的客服的内容,单独将客服的回复摘出来

星火:还原准确,逐条有时间线

所以对于这个事件,请进行总结,包含事件的发生的场景还原,责任方,赔偿方、客户希望的解决方案,客服团队如何引以为戒优化工作流程、以及对于客户的赔偿办法。

对比:通义>Chat-GPT>星火>文心(这里通义非常优秀)

Chat- GPT:回答简洁,但是我认为对与客服的提升,应该要准确的识别客户的诉求,该加急处理就加急,这次明显是没有提供及时的解决方案

通义:回答十分优秀,责任方和客户意图理解的都挺到位的,也根据当前会话的主题,提供有效了流程建议

文心:又开始写小作文了!!他真的好爱写作文!

星火:基本对吧,但是把商城扯进来了,中等准确

这个事情,你认为客户是真的报警了还是吓唬客服的呢。

这个问题,也是最后想到的。

其实我没报警,只是想让客服给我赶紧处理,所以我把这个问题作为本场测验的最后一问,果然,大家的回答都是一样的哈哈。

结论:他们还是不知道我撒谎。

大家看看各自的回复,暂无对比。

文心:不管报不报警,客服好好处理

通义:基本认为报警

星火:和文心差不多

Chat- GPT:基本认为报警

这次的测评事件,我准备下周再找通义的售前聊一下解决方案。

本文由 @Cheese 原创发布于人人都是产品经理。未经许可,禁止转载。

题图来自Unsplash,基于CC0协议。

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!