大模型抵抗幻觉,如何解决企业内部的效率问题?

0 评论 1678 浏览 4 收藏 9 分钟

大模型现在已经在各行各业都有广泛的应用,但是其幻觉问题一直困扰着大家。一方面是厂家在想办法消除幻觉问题,另一方面,在流程和方法上,我们也可以掌握一些技巧。

现在大模型to C的场景,在chat bot的场景上还是非常不错的,从PC应用、web、还是移动端来看,使用率和用户的反馈还是不错的。

在现在这个时机,能选择开始使用大模型应用的用户,这个场景就能过滤掉了非常多普通用户,基本上是“学习能力强”“思考力强”的用户,并且大部分使用者,是有“大模型有幻觉”的意识的。

所以在此时的大模型产品开发者对输出的准确率不做强负责,默认用户会有一定的分辨能力。

然而,如果是for企业内部的应用场景,如何解决准确率的问题,还有如何让用户(员工)用起来的动力。

作为企业应用,有一个核心的问题是,“好多事情和大家的绩效挂钩”

(如果你找到了一个真人,请教一些事情,不论是否有答复,或者说是这个答复是对是错,都没问题,有责任人,我甩锅也算是有对象。

但是如果在很多“培训”“咨询”的场景,引入“大模型的助手”,很容易出现,没有人对结果负责,

锅没地儿甩了,总不能让提问的人来甩吧

所以抵抗幻觉,做好准确率这事,现在就很蛋疼。

但是话说回来,对于已经工作的人来说,让人对回复多看两眼,做好风险提示,也算是说的过去。

一、拆解一下企业内部的场景

现在来看,landing比较丝滑的场景,仍然是问答

并且,这种场景的复用性也是高的,作为产品经理也是愿意干这个的,我在A企业做完,去B企业可以有经验再来一遍。

所以,在大模型的内部应用来看,我也在引导业务通过这样的方式来实现。

最近的调研下来来看,基本上是通过【prompt角色扮演+RAG知识库+强限制】来实现的。

prompt工程来看,这个是好解决的,无外乎,修改测试验证

但是后两者是难点,

知识库的吞吐流程

1)知识库里的“知识”

首先是知识本身的准确率,在一些企业,存档做的还不错,这个也算是能提供

但是如何让我们的能够读明白的文档,让大模型本身也读的明白,

Excel、图标的ppt、流程图、脑图等等不同形式的文档信息,如何“一键向量化”

这可太难了。

所以我们的解决方案,就是运营同学或者各类目文档的维护人员按照识别效果还不错的格式,整理一遍。

* 其实这里是有强管理动作在的,管理知识的人不需要问,所以关于这个繁杂的工作如何让人愿意做,在企业内部也是需要耗费精力去做的。

整理完毕文档之后,我们上传大模型平台,

不管直接的知识库产品工具,还是自建的知识库能力。

2)知识的切片

都会进入切片的场景,这里就有一个切的准不准,有没有切开的问题。

现在常见的知识库切片逻辑:

按照格式、标点居多。

再或者“适当”的字数,根据语意切的不多见。

切的这个步骤,基本在图片和表格的信息,就不太能用了。

对了插一句,现在豆包对图片的识别能力来看,

3)如何通过query找到知识

大模型的逻辑是,先把query语意理解了,然后找到关联度最高的知识库知识,

4)大模型输出的答案:

然后把这些知识和问题按照prompt进行总结输出。

这里是关于通话大模型进行问答的信息。

所以每个步骤都有不小的风险,一定需要产品亲自做测试验证的。

但是,预防针是,就算每个步骤都参与设定配置,也一定会有偶尔的抽风。

再来一步,作为产品,也需要解决这些抽风问题

提供几个思路

1. 提供一个“最终解释权归属人”,得让这个大模型助手又机灵又死板,给自己整个免责声明。

大模型助手os:“我可以给出答案,但是答案不是我说的”

比如输出的答案:

-输入:“如何客户退款20元的问题?

-输出:小王在《如何处理客户投诉问题》内提到:“处理投诉的原文……”

或者,在xxx系统查询到的xxxx

根据以上查询的知识,建议方案:…..

(嗯这样,把整个锅给提问者找来了,真出问题就能甩了)

2. 让大模型助手的服务态度好一点

企业内部还有一个痛点是,大家都挺忙的,无法解决的问题,也是让你A找B,再找C,然后拉个群等等。

所以咱们大模型助手遇到不知道的问题,不妨服务态度好一点,不要直接回复“我不知道”,可以拉满情绪价值,给打工人一些安慰剂。

就算提问的用户想要给你个差评,毕竟咱小助手服务态度好,提前不好意思了。

3. 让专家教教小助手,小助手再教新人

通过上面两个,

对大模型助手能回答的和不能回答的问题有了一个buffer

但是如何小助手如何成长的机制还没有建立,

专家对输出信息的准出进行“调教”

设定一些敏感信息的指定回答方案。并且定期review知识本身的数据

如何解决让用户/员工用起来的问题

作为平级部门,我们做了个一个很好用的工具,能帮你解决80%的dirty work,你会用吗

如果公司内部有强有力的1号位把这个AI工具提到了战略层级,通过管理手段让用户用起来是好的,

但是就算这种情况大概率工具会面临“甩锅”的问题,做提效工具的反而被背刺

但是,如果发现这里有一个助手收录了行业的关键词条(哪怕是互联网的),并且收录了公司的各种文档,还有更多的sop,那么作为提问人,去找这个不是人的人问一下,会不会降低一下提问人的羞耻感呢

或者说,有业务要向产品提需求,总是被diss没想清楚,方案不成熟,

那用户是否有机会和这个大模型助手先描述一遍你要实现什么场景呢,(其实这个倒是很简单了,提供一个需求分析的prompt给大模型助手即可)

所以这里就又推理出了一个方案,

提供一些角色扮演

(类似公司的岗位,通过prompt让他具备这个行业的一些基础能力)

集成在大模型助手内,让他具备一些个新场景。

除此之外,就是和上文的知识库类似,

找到owner为知识库负责。

本文由 @闻一 原创发布于人人都是产品经理。未经许可,禁止转载。

题图来自Unsplash,基于CC0协议。

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!