大语言模型对传统语音交互领域的影响

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

开通会员

发布

大语言模型对传统语音交互领域的影响

Bay

2023-05-17

0 评论 6041 浏览 18 收藏

产品经理的不可取代的价值是能够准确发现和满足用户需求，把需求转化为产品，并协调资源推动产品落地，创造商业价值。

互联网的发展不断地推动着各个领域的更新变换，本篇文章以传统语音交互领域为例，简单讲述大语言模型对传统语音的影响及后期过程的预测，希望能对你有所启发。

一、垂直领域如何运用LLM？

首先LLM需要巨大的模型参数量，而垂直领域优质数据的获取相当困难，一些在垂类领域已经有积淀的团队更有优势。

其次大规模的数据训练成本非常高昂，垂直行业自己下场做不太现实。

因此我猜测更多的团队会采取接入大模型API 并继续结合传统模型的方式，结合LLM给出的结果对传统模型进行效果改良。

实现落地应用还要经过增加垂类训练数据、优质数据预处理、模型训练和微调、调整对话策略等过程。

如何训练数据、调整参数这个太专业，这里我们重点看看对设计过程的影响。

二、LLM对语音交互设计的影响

通过上篇对LLM技术的了解，几乎可以确定的是有了LLM后：

LLM在闲聊业务上有明显优势，一些模型回答不上来的内容可以给出更加丰富的兜底回复。
LLM在上下文方面有着超越传统NLP技术的优势，并且能够对回复内容给出前后连续性的回复。对话的自然度也会有明显提升。

因此用户可感知的系统智能度会被极大提高。

那么，LLM对于垂类任务型对话的语音交互设计流程究竟有着什么影响？

1. 传统语音交互设计

顺着传统NLP研究思路，传统任务型对话设计过程中，用户的指令经过Domain（领域）-Intent（意图）-Slot（词槽）的分类过程。

首先设计师会尽量穷举某个Domain（领域）下的高频用户Intent（意图）以及对应的表达方式，这些表达方式会被标注成用户意图、词槽（Slot）、实体（Entity）等用作数据训练，试图让机器理解。（除了这些，还会增加用户数据训练）。

其次，设计师还需设定好任务型对话的逻辑（比如用户说了导航到三里屯后希望再增加个途径点），和执行结果。

最后，设计师还需要针对每个用户意图设定好回复语，包括正常的句子结构和关键词槽信息。为了避免回复语过于机械，通常还会扩写多条。

对话模板设计在传统任务型对话中扮演着重要的角色。

2.LLM对语音交互影响预测

以下是我对LLM模型加持下，垂类任务型对话的语音交互设计过程预测：

1. 模型的初期定义仍然重要，需要根据应用场景设定好模型初始性格、回复语风格，根据应用领域控制对话长度。

2. 穷举对话意图的工作会被减少，这些可以由大量用户原始对话数据进行持续训练。

3. 模型基本的判断逻辑设定（模型在某一领域话题范围、对话的逻辑骨架）还是有一定必要的，在上一篇中我们有提到大模型也需要「有监督微调」的过程。有监督微调阶段可以理解为通过给到 GPT 正确的对话模板（包含案例和执行结果）让GPT通过案例来学习，并且形成回答。可以使得 GPT 的能力分化到不同的技能树。

4. 交互结果仍然需要设计或人工干预，包括：不同场景（成功、各种异常）的提示音、引导用户按照预定流程操作，对话轮次的控制、在必要的情况下提出澄清问题或请求更多的信息等。

5. 虽然一定程度降低了前期穷举的设计工作量，短期内的测试工作可能会变得更加重要，在一些安全性要求较高的垂直场景需配合边界回复测试和人工干预，以确保用户实际使用效果不翻车。

6. 模型需要设定好上下文理解的边界，确保用户不同任务指令不会被记忆混淆。如果做不好这点，基于LLM的任务型对话体验将会很灾难。可以通过以下方式实现：

a. 引入时间窗口机制设定时间阈值，超过一定时间后的问题就不再进行上文记忆。

b. 控制对话次数，但这个方式可能会导致效果生硬一刀切。

c. 结合对话策略做判断：结合用户意图检测、对话状态（时间机制、是否遇到状态异常等）对整个对话管理逻辑进行设定，会有一定的设计工作量。

d.通过注意力机制，让模型关注的重点放在主要任务话题上，从而控制上下文理解范围。不过这需要调整模型算法。

7. 需要给到大模型调用频次过多、调用时间过长的基础兜底的方案。因为LLM参数量级大，通常需要更长的调用时间，我们又无法保证用户在特定任务场景的网速，很可能会出现调用失败的情况。（比如高速路段用户需要紧急救援、偏僻地区、拥挤的商场信号差）有时候优先给出传统模型的回复可能更佳。

看到这你可能觉得，怎么初期设计工作并没有因为模型结合了LLM而大量减少呢？

其实这只是模型能力搭建的一小部分，可预见的变化更多在搭建了这样一套基础后，大模型超强的学习和自我迭代能力可以使对话系统的建设更加高效：模型可通过自我优化来提高对话质量、通过更多数据学习减少Unknown数据的比例，并逐步减少对对话模板的依赖。

由此可见，当大家都逐步搭建起垂直领域基于LLM的语音交互系统后，后续的系统维护工作中基础、简单的设计工作会大幅减少，转而需要更加专业的效果测试、对话策略调整、模型应用场景搭建工作，而这些都偏向工程类。

我猜这也就是为什么前阵子国外出现了「提示语工程师」岗位：

找到了一篇zhihu上的回答：https://www.zhihu.com/question/585797590/answer/2908249230

可以从该职位的具体要求中看出，这个角色涵盖大模型效果测试、应用场景和交互式工具探索、模型推广和一定的团队组织职能

而另外一个回答说明了具备Coding能力对标注工作的重要性，其实在模型效果测试方面也同样适用：https://www.zhihu.com/question/571460238/answer/2889630802

所以未来做好语音交互设计需要设计者对模型能力有较多底层知识储备，设计师、产品经理需要对垂直领域知识有足够的理解，甚至具备一定Coding能力、产品搭建能力，以便和工程师团队做更紧密的配合。此外，岗位和岗位之间的界限会被进一步模糊。

这提醒我们，日常工作之余，一定要多点技能树，以应对AI涌现的超能力对现有岗位的冲击。

三、结语

相比当前 ChatGPT、New Bing 已经实现的 CUI 会话式交互（Conversational User Interface 基于对话的计算机用户界面），VUI 语音交互要复杂的多。除了要应对复杂的语音识别中背景音、多语言、方言口音问题，用户在纯语音交互过程中的输入时间、停顿问题、信息量、信息有效性也更加不可控。加之调用成本高的问题，大模型在VUI领域的大规模落地应用仍然需要时间。

但我相信这值得期待～

相关参考：垂直行业的语言大模型思考 (上)

本文由 @Bay 原创发布于人人都是产品经理，未经作者许可，禁止转载。

题图来自Unsplash，基于CC0协议。

该文观点仅代表作者本人，人人都是产品经理平台仅提供信息存储空间服务。

更多精彩内容，请关注人人都是产品经理微信公众号或下载App