“贾维斯”这类智能助手，已经看到落地的可能性了

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

“贾维斯”这类智能助手，已经看到落地的可能性了

毅鸣

2023-04-25

0 评论 3911 浏览 12 收藏

20 分钟

近段时间以来，随着ChatGPT这类大模型的火热，引发了各行各业的变革，也让我们不禁设想是否能够创造一个“贾维斯”这类智能助手。本文总结分析了类似产品，探讨“贾维斯”这类智能助手的落地可能性。

作为一个普通人，我曾经设想过，如果能有一个类似与钢铁侠的智能助力“贾维斯”来帮助自己成为一个全能小助手，那是多么科幻的一个事。

最近半年，随着ChatGPT这类大模型的火热，引发了各行各业的变革，其中有智能问答类的，文章等宣传文案生成类的、还有结合midjourney这类能力的衍生最近半个月则是显得更加智能化的autoGPT的诞生。让我觉得想要去打造一个“贾维斯”也是有可能的。

首先我们就想要实现这个目标，进行一下需求与功能模块的拆分，以我目前的理解，可以拆分为【ChatGPT】+【数字人】+【PRA】来实现。

接下来细说一下这3块分别具备什么能力以及主要实现的功能作用：首先就【ChatGPT】、【数字人】、【PRA】进行一下基础的科普：

1. ChatGPT （Generative Pre-trained Transformer）

能用像模像样的“人话”来回答几乎任何领域的用户问题，并对上下文有一定程度的理解。ChatGPT不仅会聊天，还可以帮助人类写代码、修复bug、写工作周报、写小说、进行考试答题、绘画、看病以及大幅度提高搜索效率和体验等。

强大的优势：

它已经经过数百万句子的预训练，并且在多项自然语言处理任务中取得了最先进的结果。它能够流畅地产生自然语言响应，有效地响应用户的疑问和请求。
多个处理单元同时工作来处理多个用户请求，可以在短时间内处理大量的请求，为用户提供快速而高效的响应。
是基于预训练的模型，并使用大量的数据进行训练，因此其学习到的知识是通用的，可以适用于不同的业务场景。此外，还进行了严格的指标监测和数据收集，以确保ChatGPT提供一致且可重复的响应质量。

2. 数字人

是一种使用计算机生成的图像、声音和方法来模拟人类交互的系统。

其特点和优势如下：

逼真的表现力：虚拟数字人采用高级计算机图形学技术，其外观和声音都可以被设计得与真实人类非常相似。虚拟数字人能够模拟真实人类情感，语言和动作，无论是在视听上还是在交互上，都能产生高度逼真的效果。
可定制性强：由于使用计算机生成的系统，虚拟数字人可以在控制台上轻松进行定制和编辑，包括其外观、声音、交互方式和应用场景等。因此，用户可以为其特定的应用领域和客户而定制虚拟数字人方案，从而提高交互的效率和满足需求的多样性。
成本低廉：与雇用真实人类的费用相比，虚拟数字人的成本更低廉，而且它们可以在全天候和全年范围内运行，不受固定的时间和地点限制，从而为企业节省了大量的成本，并且能够提供更高效的客户服务。
扩展性：通过设计和定制虚拟数字人的语义和交互方式，可以扩展虚拟数字人的功能和应用领域。例如，虚拟数字人可以作为客户服务，智能家居，娱乐等领域的智能助手，实现与人类的高效互动和交流。
支持多语言和跨文化交互：虚拟数字人的声音可以通过技术手段实现多语种，并且设计技术也能考虑到文化差异。这使得虚拟数字人能够成为全球商业和社交交互中的全球级参与者。

3. PRA-机器人流程自动化（Robotic process automation）

以软件机器人及人工智能（AI）为基础的业务过程自动化应用程序，通过模仿最终用户在电脑的手动操作方式，提供了另一种方式来使最终用户手动操作流程自动化。

使符合某些适用性标准的基于桌面的业务流程和工作流程实现自动化，自动化工具（如屏幕抓取工具、Excel宏、业务流程自动化管理等），一般来说这些操作在很大程度上是重复的，数量比较多的，并且可以通过严格的规则和结果来定义。

一、类似【智能助手】产品设计举例

初步设想的业务逻辑如下：

以【给XX邮箱或者手机号码发送内容】为例（如下为业务流程说明）：

用户可以通过语音或者文本输入一些问题或指令；
这些内容会被发送到chatgpt服务API中获取答案；
在获取答案之后，答案文本会被调用TTS服务的能力进行语音合成；
数字人会获取到TTS合成的文本内容，并在客户端进行语音播报；
然后TTS会将相关指令通过RPA同步给邮件服务/短信服务；
RPA收到指令后会按照指令去做相应的操作，并将结果返回给客户端；
客户端获取操作结果后，将结果转化为文本输出给TTS；
TTS同步给数字人；
在客户端进行语音播报告知用户结果；

目前网上已经有相关同学做了一个视频，初步可以看出其效果，如下：

1）对接语音输入模块，支持语音输入与文本输入：

2）基于chatgpt进行回复

3）发起业务同步，相关发送到手机端：

4）完成业务需求的交互

看到这，是不是发现其实想要实现搭建一个“贾维斯”好像已经是可以触摸到的了。

二、基于以上的运用思路，再发散一下

以PRA多对接一些应用的情况下，或者对接一些专有的NLP等其他应用，在很多实现落地方面是不是可以有更多的想象空间：

1. 针对个人用户的助理类产品

可以根据用户需求和习惯，提供更为智能、个性化与专业的服务。借助一系列的高效工具,能够帮助人们更好地管理自己的生活并且让生活变得更加美好和方便。

私人超级管家：

目前很多家庭的家电等设备都是智能化的，那么就可以通过语音交互帮助用户完成很多基础的事务，例如调节房间温度、打开窗户、查找信息，或者发起一次语音通话等。

举个具象一点的例子：比如在夏天时，室外气温很高，当你工作了一天准备下班回家，这个时候，他就出现在手机上来咨询你，是否需要帮你提前开启汽车的空调，并调整到多少的车内温度，在开车回家前，基于是否在外面进行吃饭以及是否有其他行程安排，规划好最合适的路线，并在车内设定好导航。另外，在解答一些疑问和提供如搜索特定内容、听取音乐、收听新闻等，也能是一个合格的智能管家。

通过最初的系统设定，以及对用户的日常行为进行分析和学习，能自动帮服务对象规划日程，包括会议安排、旅行计划等等，并提醒用户收看日程变更等此类服务。

文案专员到视频剪辑再到生成视频：

基于ChatGPT本身文案生成的能力，在确定完内容的核心主题后，先生成文案的核心框架，再通过框架的提纲，生成框架下的集体内容，不仅可以直接从无到有，也可以是在一定内容的基础上在进行润色有优化。在通过指令的形式，将生成好的文案直接导入到类似剪映此类可以通过文案直接生成视频的软件中，从而实现从大纲-文章输出-视频制作-发布自动化流水线的快速生成。

当然，按照目前当前的生成文案也好，需要基于很好的角色设定、基础内容输入，ChatGPT类才会有高质量的产出。另外自动生成的视频也需要二次加工才能真正做到一个看起来比较连贯并且能表达清楚基本思路的一个视频。

数据分析专家：

全天候的待机与支持情况下，帮助用户更方便地分析相关的数据和统计，比如家庭财务预算、运动指标计算、睡眠监测等。以帮助用户制定家庭财务预算举例：

首先，可以为用户提供一个移动应用程序，让他们输入他们的日常开销和收入，例如购物、房租、电话账单和工资。在这种情况下，再根据这些数据执行以下操作：

通过自学习的算法对数据进行分类和处理，例如自动识别不同种类的支出和收入，同时去除重复或无效的数据。
针对用户家庭预算的需要，自动分析该用户的数据，例如分析每个月的开销、品类占比，以及列出预算中的可支配收入。
帮助用户识别一些有利的模式，例如指出某些支出的比例过高，或者某些开销具有明显的周期性变化，并作为指标项进行标记。
如果需要更好的视觉显示效果，也可以通过数据可视化工具，将数据呈现出来，例如把收入和支出用图表或饼状图呈现，让用户容易看懂。
最后在基于以上的收支情况，进而制定出更合理和灵活的财务预算计划以及建议。

将人工智能系统应用于金融行业，可以帮助企业和个体投资者更精准的进行投资与风险控制、监测市场走势，提高相关业务线的效率以及为客户提供更便捷的服务。

风控方面：

假设有一个银行正在使用类似chatgpt这类大模型来提高其风险管理能力。可以从多个数据源中收集信息，例如客户开户信息、信用评估数据、交易历史记录、市场数据等。再可以对这些数据进行分析，并根据自身的算法自主处理和提取重要信息。

在风险管理方面，就可以帮助银行完成以下任务：

评估潜在风险：可以快速分析和处理大量数据，以识别和评估潜在的风险，例如个人或企业的财务困境，交易异常或信用卡欺诈等。这将使银行更快地发现，并通过适当的措施防止或解决潜在的风险问题。
自动化决策：可以根据预设规则和算法自动化地做出决策，例如自动拒绝不良信用记录的客户，或者自动限制某些类型的交易。这样银行客服即使在非工作时间也可以自动地解决问题，提高了客户服务效率。
非线性建模：在风险管理中非常有用，因为它们可以利用非线性建模方法，更好地应对复杂和不确定的领域。例如，新兴的业务或市场领域，因为信息不足或变化快速，可以使用大模型来进行非线性建模以预测未来趋势。

财富助手方面：

市场上原本存在的许多金融产品，包含股票债券的定价和交易受制于信息不对称的情况，基于此，【ChatGPT】+【数字人】+【PRA】等APGC能力，可以帮助财富顾问实现更高效、更准确地提供专业服务，提出更好的投资计划或优化方案，以及更好地监测市场趋势和潜在风险。

举个例子：

量身定制方案：可以针对每位客户的独特需求、背景和风险承受能力，创建个性化的投资组合方案。在考虑客户收入、年龄、婚姻状况、风险投资偏好等因素后，大模型可以自动创建出投资方案，以确保客户收益最大化。
动态优化：可以通过数据分析来识别市场机会和潜在风险，对客户的投资组合进行动态优化调整，分析大量的市场数据并预测未来市场动向，让投资者能更好地制定投资策略和风险控制策略。实时监控国际货币、利率等经济数据，对企业财务、投资组合等进行跟踪和监测并给出实时提示和预警，从而帮助企业决策者及时调整策略。例如，如果市场出现某些风险，可以及时调整该客户的股票组合并增加投资基金和货币市场基金的分配。
高效交易：可以利用机器学习和自然语言处理技术来预测市场趋势和交易机会，根据收集到的数据预测行情，以便帮助财富顾问更快速地做出决策。例如，大型模型可以分析历史数据、市场新闻或公司报告，并预测某些股票的未来表现，财富顾问可以据此来做出决策。
风险控制：可以通过持续的风险管理来控制客户的风险水平。通过跟踪客户投资组合中的资产分配、固定收益证券、股票与股票总市值之比、持仓期限以及其他指标等，模型可以确定潜在风险并提出建议，以便财富顾问与客户共同控制风险。

智能客服：

如同上文中，类似【智能助手】产品，银行行业可以提供24小时全天候智能服务，基于已有的NLP或者知识库效用，对金融知识的专业讲解、基础客户服务、理财产品的智能推荐回复等，可以实现步骤流程的规范化以及标准哈。

自动化问题解答：可以利用自然语言处理和机器学习技术来学习客户请求的语言以及常见的问题，它们通过分析大量的数据来识别常见问题的关键字、句式等，训练出智能客服机器人来自动解答客户的问题，减少需要人工干预的量，提高客户服务的效率。
提供超预期体验：智能客服机器人可以利用大型模型技术，自学习人类学习到的经验，并将在相近情境下所学到的知识应用于更复杂的情况。例如，客户询问交易信息，大型模型可以帮助智能客服机器人了解该客户的交易和需求信息，提高客户体验。
利用数据优化服务：可以利用自己分析大量数据的能力，从客户历史数据中发现不同级别的服务需求。例如，如果客户询问较基础的问题，那么智能客服机器人可以通过自学习来为客户提供更细致的答案，而非仅仅给出基础的答案。
数字人的形象可以以更加生动的形象吸引客户的注意，同时也可以利用颜色和音乐等元素，呈现出更加详细、更有说服力的解释，帮助客户更好地理解一些复杂的金融概念和标准。