声网闭门研讨会 | 探讨 AIGC 行业应用与创新场景方向

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

声网闭门研讨会 | 探讨 AIGC 行业应用与创新场景方向

人人都是产品经理

2023-09-18

0 评论 7433 浏览 6 收藏

10 分钟

AI 技术的蓬勃发展，为各行各业的内容生产方式揭开了新的篇章，不管是文本领域还是音视频领域，AIGC 的加入，无疑为这些领域开拓了更具创意、更具可能性的探索空间。

AI 技术热潮的到来既带来了机遇，也为业内人士带来了更多挑战。在这样的背景下，9月9日~10日，「人人都是产品经理」联合「腾讯大讲堂」于北京举办了产品经理大会，聚焦于“AI、数字化转型、业务增长”，共同探讨 AIGC 的商业化可能与落地实践。

其中在9日晚上，「人人都是产品经理」还联合「声网」联合举办了一场闭门研讨会，声网 AIGC 产品负责人杜浦带来了“AIGC 加持下，APP 体验场景创新哪些玩法值得期待？”的主题演讲，并分享了声网在实时互动+AIGC 探索上的最新成果。

现场回顾

AI 技术促进了各行业内容生产方式的革新，比如文字生成、代码辅助开发、图片绘制、视频处理等。在闭门会上，声网分享嘉宾杜浦主要围绕 AIGC 与音视频的结合应用进行探讨。

AIGC 的音视频应用场景有许多，比如数字人虚拟主播、AI 虚拟恋人等。而这个过程里，产品体验的需求 GAP 亟待满足：

文本互动效果差：不擅长语⾳处理，只能实现⽂本互动，⽆法提供实时语⾳、视频互动；AI 交互的响应延迟较⾼，⽤户体验差；
场景开发上线难：缺少 AIGC 所需的开发经验和能⼒储备，期望能够接⼊整体解决⽅案；⽆暇进⾏场景调研和玩法设计，应⽤可玩性不⾜，需要快速上线参考；
语音合成效果差：⽤户的语⾳识别（STT）不够准确，AI 语⾳合成效果（TTS）过于机械不够真实，⽤户体验差；
AI 模型训练难：应⽤设计的场景对 AI 模型的prompt 调优训练要求较⾼，整体场景流畅运⾏的实现难度较⼤。

面对这些问题，声网提出了 AIGC 一站式音视频解决方案，这一方案拥有三大核心优势：

音视频互动更具沉浸感：相比传统的通过 IM 文字聊天与 AI 角色实现交互的方案，声网提供的实时音视频 + 实时消息 + 虚拟形象方案能够带来更真实自然的互动体验，更好地表达情感和传达用户的个性化意图。同时，实时音视频互动相比输入文字，操作更加便捷，且能够与其它多模态互动方式结合，进一步提升用户体验。

响应延时低至1.9秒内：声网作为实时互动云服务的开创者，在音视频领域积累了深厚的技术优势，针对目前市面上大多数 AI 生成式对话响应慢的问题，声网的研发团队对 AIGC 场景下音视频互动的延时做了很多技术优化，可以将对话响应延时控制在 1.9 秒内，也就意味着当用户对 AI 角色语音提问结束后，到AI 开始说话的时间间隔，声网可以做到 1.9 秒以内，相比市场上绝大部分 AI 互动延迟在 6-7s 的方案要低很多。

易开发，3h 快速上线场景：在场景开发层面，有些企业缺少 AIGC 所需的开发经验和能力储备，期望能够接入整体解决方案，对此声网提供封装完整的 SDK，包含实时音视频、实时消息、语音转文字（STT）/文字转语音（TTS）、语音驱动虚拟人嘴型等多种能力，并支持 API 快速调用，提供开箱即用的场景化 Demo，最快 3h即可实现方案快速验证。尤其对于想快速验证新场景的企业与开发者而言，可以节省很多开发时间。

再进一步拆解，声网 AIGC 解决方案的一站式产品能力还包括这些能力：

模型能力：大语言模型是整个 AIGC 解决方案最核心的部分，在大模型能力方面，声网也跟很多热门的国内外大模型进行了合作，根据业务场景集成测试了多个大模型的能力，以及支持开源大模型的私有化部署和模型 Fine-tune，支持企业根据自身需求进行灵活切换。

声网会根据客户的场景选择合适的大模型，根据不同的场景做特定的模型数据库和 Prompt，同时结合声网 RTC 的低延时特性，让用户交互延迟达到最优，模型输出更符合真实场景。此外，声网在开源大模型层面也有在尝试做私有化部署，以满足部分企业对数据安全及网络的要求。

语音能力：声网凭借在音频处理领域的经验，对语言转文字（STT）+文字转语音（TTS) 模型精细化调优，实现人声分离，断句优化，让整个语言体验更加流畅。此外，声网还支持AI 实时变声、定制化声音克隆，让声音听起来更具真实感。例如定制化声音克隆可以复刻现实中学生老师的声音，学生在下课后可以更加真实地与老师的虚拟形象进行语音互动。

场景人设定制：声网在1V1语音聊天等场景还对 AI 角色进行了人设定制，通过 Prompt 的方式设置 AI 角色的名字、职业、性格等丰富的人设属性并支持定制形象与声音。在场景玩法层面，声网也尝试了多人语音场景的验证，例如在谁是卧底、狼人杀等多人游戏的场景中，AI 可以作为一个玩家参与到游戏中，真正的与用户一起玩游戏。

交互体验升级：围绕语音大模型的交互体验，声网也做了一些尝试，例如长期对话记忆，在一些对话场景中，用户在进行多轮文字互动后，有可能大模型记不住用户之前说的内容，影响对话体验。对此，声网通过实现多轮对话记忆，可以更好的应用在 AI 情感陪聊、智能办公助手等场景。对于需要 AI 精准回答特定行业知识、企业专业知识、多维度知识的客户，声网 AIGC 方案支持公域、私域 Vector DB 接入的能力，可以解决各种类型的数据分析和相关任务，特别是那些涉及到高维向量数据的应用场景。比如近似搜索、推荐系统、图像识别、语音识别、时许分析、社交网络分析、图像/视频和文本的关联等。