声网闭门研讨会 | 探讨 AIGC 行业应用与创新场景方向

0 评论 7201 浏览 6 收藏 10 分钟
🔗 产品经理的不可取代的价值是能够准确发现和满足用户需求,把需求转化为产品,并协调资源推动产品落地,创造商业价值。

AI 技术的蓬勃发展,为各行各业的内容生产方式揭开了新的篇章,不管是文本领域还是音视频领域,AIGC 的加入,无疑为这些领域开拓了更具创意、更具可能性的探索空间。

AI 技术热潮的到来既带来了机遇,也为业内人士带来了更多挑战。在这样的背景下,9月9日~10日,「人人都是产品经理」联合「腾讯大讲堂」于北京举办了产品经理大会,聚焦于“AI、数字化转型、业务增长”,共同探讨 AIGC 的商业化可能与落地实践。

其中在9日晚上,「人人都是产品经理」还联合「声网」联合举办了一场闭门研讨会,声网 AIGC 产品负责人杜浦带来了“AIGC 加持下,APP 体验场景创新哪些玩法值得期待”的主题演讲,并分享了声网在实时互动+AIGC 探索上的最新成果。

现场回顾

AI 技术促进了各行业内容生产方式的革新,比如文字生成、代码辅助开发、图片绘制、视频处理等。在闭门会上,声网分享嘉宾杜浦主要围绕 AIGC 与音视频的结合应用进行探讨。

AIGC 的音视频应用场景有许多,比如数字人虚拟主播、AI 虚拟恋人等。而这个过程里,产品体验的需求 GAP 亟待满足:

  1. 文本互动效果差:不擅长语⾳处理,只能实现⽂本互动,⽆法提供实时语⾳、视频互动;AI 交互的响应延迟较⾼,⽤户体验差;
  2. 场景开发上线难:缺少 AIGC 所需的开发经验和能⼒储备,期望能够接⼊整体解决⽅案;⽆暇进⾏场景调研和玩法设计,应⽤可玩性不⾜,需要快速上线参考;
  3. 语音合成效果差:⽤户的语⾳识别(STT)不够准确,AI 语⾳合成效果(TTS)过于机械不够真实,⽤户体验差;
  4. AI 模型训练难:应⽤设计的场景对 AI 模型的prompt 调优训练要求较⾼,整体场景流畅运⾏的实现难度较⼤。

面对这些问题,声网提出了 AIGC 一站式音视频解决方案,这一方案拥有三大核心优势:

音视频互动更具沉浸感:相比传统的通过 IM 文字聊天与 AI 角色实现交互的方案,声网提供的实时音视频 + 实时消息 + 虚拟形象方案能够带来更真实自然的互动体验,更好地表达情感和传达用户的个性化意图。同时,实时音视频互动相比输入文字,操作更加便捷,且能够与其它多模态互动方式结合,进一步提升用户体验。

响应延时低至1.9秒内:声网作为实时互动云服务的开创者,在音视频领域积累了深厚的技术优势,针对目前市面上大多数 AI 生成式对话响应慢的问题,声网的研发团队对 AIGC 场景下音视频互动的延时做了很多技术优化,可以将对话响应延时控制在 1.9 秒内,也就意味着当用户对 AI 角色语音提问结束后,到AI 开始说话的时间间隔,声网可以做到 1.9 秒以内,相比市场上绝大部分 AI 互动延迟在 6-7s 的方案要低很多。

易开发,3h 快速上线场景:在场景开发层面,有些企业缺少 AIGC 所需的开发经验和能力储备,期望能够接入整体解决方案,对此声网提供封装完整的 SDK,包含实时音视频、实时消息、语音转文字(STT)/文字转语音(TTS)、语音驱动虚拟人嘴型等多种能力,并支持 API 快速调用,提供开箱即用的场景化 Demo,最快 3h即可实现方案快速验证。尤其对于想快速验证新场景的企业与开发者而言,可以节省很多开发时间。

再进一步拆解,声网 AIGC 解决方案的一站式产品能力还包括这些能力:

模型能力:大语言模型是整个 AIGC 解决方案最核心的部分,在大模型能力方面,声网也跟很多热门的国内外大模型进行了合作,根据业务场景集成测试了多个大模型的能力,以及支持开源大模型的私有化部署和模型 Fine-tune,支持企业根据自身需求进行灵活切换。

声网会根据客户的场景选择合适的大模型,根据不同的场景做特定的模型数据库和 Prompt,同时结合声网 RTC 的低延时特性,让用户交互延迟达到最优,模型输出更符合真实场景。此外,声网在开源大模型层面也有在尝试做私有化部署,以满足部分企业对数据安全及网络的要求。

语音能力:声网凭借在音频处理领域的经验,对语言转文字(STT)+文字转语音(TTS) 模型精细化调优,实现人声分离,断句优化,让整个语言体验更加流畅。此外,声网还支持AI 实时变声、定制化声音克隆,让声音听起来更具真实感。例如定制化声音克隆可以复刻现实中学生老师的声音,学生在下课后可以更加真实地与老师的虚拟形象进行语音互动。

场景人设定制:声网在1V1语音聊天等场景还对 AI 角色进行了人设定制,通过 Prompt 的方式设置 AI 角色的名字、职业、性格等丰富的人设属性并支持定制形象与声音。在场景玩法层面,声网也尝试了多人语音场景的验证,例如在谁是卧底、狼人杀等多人游戏的场景中,AI 可以作为一个玩家参与到游戏中,真正的与用户一起玩游戏。

交互体验升级:围绕语音大模型的交互体验,声网也做了一些尝试,例如长期对话记忆,在一些对话场景中,用户在进行多轮文字互动后,有可能大模型记不住用户之前说的内容,影响对话体验。对此,声网通过实现多轮对话记忆,可以更好的应用在 AI 情感陪聊、智能办公助手等场景。对于需要 AI 精准回答特定行业知识、企业专业知识、多维度知识的客户,声网 AIGC 方案支持公域、私域 Vector DB 接入的能力,可以解决各种类型的数据分析和相关任务,特别是那些涉及到高维向量数据的应用场景。比如近似搜索、推荐系统、图像识别、语音识别、时许分析、社交网络分析、图像/视频和文本的关联等。

在杜浦的分享结束后,参会者根据分享内容和自身的业务背景进行互动问答,并随后就“AIGC 行业应用分享与创新场景方向探讨”这一话题开启了分组研讨与小组间的内容分享。

此外,部分与会者还在现场体验了声网 AIGC 一站式解决方案的 demo 样本,加深了对 AIGC 场景应用的理解。

结语

AI 技术的蓬勃发展,为各行各业的内容生产方式揭开了新的篇章,不管是文本领域还是音视频领域,AIGC 的加入,无疑为这些领域开拓了更具创意、更具可能性的探索空间。

所以,如果你想了解 AIGC 的创新场景方向、了解 AIGC 可以如何与音视频等领域结合应用,或者想咨询声网 AIGC 一站式音视频解决方案,用 AI 技术碰撞出新的业务火花,欢迎前往「声网」公众号留言咨询。

无论是技术支持、落地应用还是整合方案,声网都能为您提供全方位的解答。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!
专题
64903人已学习17篇文章
每个网站或APP,发展到了一定的阶段,用户积分体系都是不可或缺的。
专题
11263人已学习12篇文章
从二维到三维空间的过渡,其交互范式也会随之从2D GUI时代转换到3D UI时代。本专题的文章分享了XR空间交互指南。
专题
80049人已学习19篇文章
当AI已然成为新的焦点和风口,产品经理该如何抓住这个风口顺势飞起?
专题
13539人已学习13篇文章
本专题的文章分享了如何打造用户“上瘾”的产品。
专题
31214人已学习16篇文章
在线教育的现状、趋势和未来。
专题
19470人已学习13篇文章
本专题分享了内容审核的设计思路。