声网闭门研讨会 | 探讨 AIGC 行业应用与创新场景方向

0 评论 7127 浏览 6 收藏 10 分钟

AI 技术的蓬勃发展,为各行各业的内容生产方式揭开了新的篇章,不管是文本领域还是音视频领域,AIGC 的加入,无疑为这些领域开拓了更具创意、更具可能性的探索空间。

AI 技术热潮的到来既带来了机遇,也为业内人士带来了更多挑战。在这样的背景下,9月9日~10日,「人人都是产品经理」联合「腾讯大讲堂」于北京举办了产品经理大会,聚焦于“AI、数字化转型、业务增长”,共同探讨 AIGC 的商业化可能与落地实践。

其中在9日晚上,「人人都是产品经理」还联合「声网」联合举办了一场闭门研讨会,声网 AIGC 产品负责人杜浦带来了“AIGC 加持下,APP 体验场景创新哪些玩法值得期待”的主题演讲,并分享了声网在实时互动+AIGC 探索上的最新成果。

现场回顾

AI 技术促进了各行业内容生产方式的革新,比如文字生成、代码辅助开发、图片绘制、视频处理等。在闭门会上,声网分享嘉宾杜浦主要围绕 AIGC 与音视频的结合应用进行探讨。

AIGC 的音视频应用场景有许多,比如数字人虚拟主播、AI 虚拟恋人等。而这个过程里,产品体验的需求 GAP 亟待满足:

  1. 文本互动效果差:不擅长语⾳处理,只能实现⽂本互动,⽆法提供实时语⾳、视频互动;AI 交互的响应延迟较⾼,⽤户体验差;
  2. 场景开发上线难:缺少 AIGC 所需的开发经验和能⼒储备,期望能够接⼊整体解决⽅案;⽆暇进⾏场景调研和玩法设计,应⽤可玩性不⾜,需要快速上线参考;
  3. 语音合成效果差:⽤户的语⾳识别(STT)不够准确,AI 语⾳合成效果(TTS)过于机械不够真实,⽤户体验差;
  4. AI 模型训练难:应⽤设计的场景对 AI 模型的prompt 调优训练要求较⾼,整体场景流畅运⾏的实现难度较⼤。

面对这些问题,声网提出了 AIGC 一站式音视频解决方案,这一方案拥有三大核心优势:

音视频互动更具沉浸感:相比传统的通过 IM 文字聊天与 AI 角色实现交互的方案,声网提供的实时音视频 + 实时消息 + 虚拟形象方案能够带来更真实自然的互动体验,更好地表达情感和传达用户的个性化意图。同时,实时音视频互动相比输入文字,操作更加便捷,且能够与其它多模态互动方式结合,进一步提升用户体验。

响应延时低至1.9秒内:声网作为实时互动云服务的开创者,在音视频领域积累了深厚的技术优势,针对目前市面上大多数 AI 生成式对话响应慢的问题,声网的研发团队对 AIGC 场景下音视频互动的延时做了很多技术优化,可以将对话响应延时控制在 1.9 秒内,也就意味着当用户对 AI 角色语音提问结束后,到AI 开始说话的时间间隔,声网可以做到 1.9 秒以内,相比市场上绝大部分 AI 互动延迟在 6-7s 的方案要低很多。

易开发,3h 快速上线场景:在场景开发层面,有些企业缺少 AIGC 所需的开发经验和能力储备,期望能够接入整体解决方案,对此声网提供封装完整的 SDK,包含实时音视频、实时消息、语音转文字(STT)/文字转语音(TTS)、语音驱动虚拟人嘴型等多种能力,并支持 API 快速调用,提供开箱即用的场景化 Demo,最快 3h即可实现方案快速验证。尤其对于想快速验证新场景的企业与开发者而言,可以节省很多开发时间。

再进一步拆解,声网 AIGC 解决方案的一站式产品能力还包括这些能力:

模型能力:大语言模型是整个 AIGC 解决方案最核心的部分,在大模型能力方面,声网也跟很多热门的国内外大模型进行了合作,根据业务场景集成测试了多个大模型的能力,以及支持开源大模型的私有化部署和模型 Fine-tune,支持企业根据自身需求进行灵活切换。

声网会根据客户的场景选择合适的大模型,根据不同的场景做特定的模型数据库和 Prompt,同时结合声网 RTC 的低延时特性,让用户交互延迟达到最优,模型输出更符合真实场景。此外,声网在开源大模型层面也有在尝试做私有化部署,以满足部分企业对数据安全及网络的要求。

语音能力:声网凭借在音频处理领域的经验,对语言转文字(STT)+文字转语音(TTS) 模型精细化调优,实现人声分离,断句优化,让整个语言体验更加流畅。此外,声网还支持AI 实时变声、定制化声音克隆,让声音听起来更具真实感。例如定制化声音克隆可以复刻现实中学生老师的声音,学生在下课后可以更加真实地与老师的虚拟形象进行语音互动。

场景人设定制:声网在1V1语音聊天等场景还对 AI 角色进行了人设定制,通过 Prompt 的方式设置 AI 角色的名字、职业、性格等丰富的人设属性并支持定制形象与声音。在场景玩法层面,声网也尝试了多人语音场景的验证,例如在谁是卧底、狼人杀等多人游戏的场景中,AI 可以作为一个玩家参与到游戏中,真正的与用户一起玩游戏。

交互体验升级:围绕语音大模型的交互体验,声网也做了一些尝试,例如长期对话记忆,在一些对话场景中,用户在进行多轮文字互动后,有可能大模型记不住用户之前说的内容,影响对话体验。对此,声网通过实现多轮对话记忆,可以更好的应用在 AI 情感陪聊、智能办公助手等场景。对于需要 AI 精准回答特定行业知识、企业专业知识、多维度知识的客户,声网 AIGC 方案支持公域、私域 Vector DB 接入的能力,可以解决各种类型的数据分析和相关任务,特别是那些涉及到高维向量数据的应用场景。比如近似搜索、推荐系统、图像识别、语音识别、时许分析、社交网络分析、图像/视频和文本的关联等。

在杜浦的分享结束后,参会者根据分享内容和自身的业务背景进行互动问答,并随后就“AIGC 行业应用分享与创新场景方向探讨”这一话题开启了分组研讨与小组间的内容分享。

此外,部分与会者还在现场体验了声网 AIGC 一站式解决方案的 demo 样本,加深了对 AIGC 场景应用的理解。

结语

AI 技术的蓬勃发展,为各行各业的内容生产方式揭开了新的篇章,不管是文本领域还是音视频领域,AIGC 的加入,无疑为这些领域开拓了更具创意、更具可能性的探索空间。

所以,如果你想了解 AIGC 的创新场景方向、了解 AIGC 可以如何与音视频等领域结合应用,或者想咨询声网 AIGC 一站式音视频解决方案,用 AI 技术碰撞出新的业务火花,欢迎前往「声网」公众号留言咨询。

无论是技术支持、落地应用还是整合方案,声网都能为您提供全方位的解答。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!