多模态交互AI Agent应用,离不开RTC能力的支持
原标题:声网刘斌:“Her”真正落地实现离不开RTE能力的支撑|MEET 2025
文章来源:量子位
内容字数:5849字
声网:实时互动技术赋能AI Agent时代
本文总结了声网首席运营官刘斌在MEET 2025智能未来大会上关于实时互动技术(RTE)如何赋能AI Agent的演讲内容。声网作为全球最大的实时互动云服务商,其技术在AI Agent应用的落地过程中扮演着至关重要的角色。
1. 声网及其在实时互动领域的领先地位
声网于2020年在纳斯达克上市,致力于提供高质量的实时互动云服务。其平台月度音视频使用时长达700亿分钟,占据全球市场领先地位,服务涵盖泛娱乐、教育和物联网等多个领域。声网的兄弟公司Agora也是OpenAI Realtime API的合作伙伴,声网自身也与MiniMax合作开发国内首个Realtime API。
2. RTE在AI Agent应用中的关键作用
刘斌指出,多模态AI Agent应用的产品化落地,依赖于低延迟、端到端、全球任意地点、弱网环境以及各种终端下的稳定可靠的RTE能力。 他强调了两个关键因素:一是延迟,低于1.7秒的延迟才能保证自然流畅的交互体验;二是打断功能,实现主动交互是提升用户体验的关键。
3. 技术挑战与声网的解决方案
演讲中提到,将大模型与实时互动结合并非易事,OpenAI Realtime API的推出也经历了漫长的过程。这需要解决诸多技术难题,例如:在各种网络环境和终端设备上保证低延迟、高稳定性的实时音视频传输;处理各种环境噪声和网络干扰;以及优化人机交互体验,提升AI QoE(体验质量)。
声网凭借其遍布全球的SD-RTN网络、支持多种平台和终端的SDK以及多年的技术积累,能够有效应对这些挑战。其技术能够在各种复杂的网络环境下保证低延迟的实时互动,为AI Agent应用提供坚实的基础设施。
4. 声网的未来发展方向
声网正在持续优化其产品体系,例如提升Linux SDK、AI VAD(语音活动检测)能力以及AI Agent Service等,旨在成为生成式AI时代的AI基础设施的关键组成部分。 他们致力于将人机交互体验从目前的水平提升到一个新的高度,这不仅需要模型本身的改进,更需要完善的工程配套。
5. 结论
刘斌总结道,任何涉及大模型多模态实时交互的应用,都离不开RTE技术的支持。声网的技术实力和丰富的经验,使其能够为AI Agent应用的落地提供强有力的保障。 未来,声网将继续深耕RTE领域,为AI Agent应用的蓬勃发展提供更优质的服务。
联系作者
文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破