智能体如何像人类一样“观看”视频:颠覆传统的全新体验!

视频问答功能很强,还是开源的。

智能体如何像人类一样“观看”视频:颠覆传统的全新体验!

原标题:如今的智能体,已经像人一样「浏览」视频了,国内就有
文章来源:机器之心
内容字数:3482字

AI 在视频内容理解中的应用

在观看紧张刺激的电影或比赛时,观众常常会产生诸如“那句话在哪一集说的?”或“错过的进球是什么?”等问题。传统的人力搜索方式效率低下,而 AI 技术的发展为解决这一问题提供了新的可能性。英伟达最新发布的 NVIDIA AI Blueprint 和开源项目 OmAgent 就是为此而生的工具。

1. NVIDIA AI Blueprint 的功能

NVIDIA AI Blueprint 是一种预训练的、可自定义的 AI 工作流,旨在帮助开发者构建和部署生成式 AI 应用程序。用户可以选择视频片段进行内容问答,Blueprint 能够回答关于事件发生时间和对象状态的问题。例如,当询问“工人在什么时候掉落了箱子”时,Blueprint 可以提供准确的时间区间。然而,关于细节问题,如“谁捡起了掉在地上的箱子”,Blueprint 则可能给出错误答案。此外,目前 Blueprint 仍处于早期申请使用阶段,存在流量限制和使用不便的问题。

2. OmAgent 的优势

在寻找替代方案的过程中,开发者发现了 OmAgent 这一开源智能体框架。OmAgent 支持多模态智能体系统的快速开发,能够与各种智能设备(如智能手机、智能穿戴设备和机器人)兼容。它的设计架构基于图的工作流编排,支持复杂的逻辑操作,并且提供音、视、图、文等多种模态数据的处理能力。

3. OmAgent 的实际应用

OmAgent 通过简单配置即可在本地环境中运行,用户可以使用它对视频进行分析和问答。在对大火剧集《双城之战》的测试中,OmAgent 能够准确回答角色之间的争执和情节发展等复杂问题,展现了其强大的视频理解能力。此外,OmAgent 还可直接应用于硬件设备,比如提供穿衣搭配推荐的智能体,通过与用户的多轮沟通给予个性化建议。

总结

AI 技术的进步正在改变我们与视频内容的互动方式,NVIDIA AI Blueprint 和 OmAgent 为开发者提供了强大的工具,满足了日益增长的视频内容理解需求。随着这些技术的普及,未来人们将能够更轻松地获取和理解视频信息。


联系作者

文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...