AIGC动态欢迎阅读
原标题:GitHub热榜第一:百万token上下文,还能生成视频,UC伯克利出品
关键字:模型,视频,文本,研究人员,窗口
文章来源:量子位
内容字数:3514字
内容摘要:
克雷西 发自 凹非寺量子位 | 公众号 QbitAI今日GitHub热榜榜首,是最新的开源世界模型。
上下文窗口长度达到了100万token,持平了谷歌同时推出的王炸Gemini 1.5,伯克利出品。
强大的模型,命名也是简单粗暴——没有任何额外点缀,直接就叫LargeWorldModel(LWM)。
LWM支持处理多模态信息,能在100万token中准确找到目标文本,还能一口气看完1小时的视频。
网友看了不禁表示,这种大海捞针般的测试,LWM能完成的如此出色,而且还开源,实在是令人印象深刻。
那么,LWM的表现到底有多强呢?
百万上下文窗口,可看1小时视频在测试过程中,研究人员用多段一个多小时的视频检验了LWM的长序列理解能力,这些视频由YouTube上不同的视频片段拼接而成。
他们将这些视频输入LWM,然后针对其中的细节进行提问,涉及的片段位于整个视频的不同位置,同时研究者还将LWM与GPT-4V等模型做了对比。
结果GPT-4V是一问一个不吱声,闭源强者Gemini Pro和开源强者Video-LLaVA都给出了错误的答案,只有LWM回答对了。
在另一段视频的测试中,其他模型都说
原文链接:GitHub热榜第一:百万token上下文,还能生成视频,UC伯克利出品
联系作者
文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...