Yann LeCun:ViT慢且效率低,实时图像处理还得看卷积

Yann LeCun:ViT慢且效率低,实时图像处理还得看卷积

AIGC动态欢迎阅读

原标题:Yann LeCun:ViT慢且效率低,实时图像处理还得看卷积
关键字:卷积,人工智能,步幅,注意力,标杆
文章来源:机器之心
内容字数:0字

内容摘要:


机器之心报道
编辑:泽南、杜伟用卷积能做出一样好的效果。在 Transformer 大一统的时代,计算机视觉的 CNN 方向还有研究的必要吗?
今年年初,OpenAI 视频大模型 Sora 带火了 Vision Transformer(ViT)架构。此后,关于 ViT 与传统卷积神经网络(CNN)谁更厉害的争论就没有断过。
近日,一直在社交媒体上活跃的图灵奖得主、Meta 首席科学家 Yann LeCun 也加入了 ViT 与 CNN 之争的讨论。这件事的起因是 Comma.ai 的 CTO Harald Schäfer 在展示自家最新研究。他(像最近很多 AI 学者一样)cue 了 Yann LeCun 表示,虽然图灵奖大佬认为纯 ViT 并不实用,但我们最近把自己的压缩器改成了纯 ViT,没有卷积,需要更长时间的训练,但是效果非常不错。比如左图,被压缩到了只有 224 字节,右边是原始图像。
只有 14×128,这对自动驾驶用的世界模型来说作用很大,意味着可以输入大量数据用于训练。在虚拟环境中训练相比真实环境成本更低,在这里 Agent 需要根据策略进行训练才能正常工作。虽然训练更


原文链接:Yann LeCun:ViT慢且效率低,实时图像处理还得看卷积

联系作者

文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...