标签:视觉

从20亿数据中学习物理世界,基于Transformer的通用世界模型成功挑战视频生成

允中 发自 凹非寺量子位 | 公众号 QbitAI建立会做视频的世界模型,也能通过Transformer来实现了! 来自清华和极佳科技的研究人员联手,推出了全新的视频生成...
阅读原文

年轻人的第一个多模态大模型:1080Ti轻松运行,已开源在线可玩

Vary-toy团队 投稿量子位 | 公众号 QbitAI一款名为Vary-toy的“年轻人的第一个多模态大模型”来了! 模型大小不到2B,消费级显卡可训练,GTX1080ti 8G的老显卡...
阅读原文

中文性能反超VLM顶流GPT-4V,阿里Qwen-VL超大杯限免!看图秒写编程视觉难题一眼辨出

新智元报道编辑:编辑部 【新智元导读】多模态大模型将是AI下一个爆点。最近,通义千问VLM模型换新升级,超大杯性能堪比GPT-4V。最最重要的是,还能限时免费...
阅读原文

多模态大模型,阿里通义千问能和GPT-4V掰手腕了

机器之心报道 编辑:泽南、蛋酱通义千问的图像推理能力,最近有了大幅提升。 2024 年,大模型领域要卷什么? 如果没有思路的话,不妨看看各家大厂都在押注什...
阅读原文

寒武纪与智象未来达成战略合作并完成大模型适配

寒武纪与智象未来签约仪式现场;左起:智象未来联合创始人、COO王科;智象未来创始人、CEO梅涛;寒武纪创始人、CEO陈天石;寒武纪联合创始人、执行总裁王在 ...
阅读原文

麻省理工研究表明AI不会像预期那样抢走那么多工作

点击上方蓝字关注我们“麻省理工学院的研究揭示,虽然人工智能在各行业快速发展,但其在成本效益上替代大多数工作的可行性尚不明确。通过深入研究计算机视觉领...
阅读原文

视觉Mamba模型的Swin时刻,中国科学院、华为等推出VMamba

机器之心专栏 机器之心编辑部Transformer 在大模型领域的地位可谓是难以撼动。不过,这个AI 大模型的主流架构在模型规模的扩展和需要处理的序列变长后,局限...
阅读原文

GPT-4V惨败!CV大神谢赛宁新作:V*重磅「视觉搜索」算法让LLM理解力逼近人类

新智元报道编辑:桃子 【新智元导读】多模态大模型GPT-4V也会「有眼无珠」。UC San Diego纽约大学研究人员提出全新V*视觉搜索算法逆转LLM弱视觉宿命。Sam Alt...
阅读原文

美团 AI 平台视觉中心负责人魏晓林离职

作者丨赖文昕 编辑丨陈彩娴雷峰网AI科技评论独家获悉:现任美团AI平台视觉中心负责人魏晓林将离职,结束长达4年6个月的美团生涯。目前,其领英个人认证尚未做...
阅读原文

独家 | 美团 AI 平台视觉中心负责人魏晓林离职

美团 AI 视觉一号位魏晓林离开,谁能接过下一棒?作者丨赖文昕 编辑丨陈彩娴 雷峰网AI科技评论独家获悉:现任美团AI平台视觉中心负责人魏晓林将离职,结束长...
阅读原文

视觉Mamba来了:速度提升2.8倍,内存能省87%

机器之心报道 编辑:陈萍、泽南Vision Mamba 不是个普通模型。号称「全面包围 Transformer」的 Mamba,推出不到两个月就有了高性能的视觉版。 本周四,来自华...
阅读原文

马毅LeCun谢赛宁曝出多模态LLM重大缺陷!开创性研究显著增强视觉理解能力

新智元报道编辑:润 好困 【新智元导读】来自纽约大学和UC伯克利的研究团队成功捕捉到了多模态大模型在视觉理解方面存在的重大缺陷。针对这个问题,他们进一...
阅读原文

LMDrive: 大语言模型加持的闭环端到端自动驾驶框架

直播预告 | 1月22日晚7点,「自动驾驶新青年讲座」第35讲正式开讲,LMDrive一作、香港中文大学MMLab在读博士邵昊将主讲《LMDrive:大语言模型加持的闭环端到...
阅读原文

机器人领域首个开源视觉-语言操作大模型,RoboFlamingo框架激发开源VLMs更大潜能

机器之心专栏 机器之心编辑部还在苦苦寻找开源的机器人大模型?试试RoboFlamingo! 近年来,大模型的研究正在加速推进,它逐渐在各类任务上展现出多模态的理...
阅读原文

扩散模型图像理解力刷新SOTA!字节复旦团队提出全新「元提示」策略

新智元报道编辑:好困 桃子 【新智元导读】过去一年扩散模型风头正劲,彻底改变了文生图领域!那么,扩散模型能否处理视觉感知任务?字节跳动和复旦大学技术...
阅读原文
18910111217