标签:视觉
多模态大模型,阿里通义千问能和GPT-4V掰手腕了
机器之心报道 编辑:泽南、蛋酱通义千问的图像推理能力,最近有了大幅提升。 2024 年,大模型领域要卷什么? 如果没有思路的话,不妨看看各家大厂都在押注什...
寒武纪与智象未来达成战略合作并完成大模型适配
寒武纪与智象未来签约仪式现场;左起:智象未来联合创始人、COO王科;智象未来创始人、CEO梅涛;寒武纪创始人、CEO陈天石;寒武纪联合创始人、执行总裁王在 ...
麻省理工研究表明AI不会像预期那样抢走那么多工作
点击上方蓝字关注我们“麻省理工学院的研究揭示,虽然人工智能在各行业快速发展,但其在成本效益上替代大多数工作的可行性尚不明确。通过深入研究计算机视觉领...
视觉Mamba模型的Swin时刻,中国科学院、华为等推出VMamba
机器之心专栏 机器之心编辑部Transformer 在大模型领域的地位可谓是难以撼动。不过,这个AI 大模型的主流架构在模型规模的扩展和需要处理的序列变长后,局限...
GPT-4V惨败!CV大神谢赛宁新作:V*重磅「视觉搜索」算法让LLM理解力逼近人类
新智元报道编辑:桃子 【新智元导读】多模态大模型GPT-4V也会「有眼无珠」。UC San Diego纽约大学研究人员提出全新V*视觉搜索算法逆转LLM弱视觉宿命。Sam Alt...
美团 AI 平台视觉中心负责人魏晓林离职
作者丨赖文昕 编辑丨陈彩娴雷峰网AI科技评论独家获悉:现任美团AI平台视觉中心负责人魏晓林将离职,结束长达4年6个月的美团生涯。目前,其领英个人认证尚未做...
独家 | 美团 AI 平台视觉中心负责人魏晓林离职
美团 AI 视觉一号位魏晓林离开,谁能接过下一棒?作者丨赖文昕 编辑丨陈彩娴 雷峰网AI科技评论独家获悉:现任美团AI平台视觉中心负责人魏晓林将离职,结束长...
视觉Mamba来了:速度提升2.8倍,内存能省87%
机器之心报道 编辑:陈萍、泽南Vision Mamba 不是个普通模型。号称「全面包围 Transformer」的 Mamba,推出不到两个月就有了高性能的视觉版。 本周四,来自华...
马毅LeCun谢赛宁曝出多模态LLM重大缺陷!开创性研究显著增强视觉理解能力
新智元报道编辑:润 好困 【新智元导读】来自纽约大学和UC伯克利的研究团队成功捕捉到了多模态大模型在视觉理解方面存在的重大缺陷。针对这个问题,他们进一...
LMDrive: 大语言模型加持的闭环端到端自动驾驶框架
直播预告 | 1月22日晚7点,「自动驾驶新青年讲座」第35讲正式开讲,LMDrive一作、香港中文大学MMLab在读博士邵昊将主讲《LMDrive:大语言模型加持的闭环端到...
机器人领域首个开源视觉-语言操作大模型,RoboFlamingo框架激发开源VLMs更大潜能
机器之心专栏 机器之心编辑部还在苦苦寻找开源的机器人大模型?试试RoboFlamingo! 近年来,大模型的研究正在加速推进,它逐渐在各类任务上展现出多模态的理...
扩散模型图像理解力刷新SOTA!字节复旦团队提出全新「元提示」策略
新智元报道编辑:好困 桃子 【新智元导读】过去一年扩散模型风头正劲,彻底改变了文生图领域!那么,扩散模型能否处理视觉感知任务?字节跳动和复旦大学技术...
港中文在读博士李彦玮:LLaMA-VID: 专注于长视频理解的视觉语言大模型
1月17日晚7点,智猩猩推出「多模态大模型线上闭门会」。本次闭门会由阿里巴巴通义实验室 NLP 高级算法专家严明参与出品,并聚焦于大语言模型工具调用 Control...
视频场景图生成任务新SOTA!中山大学提出全新时空知识嵌入框架,登顶刊TIP'24
新智元报道编辑:LRS 好困 【新智元导读】STKET框架将先验时空知识纳入多头交叉注意机制中,从而可以学习到更多有代表性的视觉关系表示,在视频图生成基准上...
阿里通义实验室高级算法工程师文束:mPLUG-DocOwl:多模态文档理解大模型
1月17日晚7点,智猩猩推出「多模态大模型线上闭门会」。本次闭门会由阿里巴巴通义实验室 NLP 高级算法专家严明参与出品,并聚焦于大语言模型工具调用 Control...