标签:视觉

美团 AI 平台视觉中心负责人魏晓林离职

作者丨赖文昕 编辑丨陈彩娴雷峰网AI科技评论独家获悉:现任美团AI平台视觉中心负责人魏晓林将离职,结束长达4年6个月的美团生涯。目前,其领英个人认证尚未做...
阅读原文

独家 | 美团 AI 平台视觉中心负责人魏晓林离职

美团 AI 视觉一号位魏晓林离开,谁能接过下一棒?作者丨赖文昕 编辑丨陈彩娴 雷峰网AI科技评论独家获悉:现任美团AI平台视觉中心负责人魏晓林将离职,结束长...
阅读原文

视觉Mamba来了:速度提升2.8倍,内存能省87%

机器之心报道 编辑:陈萍、泽南Vision Mamba 不是个普通模型。号称「全面包围 Transformer」的 Mamba,推出不到两个月就有了高性能的视觉版。 本周四,来自华...
阅读原文

马毅LeCun谢赛宁曝出多模态LLM重大缺陷!开创性研究显著增强视觉理解能力

新智元报道编辑:润 好困 【新智元导读】来自纽约大学和UC伯克利的研究团队成功捕捉到了多模态大模型在视觉理解方面存在的重大缺陷。针对这个问题,他们进一...
阅读原文

LMDrive: 大语言模型加持的闭环端到端自动驾驶框架

直播预告 | 1月22日晚7点,「自动驾驶新青年讲座」第35讲正式开讲,LMDrive一作、香港中文大学MMLab在读博士邵昊将主讲《LMDrive:大语言模型加持的闭环端到...
阅读原文

机器人领域首个开源视觉-语言操作大模型,RoboFlamingo框架激发开源VLMs更大潜能

机器之心专栏 机器之心编辑部还在苦苦寻找开源的机器人大模型?试试RoboFlamingo! 近年来,大模型的研究正在加速推进,它逐渐在各类任务上展现出多模态的理...
阅读原文

扩散模型图像理解力刷新SOTA!字节复旦团队提出全新「元提示」策略

新智元报道编辑:好困 桃子 【新智元导读】过去一年扩散模型风头正劲,彻底改变了文生图领域!那么,扩散模型能否处理视觉感知任务?字节跳动和复旦大学技术...
阅读原文

港中文在读博士李彦玮:LLaMA-VID: 专注于长视频理解的视觉语言大模型

1月17日晚7点,智猩猩推出「多模态大模型线上闭门会」。本次闭门会由阿里巴巴通义实验室 NLP 高级算法专家严明参与出品,并聚焦于大语言模型工具调用 Control...
阅读原文

视频场景图生成任务新SOTA!中山大学提出全新时空知识嵌入框架,登顶刊TIP'24

新智元报道编辑:LRS 好困 【新智元导读】STKET框架将先验时空知识纳入多头交叉注意机制中,从而可以学习到更多有代表性的视觉关系表示,在视频图生成基准上...
阅读原文

阿里通义实验室高级算法工程师文束:mPLUG-DocOwl:多模态文档理解大模型

1月17日晚7点,智猩猩推出「多模态大模型线上闭门会」。本次闭门会由阿里巴巴通义实验室 NLP 高级算法专家严明参与出品,并聚焦于大语言模型工具调用 Control...
阅读原文

多模态大模型线上闭门会:通义实验室/港中文/港科大三位学者主讲ControlLLM、LLaMA-VID和mPLUG-DocOwl

智猩猩,由智东西公开课升级而来,定位硬科技讲解与服务平台,提供讲座、线上闭门会、公开课、在线研讨会、峰会等线上线下产品。 「线上闭门会」由智猩猩全新...
阅读原文

AI解读视频张口就来?这种「幻觉」难题Vista-LLaMA给解决了

机器之心专栏 机器之心编辑部Vista-LLaMA 在处理长视频内容方面的显著优势,为视频分析领域带来了新的解决框架。近年来,大型语言模型如 GPT、GLM 和 LLaMA ...
阅读原文

一句话精准视频片段定位!清华新方法拿下SOTA|已开源

陈厚伦 投稿量子位 | 公众号 QbitAI只需一句话描述,就能在一大段视频中定位到对应片段! 比如描述“一个人一边下楼梯一边喝水”,通过视频画面和脚步声的匹配...
阅读原文

GPT-4V开源平替!清华浙大领衔,LLaVA、CogAgent等开源视觉模型大爆发

新智元报道编辑:Aeneas 【新智元导读】GPT-4V的开源替代方案来了!极低成本,性能却类似,清华、浙大等中国顶尖学府,为我们提供了性能优异的GPT-4V开源平替...
阅读原文

骁龙888实时运行,美团、浙大等打造全流程移动端多模态大模型MobileVLM

机器之心报道 机器之心编辑部大模型涌向移动端的浪潮愈演愈烈,终于有人把多模态大模型也搬到了移动端上。近日,美团、浙大等推出了能够在移动端部署的多模态...
阅读原文
1111213141519