标签:视觉
3D 视觉派:斯坦福具身智能人物关系图
苏昊、黄其兴、祁芮中台、卢策吾、朱玉可、王鹤、王世全、弋力、莫凯淳……他们从 3D 视觉出发,改写了机器人的故事走向。作者 | 赖文昕 陈彩娴 编辑 | 陈彩娴2...
CVPR'24 Navsim挑战赛冠军方案!NVIDIA Hydra-MDP:端到端自动驾驶规划新范式 | 公开课预告
端到端自动驾驶目前逐渐被认为是实现完全自动驾驶的最优解,受到了学术界和产业界的广泛关注。然而,最近的研究表明,近年来涌现的不少端到端自动驾驶模型,...
通义千问开源视觉语言模型 Qwen2-VL,可理解 20 分钟以上视频
整理 | 褚杏娟 2023 年 8 月,通义千问开源第一代视觉语言理解模型 Qwen-VL,成为开源社区最受欢迎的多模态模型之一。短短一年内,模型下载量突破 1000 万次...
阿里重磅开源Qwen2-VL:能理解超20分钟视频,媲美GPT-4o!
生成式AI时代最火AI芯片峰会下月来袭!9月6-7日,智猩猩发起主办的2024全球AI芯片峰会将在北京盛大举行。峰会设有开幕式、数据中心AI芯片专场、边缘/端侧AI芯...
首篇「虚拟现实+人工智能」综述!浙大、港中深等发布AI医疗最新报告
新智元报道编辑:LRST 好困 【新智元导读】本文对AI增强的VR在医疗应用中的技术细节、工作流程和下游应用进行了全面审视,并提出了一个系统性的分类方法,将...
4秒看完2小时电影!阿里发布通用多模态大模型mPLUG-Owl3 | 开源
阿里mPLUG团队 投稿量子位 | 公众号 QbitAI4秒看完2小时电影,阿里团队新成果正式亮相—— 推出通用多模态大模型mPLUG-Owl3,专门用来理解多图、长视频。 具体...
想搞懂李飞飞的创业方向?这里有一份机器人+3D的论文清单
机器之心报道 编辑:张倩80 多篇论文搞懂「机器人+3D」研究进展。前段时间,多家媒体报道称 ,著名 AI 学者、斯坦福大学教授李飞飞的创业公司 World Labs 在...
视觉如何模型统一?牛津大学Shuyang Sun博士论文《迈向统一视觉感知》全面阐述
来源:专知 来自牛津大学Shuyang (Kevin) Sun博士论文《Towards Unified Visual Perception 》值得关注!探讨统一视觉感知系统的构建。 Shuyang (Kevin) Sun ...
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
新智元报道编辑:乔杨 【新智元导读】LLM的数学推理能力缺陷得到了很多研究的关注,但最近浙大、中科院等机构的学者们提出,先进模型在视觉推理方面同样不足...
让「GPT-4V」跑在手机上,这家中国大模型公司做到了
对标 GPT-4V,面壁让实时视频理解成功“跑”在端侧。作者 | 朱可轩 编辑 | 陈彩娴 真实世界的视觉信息是流动的,而在处理流动性的视觉信息上,端侧视频理解具有...
00后CEO杨丰瑜:耶鲁博士回国创业,五个月造出首款「可量产」人形机器人|AI Pioneer
人类正在迎来人工智能领域的爆炸式更新,技术向未知拓展的每一步,几乎都引起惊人的关注度。 在人工智能边界扩张的过程中,重要赛道的技术路线创新与分歧并存...
Nature | 揭示大脑如何通过视觉和运动信号追踪目标
编辑 | Coral 排版| Asher 在神经科学领域中,“对齐”是指大脑中的神经元如何协调和匹配不同类型的信息,使我们的感觉和动作能够顺利结合。简单来说,就是大脑...
Diffusion 反馈强势助力 CLIP 秒变火眼金睛:北京智源研究院、中科院自动化所联合推出 DIVA
本文分享论文Diffusion Feedback Helps CLIP See Better,专注于通过自监督学习范式解决CLIP无法区分细粒度视觉细节的问题。 作者:王文轩(中科院自动化所-...
南京大学发布百万规模文本生成视频数据集OpenVid-1M
夕小瑶科技说 原创作者 | Zicy“巧妇难为无米之炊”,文生视频作为一个在AI中较为年轻的研究方向,由许多至关重要的问题还尚未解决,其中之一就是缺乏大规模高...
4 个月创立一家 AI 独角兽公司,这位华裔创始人到底是谁?
点击上方蓝字关注我们斯坦福大学人工智能领军人物李飞飞在短短四个月内悄然打造了一家估值十亿美元的初创企业——World Labs,加入到科技界将人工智能技术商业...