标签:视觉

高级人工智能能否解决视觉难题并进行抽象推理?

人工智能已经学会了掌握语言、创作艺术,甚至在国际象棋比赛中击败了大师。但它能破解抽象推理的密码吗?这些让人类困惑的棘手视觉谜题?研究人员正在测试人...
阅读原文

ICML’24研讨会杰出论文奖!清华AIR&商汤研究院提出全新的具身多模态表征预训练方法 | 讲座预告

近年来,以谷歌RT系列为代表的视觉-语言-控制模型(VLCM,Vision-Language-Control Model)受到广泛关注。VLCM 智能体可以通过视觉理解环境,并执行人类语言...
阅读原文

扩散模型训练方法一直错了!谢赛宁:Representation matters

机器之心报道 编辑:Panda、小舟Representation matters. Representation matters. Representation matters.是什么让纽约大学著名研究者谢赛宁三连呼喊「Repr...
阅读原文

ECCV 2024 | 像ChatGPT一样,聊聊天就能实现三维场景编辑

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

为何马斯克的“盲视”不可能超越肉眼?

大数据文摘授权转载自追问nextquestion 我常想,假如上帝给我三天光明,我最想看什么呢?或者我将怎样享受这份幸福呢?当我这样想的时候,也请你想一下吧。请...
阅读原文

OpenAI 开发者大会!实时语音功能有API了,GPT-4o支持多模态微调,上下文cache功能上线

夕小瑶科技说 原创作者 | 付奶茶家人们!十一假期第1天, OpenAI一年一度的开发者大会又来了惹!今年的开发者大会分成三部分分别在美国、英国、新加坡三个地...
阅读原文

奥特曼:自认比o1聪明请举手🤚到o2还这么想么🤨?|OpenAI开发者日

梦晨 发自 凹非寺量子位 | 公众号 QbitAI奥特曼:认为自己比o1更聪明的请举手。(台下一些人举手)奥特曼:到了o2你们还会这么想么?(汗流浃背了) 这一幕,...
阅读原文

从数据增强的隐藏作用出发,揭示视觉强化学习可塑性损失的独特机制

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

长短大小样样精通!原始分辨率、超长视频输入:更灵活的全开源多模态架构Oryx

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

从BLIP-2到Qwen2-VL,多模态大模型的技术点总结

开讲预约导读原文来自知乎,作者为jewellery,标题为《多模态大模型技术点总结》。作者对BLIP-2、InstructBLIP、LLaVA、LLaVA-1.5、MiniGPT-4、MiniGPT-v2、Q...
阅读原文

詹姆斯·卡梅隆:那位彻底改变电影的导演,如何用 AI 续写传奇?

点击上方蓝字关注我们“著名导演詹姆斯·卡梅隆将加入人工智能公司Stability AI的董事会,助力该公司在生成AI与视觉特效结合的前沿探索。这一合作引发了好莱坞...
阅读原文

英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升

新智元报道编辑:LRS 【新智元导读】NVLM 1.0系列多模态大型语言模型在视觉语言任务上达到了与GPT-4o和其他开源模型相媲美的水平,其在纯文本性能甚至超过了L...
阅读原文

新SOTA来了:国产9B模型多项得分超4o-mini,中国出海电商已经用上了

茕茕 发自 凹非寺量子位 | 公众号 QbitAI阿里开源,又拿第一了。 这次是在多模态领域: 就在刚刚,阿里国际AI团队开源多模态大模型Ovis1.6。在多模态权威综合...
阅读原文

MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答

新智元报道编辑:LRS 【新智元导读】MMMU-Pro通过三步构建过程(筛选问题、增加候选选项、引入纯视觉输入设置)更严格地评估模型的多模态理解能力;模型在新...
阅读原文

阿里8B模型拿下多页文档理解新SOTA,324个视觉token表示一页,缩减80%

mPLUG团队 投稿量子位 | 公众号 QbitAI高效多页文档理解,阿里通义实验室mPLUG团队拿下新SOTA。 最新多模态大模型mPLUG-DocOwl 2,仅以324个视觉token表示单...
阅读原文
1234520