视觉 - 第 3 页

高级人工智能能否解决视觉难题并进行抽象推理？

人工智能已经学会了掌握语言、创作艺术，甚至在国际象棋比赛中击败了大师。但它能破解抽象推理的密码吗？这些让人类困惑的棘手视觉谜题？研究人员正在测试人...

阅读原文

AIGC动态

2年前 (2024)

ICML’24研讨会杰出论文奖！清华AIR&商汤研究院提出全新的具身多模态表征预训练方法 | 讲座预告

近年来，以谷歌RT系列为代表的视觉-语言-控制模型（VLCM，Vision-Language-Control Model）受到广泛关注。VLCM 智能体可以通过视觉理解环境，并执行人类语言...

阅读原文

AIGC动态

2年前 (2024)

扩散模型训练方法一直错了！谢赛宁：Representation matters

机器之心报道编辑：Panda、小舟Representation matters. Representation matters. Representation matters.是什么让纽约大学著名研究者谢赛宁三连呼喊「Repr...

阅读原文

AIGC动态

2年前 (2024)

ECCV 2024 | 像ChatGPT一样，聊就能实现三维场景编辑

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术...

阅读原文

AIGC动态

2年前 (2024)

为何马斯克的“盲视”不可能超越肉眼？

大数据文摘授权转载自追问nextquestion 我常想，假如上帝给我三天光明，我最想看什么呢？或者我将怎样享受这份幸福呢？当我这样想的时候，也请你想一下吧。请...

阅读原文

AIGC动态

2年前 (2024)

OpenAI 开发者大会！实时语音功能有API了，GPT-4o支持多模态微调，上下文cache功能上线

夕小瑶科技说原创作者 | 付奶茶家人们！十一假期第1天， OpenAI一年一度的开发者大会又来了惹！今年的开发者大会分成三部分分别在美国、英国、新加坡三个地...

阅读原文

AIGC动态

2年前 (2024)

奥特曼：自认比o1聪明请举手?到o2还这么想么?？｜OpenAI开发者日

梦晨发自凹非寺量子位 | 公众号 QbitAI奥特曼：认为自己比o1更聪明的请举手。（台下一些人举手）奥特曼：到了o2你们还会这么想么？（汗流浃背了）这一幕，...

阅读原文

AIGC动态

2年前 (2024)

从数据增强的隐藏作用出发，揭示视觉强化学习可塑性损失的独特机制

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术...

阅读原文

AIGC动态

2年前 (2024)

长短大小样样精通！原始分辨率、超长视频输入：更灵活的全开源多模态架构Oryx

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术...

阅读原文

AIGC动态

2年前 (2024)

从BLIP-2到Qwen2-VL，多模态大模型的技术点总结

开讲预约导读原文来自知乎，作者为jewellery，标题为《多模态大模型技术点总结》。作者对BLIP-2、InstructBLIP、LLaVA、LLaVA-1.5、MiniGPT-4、MiniGPT-v2、Q...

阅读原文

AIGC动态

2年前 (2024)

詹姆斯·卡梅隆：那位彻底改变电影的导演，如何用 AI 续写传奇？

点击上方蓝字关注我们“著名导演詹姆斯·卡梅隆将加入人工智能公司Stability AI的董事会，助力该公司在生成AI与视觉特效结合的前沿探索。这一合作引发了好莱坞...

阅读原文

AIGC动态

2年前 (2024)

英伟达开源NVLM 1.0屠榜多模态！纯文本性能不降反升

新智元报道编辑：LRS 【新智元导读】NVLM 1.0系列多模态大型语言模型在视觉语言任务上达到了与GPT-4o和其他开源模型相媲美的水平，其在纯文本性能甚至超过了L...

阅读原文

AIGC动态

2年前 (2024)

新SOTA来了：国产9B模型多项得分超4o-mini，中国出海电商已经用上了

茕茕发自凹非寺量子位 | 公众号 QbitAI阿里开源，又拿第一了。这次是在多模态领域：就在刚刚，阿里国际AI团队开源多模态大模型Ovis1.6。在多模态权威综合...

阅读原文

AIGC动态

2年前 (2024)

MMMU华人团队更新Pro版！多模态基准升至史诗级难度：过滤纯文本问题、引入纯视觉问答

新智元报道编辑：LRS 【新智元导读】MMMU-Pro通过三步构建过程（筛选问题、增加候选选项、引入纯视觉输入设置）更严格地评估模型的多模态理解能力；模型在新...

阅读原文

AIGC动态

2年前 (2024)

阿里8B模型拿下多页文档理解新SOTA，324个视觉token表示一页，缩减80%

mPLUG团队投稿量子位 | 公众号 QbitAI高效多页文档理解，阿里通义实验室mPLUG团队拿下新SOTA。最新多模态大模型mPLUG-DocOwl 2，仅以324个视觉token表示单...

阅读原文

AIGC动态

2年前 (2024)

标签：视觉