标签:视觉

GPT-4o一夜被赶超!Anthropic推出Claude 3.5,网友3分钟克隆马里奥游戏

OpenAI劲敌出手,追击GPT-4o。 编译|李水青 编辑|心缘 一夜之间,刚封神的GPT-4o被赶超了。 智东西6月21日报道,昨日晚间,Anthropic推出了新一代大模型Claud...
阅读原文

Claude 3.5 发布!性能超越GPT-4o和Claude 3 Opus!

夕小瑶科技说 原创作者 | 醒醒Claude大模型又双叒叕更新升级了!刚刚,OpenAI最强对手Anthropic官宣了Claude 3.5 系列的第一个大模型——Claude 3.5 Sonnet。 ...
阅读原文

智源独家丨谢赛宁:AI是否需要更强的视觉基础来实现理解和意义?

来源:智源社区 6 月 15 日,万众瞩目的智源大会「多模态大模型」论坛轰动举行。纽约大学助理教授谢赛宁从哲学的角度出发,针对大语言时代的视觉表征研究娓娓...
阅读原文

北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

CVPR 2024现场观察:随处可见的华人面孔和最热的三大研究领域|甲子光年

在凉爽的西雅图,屋子太小,CVPR太火。作者|苏霍伊‍ 编辑|王博 发自美国西雅图 美国当地时间6月19日,2024年IEEE国际计算机视觉与模式识别会议(CVPR)的最...
阅读原文

超1.2万人参加CVPR 2024,谷歌研究院获得最佳论文

大数据文摘授权转载自AI科技评论 作者:赖文昕、马蕊蕾 编辑:陈彩娴 北京时间今天凌晨,美国西雅图正在召开的计算机视觉盛会 CVPR 2024 正式公布了最佳论文...
阅读原文

超 1.2 万人参加 CVPR 2024,谷歌研究院获得最佳论文

视觉基础模型与文生视频成为 CVPR 2024 两大热点。作者丨赖文昕 马蕊蕾 编辑丨陈彩娴 北京时间今天凌晨,美国西雅图正在召开的计算机视觉盛会 CVPR 2024 正式...
阅读原文

商汤披露:50篇论文入选CVPR 2024

一水 发自 凹非寺量子位 | 公众号 QbitAICVPR正在进行中,中国科研力量再次成为场内外焦点之一。 日前,AI顶会常客选手商汤科技,已经披露了今年成绩单:50篇...
阅读原文

霉霉开口唱碧昂丝的歌,又是AI!口型不出戏,五官姿态也自然,复旦百度等出品|GitHub揽星1k+

西风 发自 凹非寺量子位 | 公众号 QbitAI一张人像、一段音频参考,就能让霉霉在你面前唱碧昂丝的《Halo》。 一种名为Hallo的研究火了,GitHub已揽星1k+。 话...
阅读原文

大模型理解复杂表格,字节&中科大出手了

允中 发自 凹非寺量子位 | 公众号 QbitAI只要一个大模型,就能解决打工人遇到的表格难题! 字节联手中科大推出了一款统一表格理解大模型,可以以用户友好的方...
阅读原文

全华人团队推出多模态大模型新基准,GPT-4o准确率仅为65.5%,所有模型最易犯感知错误

王家豪 投稿自 凹非寺量子位 | 公众号 QbitAIGPT-4o再次掀起多模态大模型的浪潮。 如果他们能以近似人类的熟练程度,在不同领域执行广泛的任务,这对许多领域...
阅读原文

复旦字节强强联手,量身定制多模态思维链,让7B模型全面超越GPT-4V

夕小瑶科技说 原创作者 | 任同学多模态大模型在不同的任务中表现出了令人印象深刻的能力,但是在处理复杂任务时,模型的性能仍然受到了单步推理范式的限制。...
阅读原文

视觉语言模型导论:这篇论文能成为你进军VLM的第一步

机器之心报道 编辑:Panda近些年,语言建模领域进展非凡。Llama 或 ChatGPT 等许多大型语言模型(LLM)有能力解决多种不同的任务,它们也正在成为越来越常用...
阅读原文

为虚拟神经科学开辟新领域,斯坦福AI新算法模拟大脑如何理解视觉世界

来源:ScienceAI 编辑:X 当我们看着时钟的秒针移动时,我们的大脑会激活一系列的神经元,这些神经元对特定的视觉角度敏感。这些细胞形成美丽的「风车」图,...
阅读原文

原作者带队,LSTM卷土重来之Vision-LSTM出世

机器之心报道 编辑:鸭梨、蛋酱与 DeiT 等使用 ViT 和 Vision-Mamba (Vim) 方法的模型相比,ViL 的性能更胜一筹。 AI 领域的研究者应该还记得,在 Transforme...
阅读原文
12345617