标签:视觉

霉霉开口唱碧昂丝的歌,又是AI!口型不出戏,五官姿态也自然,复旦百度等出品|GitHub揽星1k+

西风 发自 凹非寺量子位 | 公众号 QbitAI一张人像、一段音频参考,就能让霉霉在你面前唱碧昂丝的《Halo》。 一种名为Hallo的研究火了,GitHub已揽星1k+。 话...
阅读原文

大模型理解复杂表格,字节&中科大出手了

允中 发自 凹非寺量子位 | 公众号 QbitAI只要一个大模型,就能解决打工人遇到的表格难题! 字节联手中科大推出了一款统一表格理解大模型,可以以用户友好的方...
阅读原文

全华人团队推出多模态大模型新基准,GPT-4o准确率仅为65.5%,所有模型最易犯感知错误

王家豪 投稿自 凹非寺量子位 | 公众号 QbitAIGPT-4o再次掀起多模态大模型的浪潮。 如果他们能以近似人类的熟练程度,在不同领域执行广泛的任务,这对许多领域...
阅读原文

复旦字节强强联手,量身定制多模态思维链,让7B模型全面超越GPT-4V

夕小瑶科技说 原创作者 | 任同学多模态大模型在不同的任务中表现出了令人印象深刻的能力,但是在处理复杂任务时,模型的性能仍然受到了单步推理范式的限制。...
阅读原文

视觉语言模型导论:这篇论文能成为你进军VLM的第一步

机器之心报道 编辑:Panda近些年,语言建模领域进展非凡。Llama 或 ChatGPT 等许多大型语言模型(LLM)有能力解决多种不同的任务,它们也正在成为越来越常用...
阅读原文

为虚拟神经科学开辟新领域,斯坦福AI新算法模拟大脑如何理解视觉世界

来源:ScienceAI 编辑:X 当我们看着时钟的秒针移动时,我们的大脑会激活一系列的神经元,这些神经元对特定的视觉角度敏感。这些细胞形成美丽的「风车」图,...
阅读原文

原作者带队,LSTM卷土重来之Vision-LSTM出世

机器之心报道 编辑:鸭梨、蛋酱与 DeiT 等使用 ViT 和 Vision-Mamba (Vim) 方法的模型相比,ViL 的性能更胜一筹。 AI 领域的研究者应该还记得,在 Transforme...
阅读原文

329篇图像、视频生成论文,今年CVPR最火的研究主题是这些

机器之心报道 编辑:Sia图像与视频合成、3D 视觉、人体行为识别、视觉与语言推理等研究方向论文最多,属于最热门的方向,体现当前学界对视觉生成、三维感知、...
阅读原文

多模态视觉-语言大模型的架构演进

直播预告 | 6月6日晚7点,「智猩猩AI新青年讲座」第238讲正式开讲,香港大学CVMI Lab在读博士 杨霁晗将直播讲解《V-IRL:根植于真实世界的AI Agents》,欢迎...
阅读原文

从 ImageNet 到 AlexNet,李飞飞万字自述人工智能诞生的关键进程

要怎么介绍李飞飞? AI 教母、《时代》百大 AI 影响力人物、福布斯中国·全球华人精英 Top100, 美国国家工程院、国家医学院、艺术与科学院三院院士, 现代人...
阅读原文

LeCun新作:分层世界模型,数据驱动的人型机器人控制

新智元报道编辑:alan 【新智元导读】在复杂的物理世界中,人型机器人的全身控制一直是个难题,现有的强化学习做出的效果有时会比较抽象。近日,LeCun参与的...
阅读原文

物理传热启发的视觉表征模型vHeat来了,尝试突破注意力机制,兼具低复杂度、全局感受野

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

AI读论文新神器:多栏密集文字、中英图文混排文档都能读的多模态大模型Fox|旷视

Fox团队 投稿量子位 | 公众号 QbitAI虽然多模态大模型都能挑西瓜了,但理解复杂文档方面还是差点意思。 面对文字密集、多栏混排等文档时往往力不从心,区域级...
阅读原文

走近吴立德教授:CV、NLP中国最高奖项得主,讲述复旦大学人工智能几十年往事

InfoQ特约作者 |秦海龙写在最前吴立德教授,中国最早从事计算机视觉和自然语言处理研究的科学家之一。1937 年生,复旦大学教授,博士生导师。美国纽约科学院...
阅读原文

AI顶会 ICLR 最新演讲:“The ChatGLM's Road to AGI”,首个中国大模型团队!

直播预告 | 6月6日晚7点,「智猩猩AI新青年讲座」第238讲正式开讲,香港大学CVMI Lab在读博士杨霁晗将直播讲解《V-IRL:根植于真实世界的AI Agents》,欢迎扫...
阅读原文
15678919