标签:网格

还不如人类五岁小孩,难度为零的视觉测试,GPT-4o、Claude 3.5 Sonnet却挑战失败了

大数据文摘授权转载自学术头条 撰文:马雪薇 GPT-4o、Claude 3.5 Sonnet 等具有视觉能力的大语言模型(LLM),是否能像人类一样感知图像?最新研究表明,在一...
阅读原文

1分钟生成高质量3D素材!Meta甩出文生3D模型,效果演示惊艳

Meta的文生3D模型或将给3D创作生态带来剧变。 编译|陈骏达 编辑|程茜 智东西7月3日消息,今日凌晨,Meta发布了他们的文生3D模型Meta 3D Gen(简称3DGen),给...
阅读原文

不到60秒就能生成3D「手办」,Meta发力3D生成,ChatGPT时刻要来了吗?

机器之心报道 编辑:陈萍、张倩‍‍3D 生成,一直在等待它的「ChatGPT时刻」。‍一直以来,创作 3D 内容是设计和开发视频游戏、增强现实、虚拟现实以及影视特效...
阅读原文

悬赏800万的超难测试集,被GPT-4o实现新SOTA,准确率已达50%

克雷西 发自 凹非寺量子位 | 公众号 QbitAIGTP-4o挑战悬赏八百万的超难数据集,实现SOTA! 数据集当中包含了各种类型的图形推理题目,被挑战发起者预言“大模...
阅读原文

CVPR‘24全程满分+最佳论文候选!上交大港中文等提出神经场网格模型三大定理

纯真学者出神入化投稿量子位 | 公众号 QbitAI在CV、ML等领域经常用到的神经场网格模型,如今有了理论框架描述其训练动力学和泛化性能。 来自上交大,港中文和...
阅读原文

惊掉下巴:GPT-4o现场爆改代码看图导航!OpenAI曝光LLM路线图,GPT Next年底发

新智元报道编辑:桃子 好困 【新智元导读】全世界的目标再次聚焦在巴黎科技活动上的OpenAI。这次,开发者体验负责人带来了更多GPT-4o精彩演示,根据地图导航...
阅读原文

Up主已经开始鬼畜,腾讯开源「AniPortrait」让照片唱歌说话

机器之心报道 编辑:PandaAniPortrait 模型是开源的,可以自由畅玩。「小破站鬼畜区的新质生产力工具。」 近日,腾讯开源发布的一个新项目在推上获得了如此评...
阅读原文

CVPR 2024录用结果出炉!2719篇论文被接收,录用率23.6%

新智元报道编辑:桃子 【新智元导读】一年一度的CVPR 2024录用结果出炉了。今年,共有2719篇论文被接收,录用率为23.6%。CVPR 2024最终录用结果公布了! 刚刚...
阅读原文

UCLA蒋陈凡夫团队新研究:在VR里控制3D物体,高斯泼溅渲染

白交 发自 凹非寺量子位 | 公众号 QbitAIVision Pro现在玩的太花了,什么时候能快进到沉浸式玩3D游戏?? 现在有个新研究,在VR里实时控制3D高斯泼溅生成的物...
阅读原文

数字时代全球性重要基础标准,时空定位篇

21世纪初,通信技术和互联网的飞速发展揭开了数字时代的序幕,深刻影响了我们的生活方式及经济、政治、文化结构。过去二十年中,物联网、云计算、大数据、工...
阅读原文

胡渊鸣创业公司Meshy产品升级:文本转3D,25秒就能出预览

机器之心报道 编辑:张倩Meshy-2 的文本转 3D、图像转 3D、文本到纹理效果均有所提升。刚刚,胡渊鸣创业公司 Meshy 官宣了他们的第二代产品 ——Meshy-2。Meshy...
阅读原文

英伟达官方盘点2023年10大研究,从CV到AI,从智能体到生成式AI

英伟达官方盘点2023年10大研究,从CV到AI,从智能体到生成式AI。英伟达不但现实世界中用GPU收割全世界,也在虚拟世界中用一项项匪夷所思的技术展开了一场革命...
阅读原文

英伟达官方盘点2023年10大研究!「神经朗琪罗」秒变逼真大卫,用AI生成3D虚拟世界

‍新智元报道编辑:桃子 润 【新智元导读】英伟达官方盘点2023年10大研究,从CV到AI,从智能体到生成式AI。英伟达不但现实世界中用GPU收割全世界,也在虚拟世...
阅读原文

一张照片、一段声音秒生超逼真视频!南大等提出全新框架,口型动作精准还原

新智元报道编辑:润 好困【新智元导读】最近,来自南大等机构的研究人员开发了一个通用的框架,用一段音频就能让照片上的头像讲多国语言。不论是头部动作还是...
阅读原文

五官乱飞,张嘴、瞪眼、挑眉,AI都能模仿到位,视频诈骗要防不住了

机器之心报道编辑:陈萍、小舟不能说完全相同,只能说表情一模一样。防不住,根本防不住,现在 AI 模仿能力已经发展到这种程度了?你前脚让自己的五官乱飞,...
阅读原文
12