标签:文本

不到60秒就能生成3D「手办」,Meta发力3D生成,ChatGPT时刻要来了吗?

机器之心报道 编辑:陈萍、张倩‍‍3D 生成,一直在等待它的「ChatGPT时刻」。‍一直以来,创作 3D 内容是设计和开发视频游戏、增强现实、虚拟现实以及影视特效...
阅读原文

60秒直出3D内容,纹理逼真!Meta最新3D Gen模型实现60倍速生成

新智元报道编辑:乔杨 好困 【新智元导读】Meta的GenAI团队在最新研究中介绍了Meta 3D Gen模型:可以在不到1分钟的时间内从文本直接端到端生成3D资产。在图像...
阅读原文

ECCV 2024揭榜,录用率或创新低!2395篇论文中选,网友晒出成绩单

新智元报道编辑:桃子 好困 【新智元导读】两年一届的ECCV录用结果终于揭晓了!刚刚,ECCV组委会公布了录用论文名单,共有2395篇论文被录用。ECCV 2024录用结...
阅读原文

CVPR'24:文生图提示词自动优化,还发现三个小窍门,人大度小满等机构出品

PAE团队 投稿至 凹非寺量子位 | 公众号 QbitAI文生图也有自己的prompt优化工具了。 我们都知道,大模型输出的质量,很大程度上依赖于输入的prompt。尤其在文...
阅读原文

按需搭配一键叠穿,效果拿下新SOTA!中山大学&字节智创数字人团队提出虚拟试穿新框架

MMTryon团队 投稿量子位 | 公众号 QbitAI多件衣服按指定穿法一键虚拟试穿! 中山大学&字节智创数字人团队提出了一个名为MMTryon的虚拟试穿框架,可以通过...
阅读原文

亚马逊云创新「神经稀疏检索」:仅需要文本匹配就能实现语义搜索

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

通用多模态人工智能:架构、挑战和机遇综述

来源:专知 多模态模型被认为是未来人工智能进步的关键组成部分。由于基础模型在自然语言处理 (NLP) 和视觉领域的成功,这一领域正迅速发展,并涌现出大量新...
阅读原文

将图像自动文本化,图像描述质量更高、更准确了

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

超越扩散模型!自回归新范式仅需2.9秒就生成高质量图像,中科大哈工大度小满出品

STAR团队 投稿自 凹非寺量子位 | 公众号 QbitAI超越扩散模型!自回归范式在图像生成领域再次被验证—— 中科大、哈工大、度小满等机构提出通用文生图模型STAR。...
阅读原文

Claude 3.5 发布!性能超越GPT-4o和Claude 3 Opus!

夕小瑶科技说 原创作者 | 醒醒Claude大模型又双叒叕更新升级了!刚刚,OpenAI最强对手Anthropic官宣了Claude 3.5 系列的第一个大模型——Claude 3.5 Sonnet。 ...
阅读原文

Sora 团队负责人 Aditya Ramesh 对话谢赛宁丨压缩一切!视觉与语言模态的融合​

大数据文摘受权转载自智源社区 2024 年 6 月 14 日,一年一度的智源大会又迎来重磅嘉宾。 当红视频生成大模型「Sora」团队的负责人Aditya Ramesh在2024智源大...
阅读原文

字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

Scaling Law触礁「数据墙」?Epoch AI发文预测LLM到2028年耗尽所有文本数据

新智元报道编辑:乔杨 【新智元导读】训练数据的数量和质量,对LLM性能的重要性已经是不言自明的事实。然而,Epoch AI近期的一篇论文却给正在疯狂扩展的AI模...
阅读原文

刚刚!Stable Diffusion 3 重磅开源,超全图像生成必备训练数据集、教程汇总

Stability AI 已经正式开源 Stable Diffusion 3(简称 SD3)!SD3 是一个图像生成模型,只要给定一段描述性的文字,就能够创造出与之匹配的视觉作品。下图就...
阅读原文

GPT-4o更容易越狱?北航&南洋理工上万次测试给出详细分析

北航&南洋理工联合团队投稿量子位 | 公众号 QbitAIGPT-4o,比上一代更容易被越狱攻击了? 来自北航和南洋理工的研究人员,通过上万次的API查询,对GPT-4o...
阅读原文
15678922