标签:研究者
单个A100生成3D图像只需30秒,这是Adobe让文本、图像都动起来的新方法
机器之心报道编辑:杜伟、佳琪3D 生成是 AI 视觉领域的研究热点之一。本文中,来自 Adobe 研究院和斯坦福大学等机构的研究者利用基于 transformer 的 3D 大型...
比「让我们一步一步思考」这句咒语还管用,提示工程正在被改进
机器之心报道编辑:rome rome大语言模型可以通过元提示执行自动提示工程,但由于缺乏足够的指导以引导大语言模型中的复杂推理能力,它们的潜力可能没有完全发...
GPT-4不会图形推理?“放水”后准确率依然只有33%
克雷西 发自 凹非寺量子位 | 公众号 QbitAIGPT-4的图形推理能力,竟然连人类的一半都不到?美国圣塔菲研究所的一项研究显示,GPT-4做图形推理题的准确率仅有3...
微软用GPT-4V解读视频,看懂电影还能讲给盲人听,1小时不是问题
机器之心报道编辑:Panda、陈萍差不多已经掌握语言能力的大模型正在进军视觉领域,但具有里程碑意义的 GPT-4V 也仍有诸多不足之处,参阅《》。近日,微软 Azu...
全新近似注意力机制HyperAttention:对长上下文友好、LLM推理提速50%
机器之心报道编辑:大盘鸡本文介绍了一项近似注意力机制新研究,耶鲁大学、谷歌研究院等机构提出了 HyperAttention,使 ChatGLM2 在 32k 上下文长度上的推理...
让AI模型成为GTA五星玩家,基于视觉的可编程智能体Octopus来了
机器之心专栏机器之心编辑部电子游戏已经成为如今现实世界的模拟舞台,展现出无限可能。以游戏《侠盗猎车手》(GTA)为例,在 GTA 的世界里,玩家可以以第一...
大模型勇闯洛圣都,加封「GTA五星好市民」!南洋理工、清华等发布视觉可编程智能体Octopus:打游戏、做家务全能干
新智元报道编辑:LRS 好困【新智元导读】让视觉语言模型(VLM)在模拟的电子世界里游玩是什么体验?让Octopus根据智能体的观测写控制代码,即可实现让VLM做家...
DeepMind指出「Transformer无法超出预训练数据实现泛化」,但有人投来质疑
机器之心报道编辑:蛋酱难道 Transformer注定无法解决「训练数据」之外的新问题?说起大语言模型所展示的令人印象深刻的能力,其中之一就是通过提供上下文中...
重新审视Transformer:倒置更有效,真实世界预测的新SOTA出现了
机器之心报道编辑:大盘鸡反转 Transformer,变成 iTransformer。Transformer 在时间序列预测中出现了强大能力,可以描述成对依赖关系和提取序列中的多层次表...
给大模型评分的基准靠谱吗?Anthropic来了次大评估
选自Anthropic机器之心编译机器之心编辑部在大模型(LLM)盛行的当下,评估 AI 系统成为了重要的一环,在评估过程中都会遇到哪些困难,Anthropic 的一篇文章...
GPT-4 做「世界模型」,让LLM从「错题」中学习,推理能力显著提升
机器之心报道编辑:蛋酱、杜伟从错误中学习,不只是人类可以做到。近日有研究发现,大模型其实也可以借鉴这种思路。这段时间,大语言模型在各种 NLP 任务中取...
苹果文生图大模型亮相:套娃式扩散,支持1024×1024分辨率
机器之心报道编辑:杜伟、小舟习惯了 Stable Diffusion,如今终于又迎来一个俄罗斯套娃式(Matryoshka)Diffusion 模型,还是苹果做的。在生成式 AI 时代,扩...
用50多年时间,探索最令人困惑的复杂性理论知识极限
选自quantamagazine机器之心编译编辑:Panda证明问题难以解决究竟有多难?元复杂性(meta-complexity)理论研究者数十年来一直探究这个问题。近期的一系列研...
在视觉提示中加入「标记」,微软等让GPT-4V看的更准、分的更细
机器之心报道编辑:杜伟、小舟全新视觉提示方法 SoM(Set-of-Mark),让 OpenAI 多模态大模型 GPT-4V 在视觉内容理解方面有了质的提升。最近一段时间,我们见...
解决大模型复现难、协作难, 这支95后学生团队打造了一个国产AI开源社区
机器之心报道机器之心编辑部过去十年间,AI 技术经历了巨大的飞跃,无论是在自然语言处理、图像识别,还是在更多的创新领域,AI 的影响已无所不在。伴随着研...