从任意模态到完美CAD模型:AI一键生成的未来设计

全球首个同时支持文本描述、图像、点云等多模态输入的计算机辅助设计(CAD)生成大模型。
阅读原文

双重打击!GAN之父新冠后遭遇听力减退与心动过速,全网紧急求医!

原标题:GAN之父新冠后惊传罹患双重顽疾!听力减退心动过速,全网求医 文章来源:新智元 内容字数:8725字Ian Goodfellow的健康挑战与求助 深度学习领域的知...
阅读原文

颠覆常规:OpenAI揭露Scaling撞墙论背后的无限推理潜力!

原标题:OpenAI怒斥Scaling撞墙论!o1已产生推理直觉潜力巨大 文章来源:新智元 内容字数:6525字OpenAI关于Scaling Law的观点 最近,OpenAI高级研究副总裁M...
阅读原文

Meta推出划时代的Multi-IF基准:涵盖8种语言与4500+任务,开启多轮挑战新篇章!

原标题:指令跟随大比拼!Meta发布多轮多语言基准Multi-IF:覆盖8种语言,超4500种任务 文章来源:新智元 内容字数:6039字文章要点总结 本文主要介绍了Meta...
阅读原文

揭开未来之谜:英伟达突破性分词器助力下一帧预测,争夺10000美元奖金!

原标题:世界模型挑战赛,单项奖金10000美元!英伟达全新分词器助力下一帧预测 文章来源:新智元 内容字数:5049字1X与英伟达联合推进世界模型挑战赛 近日,...
阅读原文

挑战极限:新智元带你攀登人工智能的巅峰之旅!

原标题:招人!新智元邀你勇闯ASI之巅 文章来源:新智元 内容字数:2281字新智元AI星舰热招人才,迎接ASI时代 新智元于2015年9月7日成立,至2024年9月7日将...
阅读原文

BALROG:评估大型语言模型与视觉语言模型在复杂动态环境中推理能力的基准测试工具

BALROG是评估大型语言模型(LLMs)和视觉语言模型(VLMs)在游戏上的推理能力,特别是模型在动态环境中的规划、空间推理和探索能力。基于一系列挑战性的游戏...
阅读原文

AutoVFX:智能化自然语言视频特效编辑工具提升创作效率与灵活性

AutoVFX是先进的物理特效框架,是伊利诺伊大学香槟分校研究团队推出的,能根据自然语言指令自动创建真实感和动态的视觉特效(VFX)视频。框架集成神经场景建...
阅读原文

CopyCoder:智能图像识别助力编码生成的全新AI工具

CopyCoder是创新的AI编程工具,支持用户上传应用程序的截图、UI设计图或完整的应用图像,自动生成详细的编码提示词。提示词涵盖应用结构、组件规划和导入路径...
阅读原文

Markdown-to-Image:在线 Markdown 转海报编辑器让创作变得简单高效

Markdown-to-Image是开源的Markdown 转为海报的编辑器,作为React组件能将Markdown文本内容转换成图像,适用于创建社交媒体帖子、海报和其他视觉内容。工具支...
阅读原文

TÜLU 3:开源指令遵循模型的创新特性与应用潜力

TÜLU 3是艾伦人工智能研究所(Ai2)推出的一系列开源指令遵循模型,包括8B和70B两个版本,未来计划推出405B版本。模型在性能上超越Llama 3.1 Instruct版本,...
阅读原文

EchoMimicV2:革新数字人生成技术实现个性化虚拟形象定制

EchoMimicV2是蚂蚁集团推出的半身人体动画(数字人)生成方法,基于参考图片、音频剪辑和手部姿势序列生成高质量动画视频,确保音频内容与半身动作的一致性。...
阅读原文

FlipSketch:萨里大学推出的智能文本驱动无约束草图动画生成系统

FlipSketch 是萨里大学推出的创新系统,能将静态绘图转变为文本引导的草图动画。技术基于三个关键创新实现:微调草图风格的帧生成、用噪声细化保持输入草图视...
阅读原文