AI项目和框架

Kandinsky-3:灵活适应多种图像生成任务的开源文本到图像生成框架

Kandinsky-3是基于潜在扩散模型的文本到图像(T2I)生成框架,以高质量和逼真度在图像合成领域脱颖而出。Kandinsky-3能适应多种图像生成任务,包括文本引导的...
阅读原文

CAVIA:多视角视频生成框架打造沉浸式视觉体验

CAVIA是苹果公司、得克萨斯大学奥斯汀分校、谷歌联合推出的多视角视频生成框架,能将单一输入图像转换成多个时空一致的视频序列。框架基于引入视角集成注意力...
阅读原文

Flex3D:创新的双阶段3D生成框架推动虚拟内容创作的新时代

Flex3D是由Meta的GenAI团队和牛津大学研究团队推出的创新的两阶段3D生成框架,能基于任意数量的高质量输入视图,解决从文本、单张图片或稀疏视图图像生成高质...
阅读原文

StoryTeller:全自动长视频描述生成系统提升内容创作效率与质量

StoryTeller是字节跳动、上海交通大学和北京大学共同推出的系统,能基于音频视觉角色识别技术改善长视频描述的质量和一致性。系统结合低级视觉概念和高级剧情...
阅读原文

DELIFT:数据驱动的高效语言模型指令微调技术提升智能交互体验

DELIFT(Data Efficient Language model Instruction Fine-Tuning)是新型算法,用在优化大型语言模型(LLMs)在指令调优、任务特定微调和持续微调三个关键阶...
阅读原文

HART:自回归视觉生成模型推动图像生成的创新与精准

HART(Hybrid Autoregressive Transformer)是麻省理工学院研究团队推出的自回归视觉生成模型。能直接生成1024×1024像素的高分辨率图像,质量媲美扩散模型。H...
阅读原文

WebDreamer:利用大语言模型提升网络规划效率的创新框架

WebDreamer是俄亥俄州立大学和Orby AI研究团队推出的基于模型规划的网络智能体,基于大型语言模型(LLMs),特别是GPT-4o,作为世界模型预测网站上的交互结果...
阅读原文

BALROG:评估大型语言模型与视觉语言模型在复杂动态环境中推理能力的基准测试工具

BALROG是评估大型语言模型(LLMs)和视觉语言模型(VLMs)在游戏上的推理能力,特别是模型在动态环境中的规划、空间推理和探索能力。基于一系列挑战性的游戏...
阅读原文

AutoVFX:智能化自然语言视频特效编辑工具提升创作效率与灵活性

AutoVFX是先进的物理特效框架,是伊利诺伊大学香槟分校研究团队推出的,能根据自然语言指令自动创建真实感和动态的视觉特效(VFX)视频。框架集成神经场景建...
阅读原文

Markdown-to-Image:在线 Markdown 转海报编辑器让创作变得简单高效

Markdown-to-Image是开源的Markdown 转为海报的编辑器,作为React组件能将Markdown文本内容转换成图像,适用于创建社交媒体帖子、海报和其他视觉内容。工具支...
阅读原文

TÜLU 3:开源指令遵循模型的创新特性与应用潜力

TÜLU 3是艾伦人工智能研究所(Ai2)推出的一系列开源指令遵循模型,包括8B和70B两个版本,未来计划推出405B版本。模型在性能上超越Llama 3.1 Instruct版本,...
阅读原文

EchoMimicV2:革新数字人生成技术实现个性化虚拟形象定制

EchoMimicV2是蚂蚁集团推出的半身人体动画(数字人)生成方法,基于参考图片、音频剪辑和手部姿势序列生成高质量动画视频,确保音频内容与半身动作的一致性。...
阅读原文

FlipSketch:萨里大学推出的智能文本驱动无约束草图动画生成系统

FlipSketch 是萨里大学推出的创新系统,能将静态绘图转变为文本引导的草图动画。技术基于三个关键创新实现:微调草图风格的帧生成、用噪声细化保持输入草图视...
阅读原文

Add-it:英伟达推出无需训练的智能图像编辑工具,实现一键式创作与灵活调整

Add-it是NVIDIA推出的无需训练的图像编辑技术,能根据文本指令在图像中添加对象。这项技术基于扩展扩散模型的注意力机制,整合场景图像、文本提示和生成图像...
阅读原文

DINO-X:通用视觉大模型助力智能识别与分析的新时代

DINO-X是IDEA研究院推出的通用视觉大模型,具备开放世界对象检测与理解能力。支持文本、视觉和定制提示,能识别图像中的任何对象而无需用户提示。基于超过1亿...
阅读原文
16667686970115