标签:图像生成

LilysAI

LilysAI 是功能强大的 AI 摘要工具,用于快速提取和总结各种格式文件或内容的核心信息。支持多种文件类型,包括视频、音频、PDF、Word 文档、PPT 幻灯片、Exc...
阅读原文

Next-Frame Diffusion

Next-Frame Diffusion(NFD)是北京大学和微软研究院联合推出的自回归视频生成模型,结合扩散模型的高保真生成能力和自回归模型的因果性和可控性。Next-Frame...
阅读原文

V-JEPA 2

V-JEPA 2 是Meta AI推出的世界大模型,基于视频数据实现对物理世界的理解、预测和规划。V-JEPA 2 用于 12 亿参数的联合嵌入预测架构(JEPA),基于自监督学习...
阅读原文

Tripo Studio

Tripo Studio 是3D 大模型公司 VAST 推出的全球首个 AI 驱动的一站式 3D 工作台,深度融合了 Tripo 核心算法套件,覆盖从模型生成、材质贴图到骨骼绑定的全流...
阅读原文

Krea 1

Krea 1 是 Krea AI 推出的 AI 图像生成模型,解决传统 AI 图像生成中的“AI 美学”问题。模型能生成高度逼真、纹理清晰的图像,支持多种艺术风格,提供风格参考...
阅读原文

SmolVLA

SmolVLA 是 Hugging Face 开源的轻量级视觉-语言-行动(VLA)模型,专为经济高效的机器人设计。拥有4.5亿参数,模型小巧,可在CPU上运行,单个消费级GPU即可...
阅读原文

dots.llm1

dots.llm1 是小红书 hi lab 开源的中等规模 Mixture of Experts(MoE)文本大模型,具有 1420 亿参数,激活参数为 140 亿。模型在 11.2T 高质量 token 数据上...
阅读原文

Kuse AI

Kuse AI 是基于AI技术与无限画布提升工作效率的智能工具。Kuse AI 提供无边界的画布,用户能自由组织和呈现信息,支持文本、图像、PDF、YouTube视频等多种格...
阅读原文

Eleven v3

Eleven v3是ElevenLabs推出的先进文本转语音模型。通过内联音频标签实现情感和语调的精确控制,支持多说话人对话,对话更自然。模型支持超70种语言,文本理解...
阅读原文

Klic Studio

Klic Studio(原Krillin AI) 是基于大型语言模型(LLMs)的视频翻译、配音和语音克隆工具,专为视频创作者和内容出海者设计。支持一键部署全流程,可将视频...
阅读原文

PlayDiffusion

PlayDiffusion是PlayAI推出的新型音频编辑模型,基于扩散模型技术,专门用在音频的精细编辑和修复。模型将音频编码为离散的标记序列,对需要修改的部分进行掩...

DGM

DGM(Darwin Gödel Machine)是自改进人工智能系统,通过迭代修改自身代码来提升性能。DGM从其维护的编码代理档案中选择一个代理,基于基础模型生成新版本,...
阅读原文

SignGemma

SignGemma 是谷歌 DeepMind 团队推出的全球最强大的手语翻译AI模型。专注于将美国手语(ASL)翻译成英语文本,通过多模态训练方法,结合视觉数据和文本数据,...
阅读原文

MiMo-VL

MiMo-VL 是小米开源的多模态大模型,由视觉编码器、跨模态投影层和语言模型构成,视觉编码器基于Qwen2.5-ViT,语言模型是小米自研的MiMo-7B。
阅读原文

Gemini Diffusion

Gemini Diffusion是谷歌推出的实验性文本扩散模型。与传统自回归模型逐词生成文本不同,基于逐步细化噪声生成输出,能快速迭代纠正错误,让Gemini Diffusion...
阅读原文
123410