标签:图像生成

Krea 1

Krea 1 是 Krea AI 推出的 AI 图像生成模型,解决传统 AI 图像生成中的“AI 美学”问题。模型能生成高度逼真、纹理清晰的图像,支持多种艺术风格,提供风格参考...
阅读原文

SmolVLA

SmolVLA 是 Hugging Face 开源的轻量级视觉-语言-行动(VLA)模型,专为经济高效的机器人设计。拥有4.5亿参数,模型小巧,可在CPU上运行,单个消费级GPU即可...
阅读原文

dots.llm1

dots.llm1 是小红书 hi lab 开源的中等规模 Mixture of Experts(MoE)文本大模型,具有 1420 亿参数,激活参数为 140 亿。模型在 11.2T 高质量 token 数据上...
阅读原文

Kuse AI

Kuse AI 是基于AI技术与无限画布提升工作效率的智能工具。Kuse AI 提供无边界的画布,用户能自由组织和呈现信息,支持文本、图像、PDF、YouTube视频等多种格...
阅读原文

Eleven v3

Eleven v3是ElevenLabs推出的先进文本转语音模型。通过内联音频标签实现情感和语调的精确控制,支持多说话人对话,对话更自然。模型支持超70种语言,文本理解...
阅读原文

Klic Studio

Klic Studio(原Krillin AI) 是基于大型语言模型(LLMs)的视频翻译、配音和语音克隆工具,专为视频创作者和内容出海者设计。支持一键部署全流程,可将视频...
阅读原文

PlayDiffusion

PlayDiffusion是PlayAI推出的新型音频编辑模型,基于扩散模型技术,专门用在音频的精细编辑和修复。模型将音频编码为离散的标记序列,对需要修改的部分进行掩...

DGM

DGM(Darwin Gödel Machine)是自改进人工智能系统,通过迭代修改自身代码来提升性能。DGM从其维护的编码代理档案中选择一个代理,基于基础模型生成新版本,...
阅读原文

SignGemma

SignGemma 是谷歌 DeepMind 团队推出的全球最强大的手语翻译AI模型。专注于将美国手语(ASL)翻译成英语文本,通过多模态训练方法,结合视觉数据和文本数据,...
阅读原文

MiMo-VL

MiMo-VL 是小米开源的多模态大模型,由视觉编码器、跨模态投影层和语言模型构成,视觉编码器基于Qwen2.5-ViT,语言模型是小米自研的MiMo-7B。
阅读原文

Gemini Diffusion

Gemini Diffusion是谷歌推出的实验性文本扩散模型。与传统自回归模型逐词生成文本不同,基于逐步细化噪声生成输出,能快速迭代纠正错误,让Gemini Diffusion...
阅读原文

Imagen 4

Imagen 4是谷歌发布的最新图像生成AI模型。支持高达2K分辨率的图像生成,细节呈现逼真,可清晰呈现复杂织物纹理、水滴折射及动物毛发质感等。在文本渲染方面...
阅读原文

BLIP3-o

BLIP3-o是Salesforce Research等机构推出的创新多模态模型,融合自回归模型的推理和指令遵循能力及扩散模型的强大生成能力。模型基于扩散语义丰富的CLIP图像...
阅读原文

混元图像2.0

混元图像2.0(Hunyuan Image 2.0)是腾讯推出的业内首个毫秒级响应的实时生图大模型。混元图像2.0支持文本、语音、草图等多种交互方式,用户输入指令后,图像...
阅读原文

Pablo

Pablo是帮助用户快速创建品牌化网页的AI工具,用户只需上传SVG、PNG或JPG格式的Logo,Pablo能基于Logo的风格和元素,快速生成与品牌高度契合的网站设计。
阅读原文
12345611