Vui

Vui 是 Fluxions-AI 团队开源的轻量级语音对话模型,基于 LLaMA 架构。模型经过 4 万小时对话训练,能模拟真实对话中的语气词、笑声和停顿,提供沉浸式交互体...
阅读原文

Krea 1

Krea 1 是 Krea AI 推出的 AI 图像生成模型,解决传统 AI 图像生成中的“AI 美学”问题。模型能生成高度逼真、纹理清晰的图像,支持多种艺术风格,提供风格参考...
阅读原文

InftyThink

InftyThink是创新的大模型推理范式,突破传统模型在长推理任务中的局限性。通过分段迭代的方式,将复杂的推理过程分解为多个短片段,在每个片段后生成中间总...
阅读原文

Huxe AI

Huxe AI 是创新的个人音频伴侣应用,由谷歌旗下热门 AI 播客应用 NotebookLM 的核心团队成员创立。通过生成式 AI 技术,将用户关心的内容转化为个性化的音频...
阅读原文

SmolVLA

SmolVLA 是 Hugging Face 开源的轻量级视觉-语言-行动(VLA)模型,专为经济高效的机器人设计。拥有4.5亿参数,模型小巧,可在CPU上运行,单个消费级GPU即可...
阅读原文

ContentV

ContentV是字节跳动开源的80亿参数文生视频模型框架。将Stable Diffusion 3.5 Large的2D-VAE替换为3D-VAE并引入3D位置编码,使图像模型快速获得视频生成能力。
阅读原文

PartCrafter

PartCrafter 是先进的3D生成模型,能从单张RGB图像中生成多个语义明确且几何形态各异的3D网格。通过组合潜在空间表示每个3D部件,使用层次化注意力机制在部件...
阅读原文

MaskSearch

MaskSearch是阿里巴巴通义实验室推出的新型通用预训练框架,提升大型语言模型(LLM)的智能体搜索能力。通过检索增强掩码预测(RAMP)任务,让模型在输入文本...
阅读原文

MAS-Zero

MAS-Zero是 Salesforce 推出的多智能体系统(MAS)设计框架,能在无需人类监督的情况下自动设计和优化MAS。框架基于元级设计,在推理时动态地对每个问题实例...
阅读原文

MultiTalk

MultiTalk 是中山大学深圳校区、美团和香港科技大学联合推出的新型音频驱动多人对话视频生成框架。框架根据多声道音频输入、参考图像和文本提示,生成包含人...
阅读原文

灵语文档

灵语文档(MindLink)是AI驱动的云文档编辑平台,为企业提供一站式文档编辑和共享服务。平台具备多组态支持,包括思维导图、原型白板、可视化图表等功能,支...
阅读原文

Time-R1

Time-R1是伊利诺伊大学香槟分校研究团队开发的基于3B参数的语言模型,通过独特的三阶段强化学习训练方法,在时间推理能力上取得了显著突破。
阅读原文

MiniMax-Remover

MiniMax-Remover 是新型的视频目标移除方法,解决现有技术中常见的幻觉物体、视觉伪影以及推理速度缓慢等问题。采用两阶段方法:第一阶段基于简化版的 DiT 架...
阅读原文

智谱CoCo

智谱CoCo是智谱AICO平台推出的首个企业级超级助手Agent,具备交付导向、记忆机制和无缝嵌入三大企业级特性。智谱CoCo能全流程辅助工作,根据员工职能和需求主...
阅读原文

MonkeyOCR

MonkeyOCR 是华中科技大学联合金山办公(Kingsoft Office)推出的文档解析模型,模型支持高效地将非结构化文档内容转换为结构化信息。基于精确的布局分析、内...
阅读原文