AI项目和框架

AudioStory

AudioStory 是腾讯 ARC 实验室发布的音频生成技术,能根据自然语言描述生成高质量的长篇叙事音频。采用分而治之策略,将复杂叙事请求拆解为有序子任务,通过...
阅读原文

Open-Fiesta

Open-Fiesta 是开源的多模型 AI 聊天平台,基于 Next.js 14 构建。平台支持多种 AI 提供商(如 Gemini、OpenRouter 等)和多种模型,用户能同时选择 5 种模型...
阅读原文

Step-Audio 2 mini

Step-Audio 2 mini 是阶跃星辰发布的开源端到端语音大模型。突破传统语音模型结构,采用真端到端多模态架构,直接将原始音频输入转化为语音响应输出,时延更...
阅读原文

MobileCLIP2

MobileCLIP2是苹果公司研究人员推出的高效端侧多模态模型,是MobileCLIP的升级版本。在多模态强化训练方面进行了优化,通过在DFN数据集上训练性能更优的CLIP...
阅读原文

MAI-1-preview

MAI-1-preview 是微软人工智能团队推出的端到端训练的基础模型,为用户提供遵循指令和回答日常查询的能力。
阅读原文

InternVL3.5

InternVL3.5(书生·万象3.5)是上海人工智能实验室开源的多模态大模型,模型在通用能力、推理能力和部署效率上全面升级,提供从10亿到2410亿参数的九种尺寸版...
阅读原文

MAI-Voice-1

MAI-Voice-1 是微软人工智能团队推出的首个具有高度表现力和自然的语音生成模型。模型能在单个 GPU 上不到一秒钟内生成一分钟的音频,是目前最高效的语音系统...
阅读原文

Async

Async 是开源的开发者工具,为经验丰富的开发者提供结合AI编码、任务管理和代码审查的统一工作流,通过 AI 技术帮助开发者提高工作效率。
阅读原文

gpt-realtime

gpt-realtime 是 OpenAI 最新推出的先进语音模型,专为实际任务设计。模型能生成高质量、自然的语音,支持多种语言和语音风格,能理解非语言线索并根据场景调...
阅读原文

OmniHuman-1.5

OmniHuman-1.5 字节推出的先进的AI模型,能从单张图片和语音轨道生成富有表现力的数字人动画。模型基于双重系统认知理论,融合多模态大语言模型和扩散变换器...
阅读原文

Meeseeks

Meeseeks 是美团 M17 团队开源的大模型评测集,用在评估模型的指令遵循能力。Meeseeks通过三级评测框架,从宏观到微观全面衡量模型是否能严格按照用户指令生...
阅读原文

HunyuanVideo-Foley

HunyuanVideo-Foley是腾讯混元团队开源的端到端视频音效生成模型。模型能根据输入的视频和文字描述,生成与视频画面精准匹配的高质量音效,解决现有AI视频生...
阅读原文

问小白5

问小白5是问小白推出的“All in One”旗舰大模型,是国产大模型中智能水平最高的。模型在多项评测中表现优异,如AA-Index综合评估指标得分64.7分,STEM能力评测...
阅读原文

Grok Code Fast 1

Grok Code Fast 1 是 xAI 推出的 AI 编程模型,专为快速高效的基础代码任务设计。模型每秒可处理92个标记,拥有256k的上下文窗口,适合快速原型开发、代码调...
阅读原文

PixVerse V5

PixVerse V5是爱诗科技推出的自研AI视频生成大模型,已在全球同步上线。PixVerse V5版本在动态效果、视觉质量、一致性保持和指令遵循等方面进行全面升级,能...
阅读原文