AI项目和框架 - 第 40 页

NEO

NEO是商汤科技与南洋理工大学合作研发的全新多模态模型架构，作为首个原生多模态架构（Native VLM），NEO通过底层架构的深度创新，打破了传统多模态模型的局...

阅读原文

AI工具

6个月前

Mistral 3

Mistral 3 是 Mistral AI 推出的新一代开源 AI 模型系列，包括小型的 Ministral 3（3B、8B、14B 参数）和大型的 Mistral Large 3（675B 总参数，41B 激活参数...

阅读原文

AI工具

6个月前

PixVerse V5.5

PixVerse V5.5 是爱诗科技推出的视频生成大模型。模型通过自研的多模态理解和生成技术，支持音画同步生成，简化从构思到成片的复杂工作流程，提高创作效率。

阅读原文

AI工具

6个月前

Alpamayo-R1

Alpamayo-R1（AR1）是英伟达推出的视觉-语言-动作（VLA）模型，通过因果推理提升自动驾驶的决策能力和泛化性。模型的核心创新包括：构建因果链（CoC）数据集...

阅读原文

AI工具

6个月前

可灵O1

可灵O1（可灵视频 O1 模型）是可灵AI推出的全球首个统一多模态视频生成模型。模型通过创新的多模态视觉语言（MVL）架构，实现视频生成、编辑与理解的无缝融合。

阅读原文

AI工具

6个月前

Gen-4.5

Gen-4.5 是RunWay推出的视频生成模型，模型在视频生成的运动质量、视觉逼真度和提示词遵循度等方面树立新的行业标准。Gen-4.5 能生成电影级、极为逼真的画面...

阅读原文

AI工具

6个月前

Vidi2

Vidi2是字节跳动推出的专注于视频理解和创作的多模态大语言模型。在多模态时间检索（TR）方面达到了行业领先水平，在时空定位（STG）和视频问答（Video QA）...

阅读原文

AI工具

6个月前

Ito

Ito是开源的智能语音听写工具，通过其独特的“VibeTyping”技术，将用户的口语意图转换为精美文本。支持在邮件客户端、文档、聊天平台、浏览器和代码编辑器等各...

阅读原文

AI工具

7个月前

GELab-Zero

GELab-Zero 是 StepFun 开发的开源 GUI Agent 模型，专注于移动设备的自动化交互和任务执行。具备本地可部署能力，支持在消费级硬件上运行 4B 模型，确保低延...

阅读原文

AI工具

7个月前

DeepSeek-Math-V2

DeepSeek-Math-V2 是 DeepSeek 团队推出的开源数学推理模型，能实现自我验证的数学推理。模型关注答案正确性，注重推理过程的严谨性。

阅读原文

AI工具

7个月前

StepAudio R1

StepAudio R1 是阶跃星辰团队推出的全球首个开源原生音频推理模型。模型通过创新的模态锚定推理蒸馏（MGRD）框架，解决了传统音频模型在复杂推理中性能下降的...

阅读原文

AI工具

7个月前

Depth Anything 3

Depth Anything 3（DA3）是字节跳动Seed团队推出的视觉空间重建模型，通过单一Transformer架构实现从任意视角的视觉输入中恢复三维空间几何结构。

阅读原文

AI工具

7个月前

Z-Image

Z-Image 是阿里通义推出的图像生成模型，具有6B参数。模型包含三个变体：Z-Image-Turbo、Z-Image-Base 和 Z-Image-Edit，分别擅长快速推理、基础开发和图像编...

阅读原文

AI工具

7个月前

FLUX.2

FLUX.2 是 Black Forest Labs 推出的视觉智能模型，专为实际创意工作流程设计。模型支持最多 10 张图片的多图参考，生成高达 4MP 分辨率的高质量图像，具备极...

阅读原文

AI工具

7个月前

ViMax

ViMax 是香港大学数据科学实验室推出的端到端多智能体视频生成框架，支持将创意、剧本或小说自动转化为完整视频。框架整合导演、编剧、制片人和视频生成器的...

阅读原文

AI工具

7个月前