AI项目和框架

ACTalker

ACTalker 是用于生成逼真说话人头部视频的端到端视频扩散框架。支持单信号或多信号控制，如音频、表情等。核心架构包括并行 Mamba 结构，通过多个分支利用不...

阅读原文

AI工具

1年前 (2025)

Seedream 3.0

Seedream 3.0是字节跳动豆包大模型团队推出的AI绘图模型，在中文文字生成和设计感方面表现出色，解决小字生成的稳定性问题，能精准生成复杂的中文内容，提供...

阅读原文

AI工具

1年前 (2025)

Quasar Alpha

Quasar Alpha 是 OpenRouter 发布的预发布版 AI 模型。拥有 100 万 token 的超大上下文窗口，可处理超长文本和复杂文档。代码生成能力出色，生成速度快，延迟...

阅读原文

AI工具

1年前 (2025)

OmniCam

OmniCam 是先进的多模态视频生成框架，通过摄像机控制实现高质量的视频生成。支持多种输入模态组合，用户可以提供文本描述、视频中的轨迹或图像作为参考，精...

阅读原文

AI工具

1年前 (2025)

Llama 4

Llama 4 是 Meta 推出的多模态人工智能模型。首次采用混合专家（MoE）架构，在训练和推理时计算效率更高。Llama 4 目前有 Scout 和 Maverick 两个版本。Scout...

阅读原文

AI工具

1年前 (2025)

OmniTalker

OmniTalker 是阿里巴巴发布的实时文本驱动的说话头像生成技术，能同时处理文本、图像、音频和视频等多种模态输入，以流式方式生成自然语音响应。核心架构为 T...

AI工具

1年前 (2025)

DeepSeek-GRM

DeepSeek-GRM是DeepSeek和清华大学研究者共同提出的通用奖励模型（Generalist Reward Modeling）。通过点式生成式奖励建模（Pointwise Generative Reward Mod...

阅读原文

AI工具

1年前 (2025)

OlympicArena

OlympicArena是上海交通大学、上海AI Lab、苏州大学和上海交通大学生成式人工智能实验室（GAIR Lab）联合推出的多学科认知推理基准测试框架。OlympicArena包...

阅读原文

AI工具

1年前 (2025)

BabelDOC

BabelDOC 是开源的智能 PDF 翻译工具，专为科学论文翻译设计。能在原文旁生成翻译文本，形成双语对照，无需切换窗口，方便阅读。能完整保留数学公式、表格和...

AI工具

1年前 (2025)

DreamActor-M1

DreamActor-M1是字节跳动推出的先进AI图像动画框架，能将静态人物照片转化为生动的动画视频。采用混合引导机制，结合隐式面部表示、3D头部球体和3D身体骨架等...

阅读原文

AI工具

1年前 (2025)

Mini DALL·E 3

Mini DALL·E 3 是北京理工大学、上海AI Lab、清华大学和香港中文大学联合推出的交互式文本到图像（iT2I）框架。基于自然语言与用户进行多轮对话，实现高质量...

阅读原文

AI工具

1年前 (2025)

WorldScore

WorldScore 是斯坦福大学提出的用于世界生成模型的统一评估基准。将世界生成分解为一系列的下一个场景生成任务，通过明确的基于相机轨迹的布局规范来实现不同...

阅读原文

AI工具

1年前 (2025)

SWEET-RL

SWEET-RL是Meta推出的多轮强化学习框架，专门用在训练大型语言模型（LLM）代理进行协作推理任务。SWEET-R基于训练时的额外信息（如参考解决方案）优化“批评者...

阅读原文

AI工具

1年前 (2025)

OThink-MR1

OThink-MR1是OPPO研究院和香港科技大学（广州）联合推出的多模态语言模型优化框架。基于动态调整Kullback-Leibler（KL）散度策略（GRPO-D）和奖励模型，提升...

阅读原文

AI工具

1年前 (2025)

DeepSite

DeepSite 是基于 DeepSeek-V3 模型的在线开发工具，用户无需配置环境或安装软件，在网页上直接输入需求，快速生成游戏、应用或网页的代码，支持实时预览效果。

阅读原文

AI工具

1年前 (2025)

1…93 949596 97…196