AI项目和框架 - 第 77 页

Paper2Poster

Paper2Poster是加拿大滑铁卢大学、新加坡国立大学等机构推出的创新学术框架，基于多模态自动化技术从科学论文生成海报。Paper2Poster推出PosterAgent，一个自...

阅读原文

AI工具

1年前 (2025)

OmniConsistency

OmniConsistency 是新加坡国立大学推出的图像风格迁移模型，能解决复杂场景下风格化图像的一致性问题。模型基于大规模配对的风格化数据进行训练，用两阶段训...

阅读原文

AI工具

1年前 (2025)

AI-Media2Doc

AI-Media2Doc 是开源的音视频转文档工具，基于AI大模型技术，支持将音视频内容智能转换为小红书笔记、公众号文章、知识笔记、思维导图和视频字幕等多种文档形...

阅读原文

AI工具

1年前 (2025)

DeepSeek-R1-0528

DeepSeek-R1-0528 是 DeepSeek 团队推出的最新版AI模型。模型基于 DeepSeek-V3-0324 训练，参数量达 660B。模型在 HuggingFace 上开源，开发者能自由使用和修...

阅读原文

AI工具

1年前 (2025)

CoGenAV

CoGenAV - 通义联合深圳技术大学推出的多模态语音表征模型

阅读原文

AI工具

1年前 (2025)

Onit

Onit是为Mac设计的AI聊天助手，支持停靠在任何应用程序中。Onit支持高亮文本自动加载，用户只需选择文本，Onit能自动作为上下文打开，无需复制粘贴。

阅读原文

AI工具

1年前 (2025)

Ming-lite-omni

Ming-Lite-Omni是蚂蚁集团开源的统一多模态大模型。模型基于MoE架构，融合文本、图像、音频和视频等多种模态的感知能力，具备强大的理解和生成能力。模型在多...

阅读原文

AI工具

1年前 (2025)

HunyuanVideo-Avatar

HunyuanVideo-Avatar是腾讯混元团队与腾讯音乐天琴实验室联合研发的语音数字人模型，基于多模态扩散Transformer架构，能生成动态、情感可控以及多角色对话视...

阅读原文

AI工具

1年前 (2025)

Jodi

Jodi是中国科学院计算技术研究所和中国科学院大学推出的扩散模型框架，基于联合建模图像域和多个标签域，将视觉生成与理解统一起来。

阅读原文

AI工具

1年前 (2025)

HunyuanPortrait

HunyuanPortrait 是腾讯 Hunyuan 团队联合清华大学、中山大学和香港科技大学等机构共同推出的基于扩散模型的框架，用在生成高度可控且逼真的肖像动画。基于给...

阅读原文

AI工具

1年前 (2025)

PC Agent-E

PC Agent-E是上海交通大学和SII联合推出的高效智能体训练框架。框架用312条人类标注的计算机使用轨迹，基于Claude 3.7 Sonnet模型合成多样化的行动决策，显著...

阅读原文

AI工具

1年前 (2025)

CAR

CAR（Certainty-based Adaptive Reasoning）是字节跳动联合复旦大学推出的自适应推理框架，能提升大型语言模型（LLM）和多模态大型语言模型（MLLM）在不同任...

阅读原文

AI工具

1年前 (2025)

WonderPlay

WonderPlay 是斯坦福大学联合犹他大学推出的新型框架，支持从单张图片和用户定义的动作生成动态3D场景。基于结合物理模拟和视频生成技术，用物理求解器模拟粗...

阅读原文

AI工具

1年前 (2025)

LMEval

LMEval 是谷歌推出的开源框架，用在简化大型模型（LLMs）的跨提供商评估。框架支持多模态（文本、图像、代码）和多指标评估，兼容 Google、OpenAI、Anthropic...

阅读原文

AI工具

1年前 (2025)

LLaDA-V

LLaDA-V是中国人民大学高瓴人工智能学院、蚂蚁集团推出的多模态大语言模型（MLLM），基于纯扩散模型架构，专注于视觉指令微调。模型在LLaDA的基础上，引入视...

阅读原文

AI工具

1年前 (2025)