AI项目和框架

Mobvoi MCP Server

Mobvoi MCP Server 是出门问问推出的一站式集成各项 AI 能力的工具,Mobvoi MCP Server集成语音生成、声音克隆、图片驱动数字人、视频配音等多项多模态 AI 能...
阅读原文

FLUX.1Kontext

FLUX.1 Kontext 是由 Black Forest Labs 推出的图像生成与编辑模型,支持上下文感知的图像处理。模型基于文本和图像提示进行生成与编辑,支持对象修改、风格...
阅读原文

SearchAgent-X

SearchAgent-X 是南开大学和伊利诺伊大学厄巴纳香槟分校(UIUC)研究人员推出的高效推理框架,能提升基于大型语言模型(LLM)的搜索Agent的效率。
阅读原文

WebAgent

WebAgent是阿里巴巴开源的自主搜索AI Agent,具备端到端的自主信息检索与多步推理能力。WebAgent能像人类一样在网络环境中主动感知、决策和行动,应用在学术...
阅读原文

MagicTryOn

MagicTryOn是浙江大学计算机科学与技术学院、vivo移动通信等机构推出的基于视频扩散Transformer的视频虚拟试穿框架。框架替换传统的U-Net架构为更具表现力的...
阅读原文

可灵2.1

可灵2.1是快手推出的AI视频生成模型,模型现已上线可灵AI视频平台。平台更新包含可灵2.1和可灵2.1大师版两大基础模型。模型在速度、效果和价格上都有显著提升...
阅读原文

Paper2Poster

Paper2Poster是加拿大滑铁卢大学、新加坡国立大学等机构推出的创新学术框架,基于多模态自动化技术从科学论文生成海报。Paper2Poster推出PosterAgent,一个自...
阅读原文

OmniConsistency

OmniConsistency 是新加坡国立大学推出的图像风格迁移模型,能解决复杂场景下风格化图像的一致性问题。模型基于大规模配对的风格化数据进行训练,用两阶段训...
阅读原文

AI-Media2Doc

AI-Media2Doc 是开源的音视频转文档工具,基于AI大模型技术,支持将音视频内容智能转换为小红书笔记、公众号文章、知识笔记、思维导图和视频字幕等多种文档形...
阅读原文

DeepSeek-R1-0528

DeepSeek-R1-0528 是 DeepSeek 团队推出的最新版AI模型。模型基于 DeepSeek-V3-0324 训练,参数量达 660B。模型在 HuggingFace 上开源,开发者能自由使用和修...
阅读原文

CoGenAV

CoGenAV - 通义联合深圳技术大学推出的多模态语音表征模型
阅读原文

Onit

Onit是为Mac设计的AI聊天助手,支持停靠在任何应用程序中。Onit支持高亮文本自动加载,用户只需选择文本,Onit能自动作为上下文打开,无需复制粘贴。
阅读原文

Ming-lite-omni

Ming-Lite-Omni是蚂蚁集团开源的统一多模态大模型。模型基于MoE架构,融合文本、图像、音频和视频等多种模态的感知能力,具备强大的理解和生成能力。模型在多...
阅读原文

HunyuanVideo-Avatar

HunyuanVideo-Avatar是腾讯混元团队与腾讯音乐天琴实验室联合研发的语音数字人模型,基于多模态扩散Transformer架构,能生成动态、情感可控以及多角色对话视...
阅读原文

Jodi

Jodi是中国科学院计算技术研究所和中国科学院大学推出的扩散模型框架,基于联合建模图像域和多个标签域,将视觉生成与理解统一起来。
阅读原文
1910111213131