AI项目和框架

FLUX.1 Kontext

FLUX.1 Kontext 是由 Black Forest Labs 推出的图像生成与编辑模型,支持上下文感知的图像处理。模型基于文本和图像提示进行生成与编辑,支持对象修改、风格...
阅读原文

EVI 3

EVI 3是Hume AI推出的全新语音语言模型,模型能同时处理文本和语音标记,实现自然、富有表现力的语音交互。模型支持高度个性化,根据用户提示生成任何声音和...
阅读原文

OmniSync

OmniSync是中国人民大学、快手科技和清华大学联合推出的通用对口型框架,基于扩散变换器(Diffusion Transformers)实现视频中人物口型与语音的精准同步。Omn...
阅读原文

Mobvoi MCP Server

Mobvoi MCP Server 是出门问问推出的一站式集成各项 AI 能力的工具,Mobvoi MCP Server集成语音生成、声音克隆、图片驱动数字人、视频配音等多项多模态 AI 能...
阅读原文

FLUX.1Kontext

FLUX.1 Kontext 是由 Black Forest Labs 推出的图像生成与编辑模型,支持上下文感知的图像处理。模型基于文本和图像提示进行生成与编辑,支持对象修改、风格...
阅读原文

SearchAgent-X

SearchAgent-X 是南开大学和伊利诺伊大学厄巴纳香槟分校(UIUC)研究人员推出的高效推理框架,能提升基于大型语言模型(LLM)的搜索Agent的效率。
阅读原文

WebAgent

WebAgent是阿里巴巴开源的自主搜索AI Agent,具备端到端的自主信息检索与多步推理能力。WebAgent能像人类一样在网络环境中主动感知、决策和行动,应用在学术...
阅读原文

MagicTryOn

MagicTryOn是浙江大学计算机科学与技术学院、vivo移动通信等机构推出的基于视频扩散Transformer的视频虚拟试穿框架。框架替换传统的U-Net架构为更具表现力的...
阅读原文

可灵2.1

可灵2.1是快手推出的AI视频生成模型,模型现已上线可灵AI视频平台。平台更新包含可灵2.1和可灵2.1大师版两大基础模型。模型在速度、效果和价格上都有显著提升...
阅读原文

Paper2Poster

Paper2Poster是加拿大滑铁卢大学、新加坡国立大学等机构推出的创新学术框架,基于多模态自动化技术从科学论文生成海报。Paper2Poster推出PosterAgent,一个自...
阅读原文

OmniConsistency

OmniConsistency 是新加坡国立大学推出的图像风格迁移模型,能解决复杂场景下风格化图像的一致性问题。模型基于大规模配对的风格化数据进行训练,用两阶段训...
阅读原文

AI-Media2Doc

AI-Media2Doc 是开源的音视频转文档工具,基于AI大模型技术,支持将音视频内容智能转换为小红书笔记、公众号文章、知识笔记、思维导图和视频字幕等多种文档形...
阅读原文

DeepSeek-R1-0528

DeepSeek-R1-0528 是 DeepSeek 团队推出的最新版AI模型。模型基于 DeepSeek-V3-0324 训练,参数量达 660B。模型在 HuggingFace 上开源,开发者能自由使用和修...
阅读原文

CoGenAV

CoGenAV - 通义联合深圳技术大学推出的多模态语音表征模型
阅读原文

Onit

Onit是为Mac设计的AI聊天助手,支持停靠在任何应用程序中。Onit支持高亮文本自动加载,用户只需选择文本,Onit能自动作为上下文打开,无需复制粘贴。
阅读原文
123121