AI工具

SignGemma

SignGemma 是谷歌 DeepMind 团队推出的全球最强大的手语翻译AI模型。专注于将美国手语(ASL)翻译成英语文本,通过多模态训练方法,结合视觉数据和文本数据,...
阅读原文

FLUX.1 Kontext

FLUX.1 Kontext 是由 Black Forest Labs 推出的图像生成与编辑模型,支持上下文感知的图像处理。模型基于文本和图像提示进行生成与编辑,支持对象修改、风格...
阅读原文

MiMo-VL

MiMo-VL 是小米开源的多模态大模型,由视觉编码器、跨模态投影层和语言模型构成,视觉编码器基于Qwen2.5-ViT,语言模型是小米自研的MiMo-7B。
阅读原文

灵码 IDE

灵码 IDE是通义推出的AI原生IDE。用户可以在通义灵码官网免费下载使用。IDE深度适配了最新的千问3大模型,全面集成了通义灵码插件能力,具备编程智能体、行间...
阅读原文

EVI 3

EVI 3是Hume AI推出的全新语音语言模型,模型能同时处理文本和语音标记,实现自然、富有表现力的语音交互。模型支持高度个性化,根据用户提示生成任何声音和...
阅读原文

OmniSync

OmniSync是中国人民大学、快手科技和清华大学联合推出的通用对口型框架,基于扩散变换器(Diffusion Transformers)实现视频中人物口型与语音的精准同步。Omn...
阅读原文

Mobvoi MCP Server

Mobvoi MCP Server 是出门问问推出的一站式集成各项 AI 能力的工具,Mobvoi MCP Server集成语音生成、声音克隆、图片驱动数字人、视频配音等多项多模态 AI 能...
阅读原文

FLUX.1Kontext

FLUX.1 Kontext 是由 Black Forest Labs 推出的图像生成与编辑模型,支持上下文感知的图像处理。模型基于文本和图像提示进行生成与编辑,支持对象修改、风格...
阅读原文

SearchAgent-X

SearchAgent-X 是南开大学和伊利诺伊大学厄巴纳香槟分校(UIUC)研究人员推出的高效推理框架,能提升基于大型语言模型(LLM)的搜索Agent的效率。
阅读原文

WebAgent

WebAgent是阿里巴巴开源的自主搜索AI Agent,具备端到端的自主信息检索与多步推理能力。WebAgent能像人类一样在网络环境中主动感知、决策和行动,应用在学术...
阅读原文

MagicTryOn

MagicTryOn是浙江大学计算机科学与技术学院、vivo移动通信等机构推出的基于视频扩散Transformer的视频虚拟试穿框架。框架替换传统的U-Net架构为更具表现力的...
阅读原文

Keevx

Keevx 是专注于 AI 数字人视频创作的工具,主要面向海外中小企业和个人创作者。通过 AI 智能脚本生成和翻译功能,搭配优质公共人像和模板,为用户提供一键式...
阅读原文

可灵2.1

可灵2.1是快手推出的AI视频生成模型,模型现已上线可灵AI视频平台。平台更新包含可灵2.1和可灵2.1大师版两大基础模型。模型在速度、效果和价格上都有显著提升...
阅读原文

小云雀

小云雀是剪映推出的智能创作Agent,基于AI技术重塑内容创作的边界。小云雀支持零门槛创作视频、数字人口播视频、设计图和图片换背景,用户只需输入一句指令,...
阅读原文

Paper2Poster

Paper2Poster是加拿大滑铁卢大学、新加坡国立大学等机构推出的创新学术框架,基于多模态自动化技术从科学论文生成海报。Paper2Poster推出PosterAgent,一个自...
阅读原文
12728293031254