Amazon Nova Premier

Amazon Nova Premier 是亚马逊推出功能最强大的多模态 AI 模型,能处理文本、图像和视频输入(不包括音频),擅长处理需要深度理解上下文、多步骤规划以及跨...
阅读原文

攻壳智能体

攻壳智能体是专注于智能体和 AI 工具的门户网站,为用户介绍最新、热门的智能体和 AI 工具,帮助用户快速找到适合自己的学习、工作、生活的 AI 利器。通过精...
阅读原文

D-DiT

D-DiT(Dual Diffusion Transformer)是卡内基梅隆大学、耶鲁大学和字节跳动Seed实验室推出的多模态扩散模型,能统一图像生成和理解任务。模型结合连续图像扩...
阅读原文

NoteLLM

NoteLLM 是小红书推出的针对笔记推荐的多模态大型语言模型框架。NoteLLM 基于生成笔记的压缩嵌入和自动生成标签类别,用大型语言模型(LLM)的强大语义理解能...
阅读原文

kimi-thinking-preview

kimi-thinking-preview 是月之暗面推出的多模态思考模型,具备深度推理能力,擅长解决复杂问题,如代码、数学和工作难题。模型基于 reasoning_content 字段展...
阅读原文

Text2CAD

Text2CAD 是创新的在线平台,通过人工智能技术将自然语言描述快速转化为专业 CAD 模型。用户只需用简单的语言描述设计想法,如尺寸、形状和功能要求,Text2CA...
阅读原文

3DV-TON

3DV-TON(Textured 3D-Guided Consistent Video Try-on via Diffusion Models)是阿里巴巴达摩院、湖畔实验室和浙江大学联合推出的基于扩散模型的视频虚拟试...
阅读原文

ACE-Step

ACE-Step 是 ACE Studio 和 StepFun 联合推出的开源音乐生成基础模型,基于创新的架构设计实现高效、连贯且可控的音乐创作。ACE-Step结合扩散模型、深度压缩...
阅读原文

ReasonIR-8B

ReasonIR-8B 是 Meta AI 推出的专为推理密集型检索任务设计的模型。基于 LLaMA3.1-8B 训练,采用双编码器架构,将查询和文档分别编码为嵌入向量,通过余弦相...
阅读原文

Omni Reference

Omni Reference 是 Midjourney 推出的全能参考功能,支持用户将特定的人物、物体或场景从参考图像中嵌入到生成的图像中。Omni Reference 适用于Midjourney V7...
阅读原文

Pixelfox

Pixelfox 是免费的在线图片编辑工具,基于AI技术简化图片编辑过程。Pixelfox 提供多种功能,如背景移除、对象移除、图片增强、AI 修复、换脸、图片扩展和图像...
阅读原文

ChatWise

ChatWise 是高性能的 AI 聊天工具,支持多种语言模型(LLM),如 GPT-4、Claude 和 Gemini 等。ChatWise基于简洁易用的设计理念为核心,提供多模态交互功能,...
阅读原文

Cobra

Cobra(Efficient Line Art COlorization with BRoAder References)是清华大学、香港中文大学和腾讯ARC实验室推出的漫画线稿上色框架,专为高精度、高效率和...
阅读原文

KeySync

KeySync 是帝国理工学院和弗罗茨瓦夫大学推出的用在高分辨率口型同步框架,支持将输入音频与视频中的口型动作对齐。KeySync 基于两阶段框架实现,首先生成关...
阅读原文

HoloTime

HoloTime 是北京大学深圳研究生院和鹏城实验室推出的全景 4D 场景生成框架,基于视频扩散模型将单张全景图像转化为具有真实动态效果的全景视频,进一步重建为...
阅读原文