AI工具

NoteLLM

NoteLLM 是小红书推出的针对笔记推荐的多模态大型语言模型框架。NoteLLM 基于生成笔记的压缩嵌入和自动生成标签类别,用大型语言模型(LLM)的强大语义理解能...
阅读原文

kimi-thinking-preview

kimi-thinking-preview 是月之暗面推出的多模态思考模型,具备深度推理能力,擅长解决复杂问题,如代码、数学和工作难题。模型基于 reasoning_content 字段展...
阅读原文

Text2CAD

Text2CAD 是创新的在线平台,通过人工智能技术将自然语言描述快速转化为专业 CAD 模型。用户只需用简单的语言描述设计想法,如尺寸、形状和功能要求,Text2CA...
阅读原文

3DV-TON

3DV-TON(Textured 3D-Guided Consistent Video Try-on via Diffusion Models)是阿里巴巴达摩院、湖畔实验室和浙江大学联合推出的基于扩散模型的视频虚拟试...
阅读原文

ACE-Step

ACE-Step 是 ACE Studio 和 StepFun 联合推出的开源音乐生成基础模型,基于创新的架构设计实现高效、连贯且可控的音乐创作。ACE-Step结合扩散模型、深度压缩...
阅读原文

ReasonIR-8B

ReasonIR-8B 是 Meta AI 推出的专为推理密集型检索任务设计的模型。基于 LLaMA3.1-8B 训练,采用双编码器架构,将查询和文档分别编码为嵌入向量,通过余弦相...
阅读原文

Omni Reference

Omni Reference 是 Midjourney 推出的全能参考功能,支持用户将特定的人物、物体或场景从参考图像中嵌入到生成的图像中。Omni Reference 适用于Midjourney V7...
阅读原文

Pixelfox

Pixelfox 是免费的在线图片编辑工具,基于AI技术简化图片编辑过程。Pixelfox 提供多种功能,如背景移除、对象移除、图片增强、AI 修复、换脸、图片扩展和图像...
阅读原文

ChatWise

ChatWise 是高性能的 AI 聊天工具,支持多种语言模型(LLM),如 GPT-4、Claude 和 Gemini 等。ChatWise基于简洁易用的设计理念为核心,提供多模态交互功能,...
阅读原文

Cobra

Cobra(Efficient Line Art COlorization with BRoAder References)是清华大学、香港中文大学和腾讯ARC实验室推出的漫画线稿上色框架,专为高精度、高效率和...
阅读原文

KeySync

KeySync 是帝国理工学院和弗罗茨瓦夫大学推出的用在高分辨率口型同步框架,支持将输入音频与视频中的口型动作对齐。KeySync 基于两阶段框架实现,首先生成关...
阅读原文

HoloTime

HoloTime 是北京大学深圳研究生院和鹏城实验室推出的全景 4D 场景生成框架,基于视频扩散模型将单张全景图像转化为具有真实动态效果的全景视频,进一步重建为...
阅读原文

Hula

Hula 是 Prequel Inc. 推出的 AI 视频生成工具,通过简单操作将用户的静态照片或视频转换为创意内容。用户可以通过上传照片,变成动态视频,例如模拟在巴黎漫...
阅读原文

T2I-R1

T2I-R1 是香港中文大学和上海AI Lab联合推出的新型文本生成图像模型。基于引入双层推理机制,语义级链式思维(CoT)和 Token 级 CoT,实现高层次图像规划与低...
阅读原文

X-Fusion

X-Fusion 是加州大学洛杉矶分校、威斯康星大学麦迪逊分校和 Adobe Research 联合提出的多模态融合框架,将预训练的大型语言模型(LLMs)扩展到多模态任务中,...
阅读原文
11718192021228