Stable Virtual Camera

Stable Virtual Camera 是 Stability AI 推出的 AI 模型,能将 2D 图像转换为具有真实深度和透视感的 3D 视频。用户可以通过指定相机轨迹和多种动态路径(如...
阅读原文

Cube 3D

Cube 3D 是 Roblox 推出的AI 3D生成大模型,基于 AI 技术高效生成 3D 模型和环境。Cube 3D支持直接从文本描述生成完整的 3D 对象,与游戏引擎兼容。Cube 3D能...
阅读原文

AI Companion

AI Companion 是 Zoom 推出AI智能助手,基于记忆、推理、任务执行和协调四大功能,成为整个 Zoom 平台上的代理,帮助用户从重复繁琐的工作中解脱出来。AI Com...
阅读原文

SmolDocling

SmolDocling(SmolDocling-256M-preview )是高效轻量级的多模态文档处理模型。能将文档图像端到端地转换为结构化文本,支持文本、公式、图表等多种元素识别...
阅读原文

GR00T N1

GR00T N1 是英伟达推出的全球首个开源基础模型,专为通用人形机器人设计。基于多模态输入(如语言和图像)实现多样化环境中的操作任务。GR00T N1 基于大规模...
阅读原文

SVG Converter

SVG Converter是在线矢量化工具,支持将多种位图图像(如JPG、PNG、BMP等)快速转换为矢量图形(如SVG、AI、EPS、PDF等)。SVG Converter支持多种文件格式,...
阅读原文

TokenFD

TokenFD是上海交通大学联合美团推出的细粒度图文对齐基础模型,主要用于文档理解任务。通过Token级对齐,实现了图像Token与语言Token在同一特征空间中的共享...
阅读原文

Noiz AI

Noiz AI 是 AI 语音克隆与合成工具,专注于为用户提供高效、个性化的语音解决方案。基于自研的超大语音模型,能在3-10秒内通过简短录音克隆出与真人无异的声...
阅读原文

LangManus

LangManus 是 AI 自动化框架,基于分层多智能体系统设计。包含多种智能体,如协调员、规划员、研究员、程序员等,各司其职,协同完成复杂任务。框架支持多种...
阅读原文

什么是MCP(Model Context Protocol)

模型上下文协议(Model Context Protocol,MCP)是一种开放协议,让大型语言模型(LLM)与外部工具和数据源实现无缝通信。通过统一的协议实现各类数据源的插...
阅读原文

Claude 3.7 Max

Claude 3.7 Max 是 Cursor 推出的专为复杂代码任务设计的最新 AI 模型,称为史上最强代码助手。基于 Claude 3.7 思考模型,具备 200k 超大上下文窗口,支持处...
阅读原文

Skywork R1V

Skywork R1V是昆仑万维开源的首款工业界多模态思维链推理模型,具备强大的视觉链式推理能力。Skywork R1V能对视觉输入进行多步逻辑推理,解决复杂的视觉任务...
阅读原文

Chirp 3

Chirp 3 是谷歌云推出的高清语音合成模型,专为生成自然、生动的语音而设计。支持 248 种声音和 31 种语言,能捕捉人类语调的细微差别,语音输出更加贴近真实...
阅读原文

什么是草稿链(Chain-of-Draft, CoD)

草稿链(Chain-of-Draft, CoD)是Zoom的研究团队提出新的AI推理范式,通过模仿人类的简洁思维过程来提升推理效率,节省成本。受到了人类解决问题时依赖草稿或...
阅读原文

HairStyle Changer

HairStyle Changer 是基于AI技术的在线发型变换工具,支持用户上传自己的照片,用AI技术尝试不同的发型和发色。HairStyle Changer帮助用户在实际改变发型前预...
阅读原文