AI工具

SmolDocling

SmolDocling(SmolDocling-256M-preview )是高效轻量级的多模态文档处理模型。能将文档图像端到端地转换为结构化文本,支持文本、公式、图表等多种元素识别...
阅读原文

GR00T N1

GR00T N1 是英伟达推出的全球首个开源基础模型,专为通用人形机器人设计。基于多模态输入(如语言和图像)实现多样化环境中的操作任务。GR00T N1 基于大规模...
阅读原文

SVG Converter

SVG Converter是在线矢量化工具,支持将多种位图图像(如JPG、PNG、BMP等)快速转换为矢量图形(如SVG、AI、EPS、PDF等)。SVG Converter支持多种文件格式,...
阅读原文

TokenFD

TokenFD是上海交通大学联合美团推出的细粒度图文对齐基础模型,主要用于文档理解任务。通过Token级对齐,实现了图像Token与语言Token在同一特征空间中的共享...
阅读原文

Noiz AI

Noiz AI 是 AI 语音克隆与合成工具,专注于为用户提供高效、个性化的语音解决方案。基于自研的超大语音模型,能在3-10秒内通过简短录音克隆出与真人无异的声...
阅读原文

LangManus

LangManus 是 AI 自动化框架,基于分层多智能体系统设计。包含多种智能体,如协调员、规划员、研究员、程序员等,各司其职,协同完成复杂任务。框架支持多种...
阅读原文

Claude 3.7 Max

Claude 3.7 Max 是 Cursor 推出的专为复杂代码任务设计的最新 AI 模型,称为史上最强代码助手。基于 Claude 3.7 思考模型,具备 200k 超大上下文窗口,支持处...
阅读原文

Skywork R1V

Skywork R1V是昆仑万维开源的首款工业界多模态思维链推理模型,具备强大的视觉链式推理能力。Skywork R1V能对视觉输入进行多步逻辑推理,解决复杂的视觉任务...
阅读原文

Chirp 3

Chirp 3 是谷歌云推出的高清语音合成模型,专为生成自然、生动的语音而设计。支持 248 种声音和 31 种语言,能捕捉人类语调的细微差别,语音输出更加贴近真实...
阅读原文

HairStyle Changer

HairStyle Changer 是基于AI技术的在线发型变换工具,支持用户上传自己的照片,用AI技术尝试不同的发型和发色。HairStyle Changer帮助用户在实际改变发型前预...
阅读原文

I2V3D

I2V3D是香港城市大学和微软 GenAI创新的图像到视频生成框架,支持将静态图像转换为动态视频,基于3D几何引导实现精确的动画控制。I2V3D结合传统计算机图形学...
阅读原文

OpenBioMed

OpenBioMed 是清华大学智能产业研究院(AIR)和水木分子共同推出的开源平台,专注于 AI 驱动的生物医学研究。是多模态表征学习工具包,能处理分子、蛋白质、...
阅读原文

amis

amis 是百度开源的低代码前端框架,基于简单的 JSON 配置快速生成各种后台页面,无需编写复杂前端代码。amis支持表单、表格、图表、CRUD 操作等功能,提供丰...
阅读原文

Mistral Small 3.1

Mistral Small 3.1 是 Mistral AI 开源的多模态人工智能模型,有 240 亿参数,基于 Apache 2.0 许可证发布。在文本和多模态任务上表现出色,支持长达 128k to...
阅读原文

PixelClip

PixelClip 是一站式 AI 内容创作平台,支持将文本、图片和简单指令快速转化为高质量的视频内容。PixelClip基于先进的 AI 模型,提供丰富的模板和友好的用户界...
阅读原文
12223242526208