AI工具

IMAGPose

IMAGPose 是南京理工大学推出的用于人体姿态引导图像生成的统一条件框架。解决传统方法在姿态引导的人物图像生成中存在的局限性,如无法同时生成多个不同姿态...
阅读原文

Heygem

Heygem 是硅基智能推出的开源数字人模型,专为 Windows 系统设计。基于先进的AI技术,仅需 1 秒视频或 1 张照片,能在 30 秒内完成数字人形象和声音克隆,在 ...
阅读原文

GO-1

GO-1(Genie Operator-1,智元启元大模型)是智元机器人推出的首个通用具身基座模型。模型采用Vision-Language-Latent-Action(ViLLA)架构,由VLM(多模态大...
阅读原文

Gemini Embedding

Gemini Embedding 是 Google 推出的先进的文本嵌入模型,基于将文本转化为高维数值向量,捕捉其语义和上下文信息。Gemini Embedding基于 Gemini 模型训练,具...
阅读原文

DoraCycle

DoraCycle 是新加坡国立大学 Show Lab 推出多模态领域适应的统一生成模型,通过两个多模态循环(text-to-image-to-text 和 image-to-text-to-image)实现不同...
阅读原文

Character-3

Character-3 是 Hedra Studio 推出的全模态 AI 数字人视频生成模型,能同时处理图像、文本和音频输入,通过联合推理生成高质量的视频。支持全身动作捕捉和情...
阅读原文

Nanobrowser

Nanobrowser 是开源的 Chrome 扩展工具,专注于 AI 驱动的网页自动化。Nanobrowser基于多智能体系统实现复杂的网页任务,如信息提取、自动化操作等。用户用自...
阅读原文

DINO-XSeek

DINO-XSeek 是 IDEA 研究院推出的多模态目标检测模型,结合视觉感知和自然语言理解能力。DINO-XSeek基于复杂的语言描述精准定位图像中的目标,识别目标的属性...
阅读原文

AppAgentX

AppAgentX 是西湖大学推出的新型自我进化式 GUI(图形用户界面)代理框架,基于从执行历史中抽象出高级动作提升代理在智能手机交互中的效率和智能性。AppAgen...
阅读原文

Cardamon

Cardamon 是 Y Combinator 推出 AI 驱动的合规平台,专为受监管的金融机构设计,通过自动化法规映射帮助企业快速实现合规。基于人工智能技术,将复杂的法规文...
阅读原文

Chikka.ai

Chikka.ai 是专注于客户访谈的AI平台,基于AI语音代理Ava,与受访者进行自然对话,快速收集分析语音反馈。Chikka.ai支持多语言访谈,能同时进行数百次对话,...
阅读原文

URO-Bench

URO-Bench 是面向端到端语音对话模型(SDMs)的全面基准测试工具。涵盖了多语言、多轮对话、副语言信息等多维度任务,全面评估语音对话模型的性能。

Wan

Wan是阿里推出的AI创意平台,平台搭载Wan2.1模型生成能力,专注于AI绘画和AI视频创作。AI绘画基于文字描述,快速生成具有艺术感的图像。AI视频支持将文本和图...
阅读原文

Duck.ai

Duck.ai 是 DuckDuckGo 搜索引擎推出的免费私密的 AI 聊天服务,用户无需注册即可使用。通过代理技术隐藏用户 IP 地址,确保聊天内容不会被用于 AI 模型训练...
阅读原文

GCDance

GCDance(Genre-Controlled 3D Full Body Dance Generation Driven by Music)是英国萨里大学和江南大学推出的3D舞蹈生成框架,能根据音乐和文本提示生成符合...
阅读原文
15253545556233