AI项目和框架 - 第 105 页

COMET

COMET是字节跳动推出的针对Mixture-of-Experts（MoE）模型的优化系统，能解决分布式训练中通信开销过大的问题。基于细粒度的计算-通信重叠技术，COMET将通信...

阅读原文

AI工具

1年前 (2025)

VideoPainter

VideoPainter 是香港中文大学、腾讯ARC Lab、东京大学、澳门大学等机构推出的视频修复和编辑框架，专门用在处理任意长度的视频内容。VideoPainter基于双分支...

阅读原文

AI工具

1年前 (2025)

LanDiff

LanDiff是用于高质量的文本到视频（T2V）生成的创新混合框架，结合了自回归语言模型（LLM）和扩散模型（Diffusion Model）的优势，通过粗到细的生成方式，有...

阅读原文

AI工具

1年前 (2025)

IMAGPose

IMAGPose 是南京理工大学推出的用于人体姿态引导图像生成的统一条件框架。解决传统方法在姿态引导的人物图像生成中存在的局限性，如无法同时生成多个不同姿态...

阅读原文

AI工具

1年前 (2025)

Heygem

Heygem 是硅基智能推出的开源数字人模型，专为 Windows 系统设计。基于先进的AI技术，仅需 1 秒视频或 1 张照片，能在 30 秒内完成数字人形象和声音克隆，在 ...

阅读原文

AI工具

1年前 (2025)

GO-1

GO-1（Genie Operator-1，智元启元大模型）是智元机器人推出的首个通用具身基座模型。模型采用Vision-Language-Latent-Action（ViLLA）架构，由VLM（多模态大...

阅读原文

AI工具

1年前 (2025)

Gemini Embedding

Gemini Embedding 是 Google 推出的先进的文本嵌入模型，基于将文本转化为高维数值向量，捕捉其语义和上下文信息。Gemini Embedding基于 Gemini 模型训练，具...

阅读原文

AI工具

1年前 (2025)

DoraCycle

DoraCycle 是新加坡国立大学 Show Lab 推出多模态领域适应的统一生成模型，通过两个多模态循环（text-to-image-to-text 和 image-to-text-to-image）实现不同...

阅读原文

AI工具

1年前 (2025)

Nanobrowser

Nanobrowser 是开源的 Chrome 扩展工具，专注于 AI 驱动的网页自动化。Nanobrowser基于多智能体系统实现复杂的网页任务，如信息提取、自动化操作等。用户用自...

阅读原文

AI工具

1年前 (2025)

DINO-XSeek

DINO-XSeek 是 IDEA 研究院推出的多模态目标检测模型，结合视觉感知和自然语言理解能力。DINO-XSeek基于复杂的语言描述精准定位图像中的目标，识别目标的属性...

阅读原文

AI工具

1年前 (2025)

AppAgentX

AppAgentX 是西湖大学推出的新型自我进化式 GUI（图形用户界面）代理框架，基于从执行历史中抽象出高级动作提升代理在智能手机交互中的效率和智能性。AppAgen...

阅读原文

AI工具

1年前 (2025)

URO-Bench

URO-Bench 是面向端到端语音对话模型（SDMs）的全面基准测试工具。涵盖了多语言、多轮对话、副语言信息等多维度任务，全面评估语音对话模型的性能。

AI工具

1年前 (2025)

GCDance

GCDance（Genre-Controlled 3D Full Body Dance Generation Driven by Music）是英国萨里大学和江南大学推出的3D舞蹈生成框架，能根据音乐和文本提示生成符合...

阅读原文

AI工具

1年前 (2025)

LaWGPT

LaWGPT 是南京大学推出的中文法律大语言模型，基于 LLaMA 模型进行二次预训练，融入大量中文法律知识。专注于法律领域，能理解和生成与法律相关的文本，适用...

阅读原文

AI工具

1年前 (2025)

OpenManus

OpenManus 是MetaGPT 团队推出的开源复刻版 Manus，提供无需邀请码的 AI Agent 。OpenManus基于模块化设计，支持多种语言模型和工具链，能执行代码、处理文件...

阅读原文

AI工具

1年前 (2025)