AI工具

Zulu

Zulu 是百度文心快码推出的AI自动编程智能体,为开发者提供从需求到代码的端到端生成服务。能自主理解编码需求,精准拆解任务,突破单文件限制,实现跨模块、...
阅读原文

FoxBrain

FoxBrain 是鸿海研究院推出的繁体中文大型语言模型(LLM),具有强大的推理能力。基于 Meta Llama 3.1 架构,拥有 70B 参数,专注于数学和逻辑推理领域。FoxB...
阅读原文

COMET

COMET是字节跳动推出的针对Mixture-of-Experts(MoE)模型的优化系统,能解决分布式训练中通信开销过大的问题。基于细粒度的计算-通信重叠技术,COMET将通信...
阅读原文

VideoPainter

VideoPainter 是香港中文大学、腾讯ARC Lab、东京大学、澳门大学等机构推出的视频修复和编辑框架,专门用在处理任意长度的视频内容。VideoPainter基于双分支...
阅读原文

月匣

月匣是百度推出的AI互动应用,主打情感陪伴和沉浸式剧本体验。用户选择多种AI角色进行个性化对话,如温柔好友、霸道总裁或二次元角色等,享受深度情感交流。...
阅读原文

LanDiff

LanDiff是用于高质量的文本到视频(T2V)生成的创新混合框架,结合了自回归语言模型(LLM)和扩散模型(Diffusion Model)的优势,通过粗到细的生成方式,有...
阅读原文

Tough Tongue AI 2.0

Tough Tongue AI 2.0 是多模态对话练习工具,帮助用户应对各种困难对话场景而设计。支持创建和分享多种对话场景,如面试、职场沟通、销售谈判等,提供智能对...
阅读原文

IMAGPose

IMAGPose 是南京理工大学推出的用于人体姿态引导图像生成的统一条件框架。解决传统方法在姿态引导的人物图像生成中存在的局限性,如无法同时生成多个不同姿态...
阅读原文

Heygem

Heygem 是硅基智能推出的开源数字人模型,专为 Windows 系统设计。基于先进的AI技术,仅需 1 秒视频或 1 张照片,能在 30 秒内完成数字人形象和声音克隆,在 ...
阅读原文

GO-1

GO-1(Genie Operator-1,智元启元大模型)是智元机器人推出的首个通用具身基座模型。模型采用Vision-Language-Latent-Action(ViLLA)架构,由VLM(多模态大...
阅读原文

Gemini Embedding

Gemini Embedding 是 Google 推出的先进的文本嵌入模型,基于将文本转化为高维数值向量,捕捉其语义和上下文信息。Gemini Embedding基于 Gemini 模型训练,具...
阅读原文

DoraCycle

DoraCycle 是新加坡国立大学 Show Lab 推出多模态领域适应的统一生成模型,通过两个多模态循环(text-to-image-to-text 和 image-to-text-to-image)实现不同...
阅读原文

Character-3

Character-3 是 Hedra Studio 推出的全模态 AI 数字人视频生成模型,能同时处理图像、文本和音频输入,通过联合推理生成高质量的视频。支持全身动作捕捉和情...
阅读原文

Nanobrowser

Nanobrowser 是开源的 Chrome 扩展工具,专注于 AI 驱动的网页自动化。Nanobrowser基于多智能体系统实现复杂的网页任务,如信息提取、自动化操作等。用户用自...
阅读原文

DINO-XSeek

DINO-XSeek 是 IDEA 研究院推出的多模态目标检测模型,结合视觉感知和自然语言理解能力。DINO-XSeek基于复杂的语言描述精准定位图像中的目标,识别目标的属性...
阅读原文
12728293031208