AI项目和框架

DINO-XSeek

DINO-XSeek 是 IDEA 研究院推出的多模态目标检测模型,结合视觉感知和自然语言理解能力。DINO-XSeek基于复杂的语言描述精准定位图像中的目标,识别目标的属性...
阅读原文

AppAgentX

AppAgentX 是西湖大学推出的新型自我进化式 GUI(图形用户界面)代理框架,基于从执行历史中抽象出高级动作提升代理在智能手机交互中的效率和智能性。AppAgen...
阅读原文

URO-Bench

URO-Bench 是面向端到端语音对话模型(SDMs)的全面基准测试工具。涵盖了多语言、多轮对话、副语言信息等多维度任务,全面评估语音对话模型的性能。

GCDance

GCDance(Genre-Controlled 3D Full Body Dance Generation Driven by Music)是英国萨里大学和江南大学推出的3D舞蹈生成框架,能根据音乐和文本提示生成符合...
阅读原文

LaWGPT

LaWGPT 是南京大学推出的中文法律大语言模型,基于 LLaMA 模型进行二次预训练,融入大量中文法律知识。专注于法律领域,能理解和生成与法律相关的文本,适用...
阅读原文

OpenManus

OpenManus 是MetaGPT 团队推出的开源复刻版 Manus,提供无需邀请码的 AI Agent 。OpenManus基于模块化设计,支持多种语言模型和工具链,能执行代码、处理文件...
阅读原文

NEXUS-O

NEXUS-O 是HiThink 研究院、英国帝国理工学院、浙江大学、复旦大学、微软、Meta AI等机构推出的多模态AI模型,能实现对语言、音频和视觉信息的全方位感知与交...
阅读原文

OWL

OWL(Optimized Workforce Learning)是基于CAMEL-AI框架开发的多智能体协作系统,通过智能体之间的动态交互实现高效的任务自动化。通过角色分配和任务分解,...
阅读原文

TicVoice 7.0

TicVoice 7.0 是出门问问推出的第七代高品质 TTS(语音合成)引擎,基于新一代语音生成模型 Spark-TTS 。TicVoice 7.0基于创新的 BiCodec 编码方式,将语音分...
阅读原文

GEN3C

GEN3C 是NVIDIA、多伦多大学和向量研究所推出的新型生成式视频模型,基于精确的相机控制和时空一致性生成高质量的 3D 视频内容。GEN3C构建基于点云的 3D 缓存...
阅读原文

Mercury Coder

Mercury Coder 是 Inception Labs 推出的首个扩散型大语言模型(dLLM),是 Mercury 系列中专门用在代码生成的模型。Mercury Coder基于“从粗到细”的生成方式...
阅读原文

SuperGPQA

SuperGPQA 是字节跳动豆包大模型团队联合 M-A-P 推出的全面覆盖 285 个研究生级学科、包含 26529 道专业题目的知识推理基准测试集。解决传统评测基准学科覆盖...
阅读原文

SpeciesNet

SpeciesNet 是 Google 开源的人工智能模型,通过分析相机陷阱拍摄的照片来识别动物物种。基于超过 6500 万张图像训练而成,能识别超过 2000 种标签,包括动物...
阅读原文

GaussianCity

GaussianCity 是南洋理工大学 S-Lab 团队推出的高效无边界3D城市生成框架,基于3D高斯绘制(3D-GS)技术。引入紧凑的 BEV-Point 表示方法,将场景的显存(VRA...
阅读原文

Asyncflow v1.0

Asyncflow v1.0 是播客平台 Podcastle 推出的 AI 文本转语音模型。支持超过 450 种语音选项,能为文本内容生成高质量的语音朗读,适用于多种语言和风格。
阅读原文
13839404142131