AI项目和框架

RoboOS

RoboOS是智源研究院推出的首个跨本体具身大小脑协作框架。基于“大脑-小脑”分层架构,具身大脑RoboBrain负责全局感知与决策,小脑技能库负责低延迟精准执行,...
阅读原文

Vidu Q1

Vidu Q1 是清华大学人工智能研究院副院长、生数科技创始人兼首席科学家朱军教授团队推出的高可控视频大模型。在多主体细节可控、音效同步可控、画质增强等方...
阅读原文

PaddleSpeech

PaddleSpeech 是百度飞桨团队开源的语音处理工具,提供全面的语音处理功能,包括语音识别、语音合成、声纹识别、语音翻译等。PaddleSpeech提供命令行界面、服...
阅读原文

ChatAnyone

ChatAnyone是阿里巴巴通义实验室推出的实时风格化肖像视频生成框架。通过音频输入,生成具有丰富表情和上半身动作的肖像视频。采用高效分层运动扩散模型和混...
阅读原文

Math24o

Math24o 是中文大模型测评基准 SuperCLUE 开源的高中奥林匹克数学竞赛级别的数学推理测评基准。主要用于评估大型语言模型在数学推理方面的能力。使用2024年全...
阅读原文

TripoSG

TripoSG 是 VAST-AI-Research 团队推出的基于大规模修正流(Rectified Flow, RF)模型的高保真 3D 形状合成技术, 通过大规模修正流变换器架构、混合监督训练...
阅读原文

TripoSF

TripoSF是VAST推出的新一代3D基础模型,突破传统3D建模在细节、复杂结构和扩展性上的瓶颈。采用SparseFlex表示方法,结合稀疏体素结构,仅在物体表面附近的区...
阅读原文

DistilQwen2.5-R1

DistilQwen2.5-R1 是阿里巴巴推出的基于知识蒸馏技术的小型化系列深度推理模型,包含3B、7B、14B和32B四个参数量级的模型。DistilQwen2.5-R1将超大规模模型(...
阅读原文

TxGemma

TxGemma 是谷歌推出的用于药物发现的通用人工智能模型,通过 AI 技术加速药物研发进程。基于 Google 的 Gemma 框架开发,能理解常规文本以及化学物质、分子和...
阅读原文

QVQ-Max

QVQ-Max 是阿里通义推出的视觉推理模型,是QVQ-72B-Preview的正式升级版。QVQ-Max能“看懂”图片和视频内容,结合信息进行分析、推理和解决问题。QVQ-Max支持应...
阅读原文

ModelEngine

ModelEngine 是华为开源的全流程 AI 开发工具链,围绕数据使能、模型使能和应用使能三大核心功能展开,解决 AI 行业化落地过程中数据工程耗时长、模型训练和...
阅读原文

Ideogram 3.0

Ideogram 3.0 是Ideogram推出的 AI 图像生成模型。Ideogram 3.0在图像生成质量上实现飞跃,具备高度的真实感、出色的文本渲染和强大的语言理解能力,支持生成...
阅读原文

Piece it Together

Piece it Together (PiT)是Bria AI等机构推出的创新图像生成框架,专门用在从部分视觉组件生成完整的概念图像。基于特定领域的先验知识,将用户提供的碎片...
阅读原文

RF-DETR

RF-DETR是Roboflow推出的实时目标检测模型。RF-DETR是首个在COCO数据集上达到60+平均精度均值(mAP)的实时模型,性能优于现有的目标检测模型。RF-DETR结合LW...
阅读原文

Bolt3D

Bolt3D 是谷歌研究院、牛津大学 VGG 团队和谷歌 DeepMind 联合推出的新型 3D 场景生成技术,是潜在扩散模型,能在单个 GPU 上,仅需不到七秒的时间,直接从一...
阅读原文
12223242526123