AI项目和框架

Loopy

Loopy是字节跳动推出的音频驱动的AI视频生成模型,用户可以让一张静态照片动起来,照片中的人物根据给定的音频文件进行面部表情和头部动作的同步,生成逼真的...
阅读原文

xLAM

xLAM 是 Salesforce 开源的一款大型语言模型,专为功能调用任务设计。模型能理解和执行基于自然语言指令的 API 调用,它在自动化任务和与各种数字服务交互方...
阅读原文

CodeFormer

CodeFormer是一款由南洋理工大学和商汤科技联合开发的AI照片和视频修复工具。融合了变分自动编码器(VQGAN)和Transformer技术,对模糊和马赛克的照片或视频...
阅读原文

Mini-Omni

Mini-Omni 是一个开源的端到端语音对话模型,具备实时语音输入和输出的能力,能在对话中实现“边思考边说话”的功能。模型的设计支持在不需要额外的自动语音识...
阅读原文

Composio

Composio 是一个AI智能体开发辅助工具,提供100+集成工具,简化了 AI Agent的开发和部署,支持开发者通过一行代码调用多种工具和框架,如 OpenAI 和 Claude、...
阅读原文

DeepSeek-V2.5

DeepSeek-V2.5 是DeepSeek推出的融合通用与代码能力的全新开源模型。保留了之前 Chat 模型的通用对话能力以及 Coder 模型的代码处理能力,更好地对齐了人类的...
阅读原文

MLE-Agent

MLE-Agent 是一款专为机器学习工程师和研究人员设计的智能助手,通过自动化基线创建、集成最新研究资源、智能调试、文件系统和工具集成,以及交互式命令行聊...
阅读原文

ViewCrafter

ViewCrafter 是北大和港中文联合腾讯提出的一种先进的视频扩散模型,能从单个或少量图像中合成高保真的新视图。结合了视频扩散模型的生成能力和基于点的3D表...
阅读原文

FluxMusic

FluxMusic 是一个开源的音乐生成模型,基于扩散模型和 Transformer 架构将文本描述转换成音乐。模型能处理复杂的文本指令,生成具有特定情感、风格和乐器的音...
阅读原文

LightEval

LightEval是Hugging Face推出的一款轻量级AI评估工具,专门用于评估大型语言模型(LLMs)。LightEval支持多任务处理和复杂模型配置,能在多种硬件上运行,包...
阅读原文

RegionDrag

RegionDrag是由香港大学和牛津大学联合开发的一种基于区域的图像编辑技术。基于扩散模型,让用户定义手柄区域和目标区域来表达编辑意图,实现快速且精确的图...
阅读原文

LinFusion

LinFusion 是新加坡国立大学研究团队开发的一种创新图像生成模型,基于线性注意力机制来处理高分辨率图像生成任务。使模型在处理大量像素时的计算复杂度保持...
阅读原文

Deepfake Defenders

Deepfake Defenders是由中国科学院自动化研究所的团队VisionRush开发的一款开源AI模型,旨在识别和防御Deepfake技术生成的伪造图像和视频。模型通过分析媒体...
阅读原文

蓝心大模型

蓝心大模型是vivo发布的全新自研通用大模型矩阵,包括语言大模型、端侧大模型、语音大模型、图像大模型以及多模态大模型。在多个领域和场景中发挥着重要作用...
阅读原文

VideoLLaMB

VideoLLaMB 是一种创新的长视频理解框架,通过引入记忆桥接层和递归记忆令牌来处理视频数据,确保在分析时不丢失关键视觉信息。模型特别设计用于理解长时间视...
阅读原文
1394041424363