AI项目和框架

XVerse

XVerse是字节跳动智能创作团队推出的新型多主体控制图像生成模型。模型在文本到图像生成领域实现对多个主体身份和语义属性（如姿势、风格、光照）的精细控制...

阅读原文

AI工具

12个月前

Qwen-TTS

Qwen-TTS是阿里通义推出的语音合成模型，具备自然、稳定、快速的特点。模型能根据文本和音色参数输出高质量音频，支持中英文及方言合成，如北京话、上海话、...

阅读原文

AI工具

12个月前

Speakr

Speakr是开源免费的AI会议助手，支持确保数据绝对私密的前提下，自动化完成会议录音转写、内容摘要提炼与智能问答。Speakr无需联网就能运行，所有数据处理均...

阅读原文

AI工具

12个月前

Deep Video Discovery

Deep Video Discovery（DVD）是微软推出的深度视频探索智能体，专为理解和分析长视频设计。Deep Video Discovery将长视频分割成多个较短的片段，基于大型语言...

阅读原文

AI工具

12个月前

FairyGen

FairyGen 是大湾区大学推出的动画故事视频生成框架，支持从单个手绘角色草图出发，生成具有连贯叙事和一致风格的动画故事视频。框架借助多模态大型语言模型（...

阅读原文

AI工具

12个月前

WorldVLA

WorldVLA是阿里巴巴达摩院和浙江大学联合推出的自回归动作世界模型，模型将视觉-语言-动作（VLA）模型与世界模型整合到一个单一框架中。模型基于动作和图像理...

阅读原文

AI工具

12个月前

AnimaX

AnimaX是北京航空航天大学联合清华大学、香港大学等推出的高效3D动画生成框架，将视频扩散模型的动作先验与基于骨骼的动画结构相结合。框架能将视频中的动作...

阅读原文

AI工具

12个月前

Ovis-U1

Ovis-U1是阿里巴巴集团Ovis团队推出的多模态统一模型，拥有30亿参数。模型集成多模态理解、文本到图像生成和图像编辑三种核心能力，基于先进的架构和协同统一...

阅读原文

AI工具

12个月前

OAgents

OAgents 是OPPO PersonalAI Lab推出的开源基础Agent框架。框架基于标准化的评估协议和模块化设计，推动Agent框架的研究。OAgents基于系统实证研究，分析关键A...

阅读原文

AI工具

12个月前

MCP Server Chart

MCP Server Chart 是蚂蚁AntV团队推出的可视化图表生成工具。工具基于Model Context Protocol（MCP）协议，支持超过25种可视化图表，包括常见的统计图表（如...

阅读原文

AI工具

12个月前

Qwen VLo

Qwen VLo 是通义千问团队推出的多模态统一理解与生成模型。在多模态大模型的基础上进行了全面升级，能“看懂”世界，能基于理解进行高质量的再创造，实现了从感...

阅读原文

AI工具

12个月前

FilMaster

FilMaster 是香港大学、快手科技、微软研究院和清华大学联合推出的AI电影制作系统，将电影制作原则与生成式人工智能相结合，实现从剧本到最终影片的全自动制...

阅读原文

AI工具

12个月前

MultiAgentPPT

MultiAgentPPT 是多智能体演示文稿生成系统，基于 A2A（Ask-to-Answer）、MCP（Multi-agent Control Protocol）和 ADK（Agent Development Kit）架构。MultiA...

阅读原文

AI工具

12个月前

混元-A13B

混元-A13B是腾讯最新推出的开源大语言模型，基于专家混合（MoE）架构，总参数量达800亿，激活参数为130亿。具备轻量级设计和高效推理能力，仅需1张中低端GPU...

阅读原文

AI工具

12个月前

Kling-Foley

Kling-Foley 是可灵 AI 推出的多模态视频生音效模型。模型将视频和文本提示作为条件输入，能生成与视频内容语义相关、时间同步的高质量立体声音频，涵盖音效...

阅读原文

AI工具

12个月前

1…67 686970 71…196