AI项目和框架

HappyOyster

HappyOyster是阿里ATH创新事业部推出的开放式世界模型产品,定位为可实时构建与交互的AI生成式体验平台。产品基于世界模型技术,支持无限延展的实时内容生成...
阅读原文

StepAudio 2.5 TTS

StepAudio 2.5 TTS是阶跃星辰推出的Contextual TTS(语境感知语音合成模型),首次将语境理解能力引入语音生成全流程。
阅读原文

Gemini 3.1 Flash TTS

Gemini 3.1 Flash TTS是Google推出的新一代文本转语音模型,提供更强的可控性、表现力和音质。模型支持70多种语言,引入音频标签技术,可通过自然语言指令精...
阅读原文

混元3D世界模型 2.0

混元3D世界模型 2.0(HY-World 2.0)是腾讯混元推出的开源多模态世界模型,支持从文本、单图、多视图或视频生成可漫游的3D高斯溅射(3DGS)场景。模型采用四...
阅读原文

Relax

Relax 是小红书AI平台团队开源的面向全模态与 Agentic 场景设计的大模型强化学习训练引擎。基于 Megatron-LM 与 SGLang 构建,采用服务化容错架构(Ray Serve...
阅读原文

Marble 1.1

Marble 1.1 是李飞飞 World Labs 推出的新一代生成式世界模型,主打画质优化。模型能将单张图片、视频或全景图转化为可自由探索的沉浸式 3D 场景,显著改善光...
阅读原文

MAI-Image-2-Efficient

MAI-Image-2-Efficient是微软推出的自研文生图模型,为MAI-Image-2的轻量高效版本,主打高性价比商业量产,在保持照片级真实图像质量的同时,实现成本降低41%...
阅读原文

SearchClaw

SearchClaw 是 RUC-NLPIR(中国人民大学信息检索实验室)推出的自托管式 AI 深度研究智能体,配备 Web 交互界面。用户提交问题后,系统自动执行多轮网络搜索...
阅读原文

Spark 2.0

Spark 2.0是World Labs(李飞飞创立)开源的Web端3D高斯溅射渲染引擎,基于Three.js和WebGL2构建。Spark 2.0首创LoD细节层次系统、渐进式流式传输与虚拟内存...
阅读原文

ERNIE-Image

ERNIE-Image是百度文心团队开源的8B参数文生图模型,基于Diffusion Transformer架构,主打高可控性与精准长文本渲染。
阅读原文

OmniShow

OmniShow是字节跳动联合港中文、莫纳什、港大开源的多模态人-物交互视频生成模型。作为首个支持RAP2V(参考图+音频+姿势)的端到端框架,模型统一处理文本、...
阅读原文

Mano-P 1.0

Mano-P 1.0是明略科技开源的GUI-VLA智能体模型,采用纯视觉驱动,无需API可直接操控桌面软件与网页界面。模型提供72B完整版与4B量化版,支持Apple M4芯片本地...
阅读原文

HeyGen CLI

HeyGen CLI是HeyGen官方推出的命令行工具与MCP服务器,基于Model Context Protocol协议构建。工具支持开发者及AI助手(如Claude、Cursor)通过自然语言直接调...
阅读原文

PokeClaw

PokeClaw(全称 PocketClaw)是开源 Android AI 自动化应用,由开发者 Nicole 独立打造。是首个实现完全本地离线运行的手机 AI 代理,基于 Google Gemma 4 模...
阅读原文

LPM 1.0

LPM 1.0(Large Performance Model)是Anuttacon(蔡浩宇AI公司)推出的17B参数视频角色表演生成模型,支持实时全双工音视频对话。
阅读原文
123183