AI项目和框架
FramePackLoop
FramePackLoop 是基于 FramePack 推出的无限循环视频生成工具。工具通过创建主视频和连接视频,将视频组合成循环视频,适用视频背景、图标等场景。
MiniCPM-V 4.5
MiniCPM-V 4.5是面壁智能推出的端侧多模态模型,拥有8B参数。模型在图片、视频、OCR等多个领域表现卓越,尤其在高刷视频理解方面取得突破,能处理高刷新率视...
Youtu-agent
Youtu-agent 是腾讯优图实验室推出的开源智能体框架,用在构建、运行和评估自主智能体。框架基于开源模型DeepSeek-V3实现领先性能,支持多种模型 API 和工具...
Gemini 2.5 Flash Image
Gemini 2.5 Flash Image(代号nano banana)是谷歌 AI Studio推出的先进图像生成与编辑模型。模型能保持角色在不同场景中的一致性,支持通过自然语言进行精准...
SpatialLM 1.5
SpatialLM 1.5 是群核科技推出的强大的空间语言模型。模型基于大语言模型训练,能理解自然语言指令,输出包含空间结构、物体关系和物理参数的空间语言。用户...
WhisperLiveKit
WhisperLiveKit 是开源的实时语音识别工具,能将语音实时转录为文字,支持说话人识别。工具基于先进的技术如 SimulStreaming 和 WhisperStreaming,提供超低...
XBai o4
XBai o4是开源的大语言模型,基于“反射生成形式”训练,结合长CoT强化学习和过程奖励学习,在复杂推理能力上表现出色,中等模式下已超越OpenAI-o3-mini。
EchoMimicV3
EchoMimicV3是蚂蚁集团推出的高效多模态、多任务数字人视频生成框架。框架拥有13亿参数,基于任务混合和模态混合范式,结合新颖的训练与推理策略,实现快速、...
SpatialGen
SpatialGen 是群核科技开源的 3D 场景生成模型。模型基于扩散模型架构,支持根据文字描述、参考图像和 3D 空间布局,生成时空一致的多视角图像,且能进一步得...
DeepSeek V3.1
DeepSeek V3.1是DeepSeek最新推出的AI模型版本,具备混合推理架构,能自由切换思考模式与非思考模式,思考效率显著提升。模型在V3的基础上进行多项升级,上下...