WhisperLiveKit

WhisperLiveKit 是开源的实时语音识别工具,能将语音实时转录为文字,支持说话人识别。工具基于先进的技术如 SimulStreaming 和 WhisperStreaming,提供超低...
阅读原文

VibePPT

VibePPT 是 AI 演示文稿制作工具,通过对话式交互,让用户能快速生成具有专业设计感的演示文稿。用户只需输入主题或内容,VibePPT能智能生成幻灯片,提供多种...
阅读原文

DingTalk A1

DingTalk A1 是钉钉推出的智能办公设备,集成多种办公功能,如智能考勤、门禁管理、会议室预订等,能有效提升企业办公效率。通过与钉钉软件的深度结合,DingT...
阅读原文

XBai o4

XBai o4是开源的大语言模型,基于“反射生成形式”训练,结合长CoT强化学习和过程奖励学习,在复杂推理能力上表现出色,中等模式下已超越OpenAI-o3-mini。

VibeVoice

VibeVoice 是微软推出的新型文本到语音(TTS)模型,能生成富有表现力、长篇幅、多说话者的对话式音频,如播客。
阅读原文

EchoMimicV3

EchoMimicV3是蚂蚁集团推出的高效多模态、多任务数字人视频生成框架。框架拥有13亿参数,基于任务混合和模态混合范式,结合新颖的训练与推理策略,实现快速、...
阅读原文

SpatialGen

SpatialGen 是群核科技开源的 3D 场景生成模型。模型基于扩散模型架构,支持根据文字描述、参考图像和 3D 空间布局,生成时空一致的多视角图像,且能进一步得...
阅读原文

内容特工队ReelsAgent

内容特工队ReelsAgent是全球首个移动端AI营销视频智能体Agent。实现了从市场调研、创意生成到视频发布全流程自动化,用户只需输入需求,可生成适配多平台的专...
阅读原文

问小白o4

问小白o4是国内首个并行思考模型,能同时启动8条思考路径,自动筛选最优解,提供精准答案。模型融合Long‑CoT强化学习与过程奖励学习,具备深度推理和高质量思...
阅读原文

FutureX

FutureX是字节跳动、复旦大学、斯坦福大学和普林斯顿大学的研究团队联合发布的,专为LLM智能体未来预测任务设计的动态实时评估基准。通过半自动化管道从195个...
阅读原文

DeepSeek V3.1

DeepSeek V3.1是DeepSeek最新推出的AI模型版本,具备混合推理架构,能自由切换思考模式与非思考模式,思考效率显著提升。模型在V3的基础上进行多项升级,上下...
阅读原文

BubblePal

BubblePal 是跃然创新(Haivivi)推出的智能 AI 陪伴玩具,支持角色扮演、多语言对话、AI 故事共创等功能,能实时监测情绪,为监护者提供干预信息。产品用经 ...
阅读原文

SlowFast-LLaVA-1.5

SlowFast-LLaVA-1.5(简称SF-LLaVA-1.5)是专为长视频理解设计的高效视频大语言模型。基于双流(SlowFast)机制,平衡处理更多输入帧与减少每帧令牌数量之间...
阅读原文

CourseCorrect

CourseCorrect 是帮助用户提升技能的智能学习平台。用户只需输入想学习的主题,平台能快速从互联网上筛选出排名前20的优质课程。与传统课程评价不同,CourseC...
阅读原文

Snowglobe

Snowglobe 是 Guardrails AI 推出的 AI 代理和聊天机器人模拟测试工具。通过模拟真实用户行为,快速生成大量对话数据,帮助开发者在部署前发现潜在问题。Snow...
阅读原文