Phi-4-reasoning-vision-15B

Phi-4-reasoning-vision-15B是微软开源的150亿参数多模态推理模型,基于Phi-4-Reasoning语言模型和SigLIP-2视觉编码器构建。
阅读原文

泡漫

泡漫是掌阅科技推出的一站式AI漫剧生成平台,专注用AI重新定义漫剧创作。平台整合超1万部小说IP,提供动态漫、解说漫、AI真人剧等多种形态,将制作周期压缩至...
阅读原文

MiniMax Music 2.5+

MiniMax Music 2.5+是MiniMax推出的AI音乐生成模型,主打纯音乐创作能力。模型支持古典管弦、电子、氛围音等多元风格,覆盖冥想、助眠、游戏、影视等全场景。
阅读原文

阿里QoderWork实测

最近科技圈被一只小龙虾(OpenClaw)刷屏了,看着无数友友晒出 AI 自己操控电脑、写代码...确实很吸引人。 但实际要配置 OpenClaw,不仅要懂怎么配本地环境...
阅读原文

MagicAgent

MagicAgent是荣耀联合复旦大学推出的智能体基础模型,以32B密集架构和30B-A3B MoE架构实现百亿参数内最强性能。
阅读原文

GPT‑5.3 Instant

GPT‑5.3 Instant 是 OpenAI 推出的轻量级对话模型,专为优化日常聊天体验设计。模型显著改善"爱说教、太啰嗦"的机械语气,回答更直接自然,联网搜...
阅读原文

Gemini 3.1 Flash-Lite

Gemini 3.1 Flash-Lite是Google推出的轻量级旗舰模型,主打极致性价比。模型以每秒363 token的输出速度、0.25美元/百万token的输入价格,在速度上碾压GPT-5 m...
阅读原文

MaxClaw部署教程

最近的AI圈几乎都被这只龙虾刷屏了... OpenClaw 可以像真人一样理解指令,并自己拆解任务,自动跑完我们要求的整个工作流程,但部署门槛难倒了一大批人。 ...
阅读原文

Fun-CosyVoice3.5

Fun-CosyVoice3.5 是阿里通义实验室语音团队最新发布的语音生成模型,主打多语种音色复刻与精细化表达控制。模型最突出的创新在于FreeStyle自然语言控制能力—...
阅读原文

FireRed-OCR

FireRed-OCR 是小红书团队开源的轻量级文档结构解析视觉语言模型,以仅 2B 参数的规模在 OmniDocBench v1.5 权威评测中斩获 92.94% 综合得分,超越 GPT-5.2、...
阅读原文

Fun-AudioGen-VD

Fun-AudioGen-VD 是阿里通义实验室语音团队推出的创新语音大模型,定位为面向"声音设计与场景化音频生成"的专业工具。模型支持"FreeStyle&quo...
阅读原文

Epismo

Epismo 是 AI 工作流管理与协作平台,致力于将零散的 AI 操作经验转化为标准化的"技能"单元。平台支持 Gemini、Claude、ChatGPT 等多种 AI Agent ...
阅读原文

theORQL

theORQL 是具备视觉感知能力的前端 AI 编程工具。工具打通了 Chrome DevTools 与 VS Code/Cursor,实现运行时全景感知,能捕获 DOM、CSS、网络请求和 Console...
阅读原文

Goose

Goose 是 Block 开源的本地 AI Agent 框架,能自主执行完整工程任务——读文件、写代码、跑测试、调 API、自动 Debug,出错后自我修正直至完成。
阅读原文

Nano Banana 2 实测

Nano Banana 2 来了。 昨天,谷歌推出最新图像模型 Nano Banana 2(Gemini 3.1 Flash Image),发布即空降 Arena 文生图排行榜第一!Lovart 第一时间就可以体...
阅读原文