Phi-4-Multimodal

Phi-4-Multimodal 是微软最新推出的多模态语言模型,拥有 56 亿参数,能将语音、视觉和文本处理集成到一个统一架构中。模型在多个基准测试中表现优异,在自动...
阅读原文

R1-Onevision

R1-Onevision 是开源的多模态大语言模型,专注于复杂视觉推理任务。基于 Qwen2.5-VL 微调而成,通过整合视觉和文本数据,能精准地进行多模态信息解释。在数学...
阅读原文

Phi-4-Mini

Phi-4-Mini 是微软 Phi-4 系列中最新推出的专注于文本任务的小型语言模型,参数量为 38 亿。基于密集的解码器-only Transformer 架构,结合分组查询注意力(G...
阅读原文

IndexTTS

IndexTTS 是 B 站推出的工业级可控文本转语音(TTS)系统。基于 XTTS 和 Tortoise 模型开发,结合了 GPT 风格的生成技术,能将文本高效转化为自然流畅的语音...
阅读原文

All Voice Lab

All Voice Lab(趣丸千音)是全球领先的AI语音创作平台,提供一站式智能语音解决方案,基于趣丸科技与香港中文大学(深圳)联合研发的MaskGCT语音大模型开发...
阅读原文

a0.dev

a0.dev 是基于 AI 技术的开发平台,专注于快速生成 React Native 应用。a0.dev 基于自然语言输入,自动生成完整的 React Native 项目代码,包括前端界面、状...
阅读原文

VideoGrain

VideoGrain 是悉尼科技大学和浙江大学推出的零样本多粒度视频编辑框架,能实现类别级、实例级和部件级的精细视频修改。VideoGrain基于调节时空交叉注意力和自...
阅读原文

Dreamona

Dreamona 是 AI 视频生成工具,用户基于简单的文字描述或上传图片,快速生成高质量的动态视频。Dreamona 支持多种视频风格,从现实主义到创意动画,满足不同...
阅读原文

Zapier Agents

Zapier Agents 是 Zapier 推出的 AI 自动化工具,通过人工智能技术帮助用户高效处理各种任务。能与 Zapier 支持的 7000 多个应用程序无缝集成,例如 Salesfor...
阅读原文

腾讯混元Turbo S

腾讯混元Turbo S是腾讯推出的新一代快思考模型。模型采用创新的Hybrid-Mamba-Transformer融合架构,有效降低了传统Transformer的计算复杂度,减少了KV-Cache...
阅读原文

开发者坦白局:大家都用 DeepSeek R1 做了啥?

来听听Monica、FateTell和赵纯想的分享。
阅读原文