OpenAudio S1

OpenAudio S1是Fish Audio推出的文本转语音(TTS)模型,基于超过200万小时的音频数据训练,支持13种语言。采用双自回归(Dual-AR)架构和强化学习与人类反馈...
阅读原文

PlayDiffusion

PlayDiffusion是PlayAI推出的新型音频编辑模型,基于扩散模型技术,专门用在音频的精细编辑和修复。模型将音频编码为离散的标记序列,对需要修改的部分进行掩...

AiMakeSong

AiMakeSong 是基于人工智能的音乐和歌曲生成平台,支持用户通过简单的文本输入或歌词创作来生成高质量的音乐作品。用户可以选择将文字描述转化为音乐,或者将...
阅读原文

Auto Think

Auto Think是快手Kwaipilot团队开源的KwaiCoder-AutoThink-preview自动思考大模型,模型针对深度思考大模型存在的“过度思考”问题进行了深入研究,提出了一种...
阅读原文

酷雀AI智能抠图

酷雀AI智能抠图是高效便捷的AI图片处理工具。基于先进的AI技术,能快速精准地识别图片中的主体自动去除背景,实现精细化抠图。支持人像、物品或者复杂场景,...
阅读原文

Firesearch

Firesearch 是 Mendable AI 团队推出的 AI 驱动的深度研究工具。基于 Firecrawl 多源网络内容提取技术,结合 OpenAI GPT-4o 的搜索规划和内容生成能力,将复...
阅读原文

CRIC深度智联

CRIC深度智联是克而瑞推出的中国首个房地产垂直领域的AI Agent。CRIC深度智联基于克而瑞20年的行业经验和海量数据积累,结合多模态大模型技术,为房地产行业...
阅读原文

OCode

OCode 是终端原生 AI 编程助手,为开发者提供深度代码库智能和自动任务执行功能。与本地 Ollama 模型无缝集成,将企业级 AI 辅助直接融入开发流程中。终端原...
阅读原文

Jaaz

Jaaz 是开源的 AI 设计工具,是 Lovart 的本地免费替代品。具备强大的 AI 设计能力,能智能生成设计提示,批量生成图像、海报、故事板等。Jaaz 支持 Ollama、...
阅读原文

Mary Meeker团队推出《人工智能趋势报告》(PDF文件)

Mary Meeker团队推出的《人工智能发展趋势》报告,全面分析AI技术的爆炸式发展及全球影响。报告指出,AI的用户增长(如ChatGPT在17个月内达到8亿用户)和资本...
阅读原文

VRAG-RL

VRAG-RL是阿里巴巴通义大模型团队推出的视觉感知驱动的多模态RAG推理框架,专注于提升视觉语言模型(VLMs)在处理视觉丰富信息时的检索、推理和理解能力。基...
阅读原文

TrackVLA

TrackVLA是银河通用推出的产品级端到端导航大模型。模型具备纯视觉环境感知、语言指令驱动、自主推理和零样本泛化能力,能实现从视觉感知到动作输出的全链路...
阅读原文

TEN VAD

TEN VAD 是高性能的实时语音活动检测系统,专为企业级应用设计。TEN VAD能精确地检测音频流中的语音活动,具有低延迟、轻量级和高精度的特点。TEN VAD 基于先...
阅读原文

Google AI Edge Gallery

Google AI Edge Gallery 是谷歌推出的实验性应用,支持让用户在本地设备上体验和使用机器学习(ML)及生成式人工智能(GenAI)模型。应用目前支持在 Android...
阅读原文

Bing Video Creator

Bing Video Creator 是微软推出AI视频生成工具。由OpenAI的Sora模型提供支持,能根据用户输入的文本描述快速生成视频内容。用户只需在Bing移动应用中输入详细...
阅读原文
178910111,523