AI工具

PhonicMind:智能音乐分离平台助你轻松提取人声、鼓、贝斯及乐器音轨

PhonicMind是在线AI音乐处理平台,专注于从歌曲中提取和分离人声、乐器等音频元素。基于先进的AI技术,为用户提供精确的人声移除和音乐隔离功能,支持制作卡...
阅读原文

360 推出国产自研 AI 大模型,多项评测优于GPT-4o

360gpt2-o1 是 360 自研的 AI 大模型,在推理能力上有显著提升,特别是在数学和逻辑推理任务上表现出色。模型通过合成数据优化、模型后训练和“慢思考”范式实...
阅读原文

腾讯微信推出的多模态大模型

POINTS 1.5 是腾讯微信发布的多模态大模型,是POINTS 1.0的升级版本。 模型继续沿用了POINTS 1.0中的LLaVA架构,由一个视觉编码器、一个投影器和一个大型语言...
阅读原文

Slides Orator:AI驱动的虚拟解说平台实现幻灯片内容的即时生动呈现

Slides Orator是创新的AI平台,基于创建虚拟形象实时展示幻灯片进行解说。工具基于技术生成语音旁白,让演示内容动态地与观众互动,增强演示的吸引力和参与度...
阅读原文

Step-1o:国内首个千亿参数端到端语音大模型震撼发布,性提升语音识别与合成能力

Step-1o是阶跃星辰推出的国内首个千亿参数端到端语音大模型。模型支持语音、文本等混合形式的输入和输出,可以快速反应并随时打断,提供最便捷的互动体验;同...
阅读原文

Pika 2.0:Pika Labs全新AI视频生成工具助力创作者轻松制作高质量视频内容

Pika 2.0是Pika Labs推出的AI视频生成工具,在前代产品的基础上进行了重大更新,提供了更多的用户控制和定制化功能。Pika 2.0的核心特性包括改进的文本对齐和...
阅读原文

DeepSeek最新开源的MoE视觉语言模型系列

DeepSeek-VL2是DeepSeek最新开源的一系列大型混合专家(Mixture-of-Experts,简称MoE)视觉语言模型,在前代 DeepSeek-VL 的基础上进行了显著改进。DeepSeek-...
阅读原文

OpenAI最新推出的AI项目管理工具

ChatGPT Projects是OpenAI最新推出的集成多项实用工具的新功能,提升了用户的工作效率。Projects支支持用户上传各种文件,增强ChatGPT对话的深度与针对性。可...
阅读原文

在线AI图像生成器,高级自定义设置负面提示和模型选择

BYLO AI是免费的在线AI图像生成器,用户能用简单的文本提示快速生成高质量的图像。BYLO AI支持包括Flux模型在内的多种模型,BYLO AI提供灵活的图像设置,包括...
阅读原文

AI驱动的自动转录、翻译和字幕平台

SONIX是先进的AI驱动的自动转录、翻译和字幕平台,能将音频和视频文件快速准确地转换,支持49种语言的转录和50种语言的翻译,提供浏览器内编辑器,支持用户直...
阅读原文

Insight-V:多模态模型提升长链视觉推理能力的创新解决方案

Insight-V是南洋理工大学、腾讯公司和清华大学的研究者们共同推出的多模态模型,能提升多模态大型语言模型在长链视觉推理方面的能力。基于可扩展的数据生成流...
阅读原文

SVDQuant:高效扩散模型后训练量化技术提升AI性能与推理速度

SVDQuant是MIT研究团队推出的后训练量化技术,针对扩散模型,将模型的权重和激活值量化至4位,减少内存占用加速推理过程。SVDQuant引入高精度的低秩分支吸收...
阅读原文

Meta 推出控制数字智能体动作的人工智能模型

Meta Motivo 是 Meta 公司推出的AI模型,能提升元宇宙体验的真实性。Meta Motivo基于控制虚拟人形智能体的全身动作,模拟人类行为,增强用户互动。模型采用无...
阅读原文

VirtualFit:智能虚拟试衣助手实现多功能换衣与图像恢复扩展

VirtualFit是创新的AI虚拟试衣工具,基于人工智能技术让用户能轻松更换服装、恢复图像细节和扩展图像大小。用户只需上传照片,可选择不同的服装样式,AI会自...
阅读原文

微软推出的14B参数小语言模型,擅长数学等领域的复杂推理

Phi-4是微软推出的14亿参数小型语言模型,在数学等领域的复杂推理以及传统语言处理方面表现出色。Phi-4用数据质量为核心训练重点,大量融入合成数据,提升模...
阅读原文