AI工具

Luma Ray2

Luma Ray2 是 Luma AI 推出的最新视频生成模型,Ray2 基于 Luma 新的多模态架构训练后展现出先进功能,该架构的计算能力是 Ray1 的 10 倍。能生成快速连贯的...
阅读原文

Pipecat

Pipecat是开源的Python框架,专注于构建语音和多模态对话代理。基于内置的语音识别、文本转语音(TTS)和对话处理功能,简化AI服务的复杂协调、网络传输、音...
阅读原文

Loora

Loora 是先进的 AI 英语辅导应用,能帮助用户提高英语口语能力。基于模拟各种真实场景的对话,让用户在商务、面试、日常交流等情境中练习英语。Loora 能实时...
阅读原文

RealtimeSTT

RealtimeSTT是开源的实时语音转文本库,专为低延迟应用设计。有强大的语音活动检测功能,可自动识别说话的开始与结束,通过WebRTCVAD和SileroVAD进行精准检测...
阅读原文

Step R-mini

Step R-mini(全称Step Reasoner mini)是阶跃星辰推出的推理模型, 是 Step 系列模型家族的首个推理模型,擅长主动规划、尝试和反思,基于慢思考和反复验证...
阅读原文

豆包AI编程

豆包AI编程是豆包推出的智能编程功能。基于AI技术,提供更便捷的代码导入流程,支持一键上传多个本地代码文件和实时引入GitHub开源仓库,快速获取项目的完整...
阅读原文

GLM-Realtime

GLM-Realtime是智谱推出的全新端到端多模态模型,具备低延迟的视频理解与语音交互能力,特别融入清唱功能,让大模型在对话中能展现歌唱才能。模型支持长达2分...
阅读原文

Aibiye

Aibiye是AI论文写作辅助平台,基于Multimodal+Global Thought Chain语言模型,为用户提供从开题报告到完整论文的生成服务。用户只需输入关键词、选择专业和字...
阅读原文

CogView-3-Flash

CogView-3-Flash 是智谱推出的首个免费AI图像生成模型,能根据文本描述生成高审美分数的图像,支持多种分辨率,满足专业领域需求。模型具备创意多样性,基于...
阅读原文

Product Avatar

Product Avatar 是 TopView 推出的 AI 工具,能将产品图片转化为由虚拟人物手持展示的视频。用户只需上传产品图片,选择虚拟人物模板,AI 能生成逼真的展示视...
阅读原文

LlamaV-o1

LlamaV-o1是阿联酋穆罕默德·本·扎耶德人工智能大学等机构提出的新多模态视觉推理模型,旨在提升大型语言模型的逐步视觉推理能力。引入视觉推理链基准测试VRC-...
阅读原文

Kokoro-TTS

Kokoro-TTS 是 hexgrad 开发的轻量级文本转语音(TTS)模型,具有 8200 万参数。基于 StyleTTS 2 和 ISTFTNet 的混合架构,采用纯解码器设计,不使用扩散模型...
阅读原文

MinMo

MinMo是阿里巴巴通义实验室FunAudioLLM团队推出的多模态大模型,专注于实现无缝语音交互。MinMo拥有约80亿参数,基于多阶段训练,在140万小时多样化语音数据...
阅读原文

ChatGPT Tasks

ChatGPT Tasks是OpenAI推出的新功能,属于OpenAI Agent的初步形态。ChatGPT Tasks赋予ChatGPT执行力,用户能在ChatGPT聊天界面的“4o与计划任务”模式中,用自...
阅读原文

MiniMax-01

MiniMax-01是MiniMax推出的全新系列模型,包含基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01。MiniMax-01首次大规模实现线性注意力机制,打...
阅读原文
123153