标签:语音识别

AndroidGen

AndroidGen 是智谱技术团队推出增强基于大语言模型(LLM)的 Agent 能力的框架,特别是在数据稀缺的情况下。框架通过收集人类任务轨迹基于这些轨迹训练语言模...
阅读原文

瀚海智语

瀚海智语(OceanDS)是国家海洋环境预报中心联合海洋出版社和三六零数字安全科技共同推出的国内首个海洋垂直领域大语言模型,模型以360智脑13B和Deepseek-R1-...
阅读原文

龙猫LongCat

LongCat(龙猫)是美团自主研发的生成式AI大模型,通过人工智能技术提升公司内部工作效率和创新能力。模型具备强大的多模态能力,能处理文本、图像等多种数据...
阅读原文

算了么

算了么是创新的算力共享平台,让用户通过共享闲置的GPU资源来支持科学研究和推动科技进步,同时还能从中获得收益。用户加入后,平台会自动利用电脑闲置算力进...
阅读原文

Marker

Marker 是开源的高精度文档转换工具,专注于将 PDF、Word 等多种文档格式快速、准确地转换为 Markdown、JSON 和 HTML 格式。通过深度学习技术,自动去除页眉...
阅读原文

Open-Sora 2.0

Open-Sora 2.0 是潞晨科技推出的全新开源SOTA(State-of-the-Art)视频生成模型。Open-Sora 2.0 用 20 万美元(224 张 GPU)成功训练出 11B 参数的商业级模型...
阅读原文

月匣

月匣是百度推出的AI互动应用,主打情感陪伴和沉浸式剧本体验。用户选择多种AI角色进行个性化对话,如温柔好友、霸道总裁或二次元角色等,享受深度情感交流。...
阅读原文

Tough Tongue AI 2.0

Tough Tongue AI 2.0 是多模态对话练习工具,帮助用户应对各种困难对话场景而设计。支持创建和分享多种对话场景,如面试、职场沟通、销售谈判等,提供智能对...
阅读原文

Wan

Wan是阿里推出的AI创意平台,平台搭载Wan2.1模型生成能力,专注于AI绘画和AI视频创作。AI绘画基于文字描述,快速生成具有艺术感的图像。AI视频支持将文本和图...
阅读原文

TicVoice 7.0

TicVoice 7.0 是出门问问推出的第七代高品质 TTS(语音合成)引擎,基于新一代语音生成模型 Spark-TTS 。TicVoice 7.0基于创新的 BiCodec 编码方式,将语音分...
阅读原文

GEN3C

GEN3C 是NVIDIA、多伦多大学和向量研究所推出的新型生成式视频模型,基于精确的相机控制和时空一致性生成高质量的 3D 视频内容。GEN3C构建基于点云的 3D 缓存...
阅读原文

WhisperChain

WhisperChain 是开源的语音识别工具,基于语音输入提升工作效率。WhisperChain用 Whisper.cpp 实现实时语音识别,将语音转换为文本,基于 LangChain 对文本进...
阅读原文

Baichuan-Audio

Baichuan-Audio是百川智能推出的端到端音频大语言模型,支持无缝集成音频理解和生成功能,实现支持高质量、可控的实时中英双语对话。Baichuan-Audio基于多码...
阅读原文

TinyR1-Preview

TinyR1-Preview是北京大学计算机学院与360公司联合推出的32B参数量的推理模型。模型仅用5%的参数量,逼近Deepseek-R1-671B的性能,TinyR1-Preview在数学领域...
阅读原文

TANGLED

TANGLED是上海科技大学、Deemos Technology和华中科技大学联合推出的3D发型生成方法,支持从任意风格和视角的图像中生成高质量的3D发丝。TANGLED基于三个核心...
阅读原文
123413