标签:智能语音助手

HART:自回归视觉生成模型推动图像生成的创新与精准

HART(Hybrid Autoregressive Transformer)是麻省理工学院研究团队推出的自回归视觉生成模型。能直接生成1024×1024像素的高分辨率图像,质量媲美扩散模型。H...
阅读原文

Skywork o1:天工大模型4.0 O1版:智能生成与多模态交互的革新体验

Skywork o1是昆仑万维推出的天工大模型4.0 o1版,是国内首款具备中文逻辑推理能力的o1模型。Skywork o1在模型输出中内生了思考、计划、反思等能力,显著提升...
阅读原文

Chonkie:多种文本分块技术:基于Token、单词、句子与语义的分析方法

Chonkie是轻量级、快速且功能丰富的RAG(Retrieval-Augmented Generation)分块库,为文本处理设计。Chonkie支持基于Token、单词、句子和语义的多种分块方法...
阅读原文

声动视界:AI视频工具在带货短视频领域的翻译与配音功能

声动视界是面向带货短视频的AI视频工具。提供视频翻译、文本转语音和视频配音等功能,支持100多种语言,助力用户将产品推广至全球市场。基于音频合成技术,声...
阅读原文

Heeyo

Heeyo是一款专为3至11岁儿童设计的智能AI学习伙伴,提供2000多种互动学习游戏,涵盖阅读、科学、智力问答等。Heeyo AI学习伙伴支持20种语言,由顶尖教育机构...
阅读原文

VASA-1

VASA-1是由微软亚洲研究院提出的一个将静态照片转换为对口型动态视频的生成框架,能够根据单张静态人脸照片和一段语音音频,实时生成逼真的3D说话面部动画。
阅读原文

Mem0

Mem0 是一款开源的大语言模型记忆增强工具,能够让 AI 拥有长期、适应性强的记忆。通过自适应记忆系统,AI能实现跨应用记住用户的偏好和交互,提供连贯且不断...
阅读原文

汉王语音王

汉王语音王是汉王科技推出的智能语音APP,集成了AI语音记录、翻译与同声传译功能。基于自研的多模态大模型,支持高准确率转写、拍录同步、智能总结和实时翻译...
阅读原文

HeadGAP

HeadGAP是字节跳动和上海科技大学共同推出的3D头像生成模型,仅用少量图片快速生成逼真的3D头像。采用先验学习和个性化创建阶段的框架,基于大规模多视角动态...
阅读原文

MyShell

MyShell 是一个构建、共享和管理 AI 应用的开发平台,提供三种模式,包括经典、开发和无代码模式,适应不同技能水平的创作者。MyShell 旨在简化 AI 应用程序...
阅读原文

Eagle

Eagle是英伟达推出的多模态大模型,擅长处理高达1024×1024像素的图像,显著提升视觉问答和文档理解能力。Eagle模型采用多专家视觉编码器架构,通过简单高效的...
阅读原文

VoxInstruct

VoxInstruct 是由清华大学开源的语音合成技术,能根据人类语言指令生成高度符合用户需求的语音。系统采用统一的多语言编解码器语言建模框架,将传统的文本到...
阅读原文

Draw an Audio

Draw an Audio 是中国科学院自动化研究所和美团点评的研究人员推出的视频生成音频系统。根据视频内容自动生成匹配的声音效果,类似于电影制作中的 Foley 艺术...
阅读原文

纸飞机AI

纸飞机AI是北京智能涌现科技推出的AI虚拟陪伴产品,它通过先进的人工智能技术让用户能够创造具有个性化特征的AI智能体,AI智能体能够与用户进行类似真人的互...
阅读原文

Zona

Zona 是App-Vision推出的AI音乐生成器,通过用户的想法和想象力,无需乐器可创作出美妙的音乐。Zona 提供直观、有趣的界面,用户随时随地创作音乐,就像随身...
阅读原文
1234