AI项目和框架

NotebookMLX

NotebookMLX是开源版本的NotebookLM,集成NotebookLlama的功能,能将PDF文档转换成易于理解和分享的音频播客形式。项目基于MLX技术实现自然语言处理功能,包...
阅读原文

HOVER

HOVER是英伟达推出的1.5M小模型,全称为“Humanoid Versatile Controller”,即人形机器人的多功能全身神经通用控制器。模型用150万参数实现对机器人复杂动作的...
阅读原文

Voice Changer

Voice Changer是Cartesia推出的新模型,能将任何音频剪辑的语音转换成其他音色,且保留原始音频的情感和表达。用户从Cartesia提供的多种高质量声音库中选择,...
阅读原文

Oasis

Oasis是世界上首款AI实时生成的游戏,由Decart和Etched联合推出。游戏能以每秒20帧的速度实时渲染交互式视频内容,无需游戏引擎,通过AI模型直接生成。玩家可...
阅读原文

夸克灵知大模型

夸克灵知是夸克公司全新推出的智能学习学习大模型,具备博士生级别的推理能力。基于AI技术为用户提供分步骤题目讲解,能随时回答问题。在考研数学等题目的正...
阅读原文

OSAID 1.0

OSAID 1.0(The Open Source AI Definition – 1.0)是Open Source Initiative(OSI)发布的官方标准,用在明确AI系统成为开放源代码的条件。参与制定OSAID 1....
阅读原文

MobileLLM

MobileLLM是Meta为移动设备用例优化设计的十亿参数以下的大型语言模型,能解决云成本上升和延迟问题。MobileLLM基于深薄架构、嵌入共享和分组查询注意力机制...
阅读原文

SmolLM2

SmolLLM2是Hugging Face推出用在设备端应用的紧凑型大型语言模型,提供1.7B、360M、135M三个不同参数级别的模型,适应不同的应用场景和资源限制。模型在理解...
阅读原文

Genmoai-smol

Genmoai-smol是开源视频生成模型,是Genmoai的txt2video模型的工作进展分支,专为单GPU设备优化,减少显存占用,在资源有限的设备上能进行视频创作。模型用高...
阅读原文

VirSci

VirSci(Virtual Scientists)是上海人工智能实验室推出的多智能体AI科学研究工具,基于模拟科学家团队的合作过程加速科研创新。系统基于大型语言模型(LLMs...
阅读原文

Self-Lengthen

Self-Lengthen是阿里巴巴千问团队推出的创新的迭代训练框架,能提升大型语言模型(LLMs)生成长文本的能力。框架基于两个角色,生成器和扩展器协同工作,生成...
阅读原文

Amphion

Amphion是开源的音频、音乐和语音生成工具包,是香港中文大学(深圳)副教授武执政团队联合上海人工智能实验室和深圳市大数据研究院共同推出的。工具包支持可...
阅读原文

LongReward

LongReward是清华大学、中国科学院、智谱AI联合推出的,基于AI反馈改进长文本大型语言模型(LLMs)性能的方法。LongReward从有用性、逻辑性、忠实性和完整性...
阅读原文

Fish Agent

Fish Agent是FishAudio推出的创新的端到端语音处理模型,集成自动语音识别(ASR)和文本到语音(TTS)技术,无需传统的语义编码器/解码器,即可实现语音到语...
阅读原文

MeetingMind

MeetingMind是AI驱动的会议助手,基于录音和文件上传功能自动转录会议音频,从中提取关键信息,如任务、决策和问题,帮助用户轻松捕获和分析会议内容,采取行...
阅读原文
1555657585961