AI项目和框架

阿里开源的语音生成大模型

CosyVoice 2.0 是阿里巴巴通义实验室推出的CosyVoice语音生成大模型升级版,模型用有限标量量化技术提高码本利用率,简化文本-语音语言模型架构,推出块感知...
阅读原文

无问芯穹开源的端侧全模态理解模型

Megrez-3B-Omni是无问芯穹推出的全球首个端侧全模态理解开源模型,能处理图像、音频和文本三种模态数据。Megrez-3B-Omni在多个主流测试集上展现出超越34B模型...
阅读原文

无需微调的推理框架,提升扩散模型生成能力首次实现8K分辨率图像

FreeScale是南洋理工大学、阿里巴巴集团和复旦大学推出无需微调的推理框架,提升预训练扩散模型生成高分辨率图像和视频的能力。FreeScale基于处理和融合不同...
阅读原文

西工大联合微软和香港大学推出的说唱乐生成模型

Freestyler是西北工业大学计算机科学学院音频、语音与语言处理小组(ASLP@NPU)、微软及香港中文大学深圳研究院大数据研究所共同推出的说唱乐生成模型,能直...
阅读原文

Snap联合港科大等机构推出的移动端文生图模型

SnapGen是Snap Inc、香港科技大学、墨尔本大学等机构联合推出的文本到图像(T2I)扩散模型,能在移动设备上快速生成高分辨率(1024x1024像素)的图像,且只需...
阅读原文

kimi推出的 k1 系列强化学习模型

k1 视觉思考模型是kimi推出的k1系列强化学习AI模型,原生支持端到端图像理解和思维链技术,将能力扩展到数学之外的更多基础科学领域。k1模型在图像理解、数学...
阅读原文

360 推出国产自研 AI 大模型,多项评测优于GPT-4o

360gpt2-o1 是 360 自研的 AI 大模型,在推理能力上有显著提升,特别是在数学和逻辑推理任务上表现出色。模型通过合成数据优化、模型后训练和“慢思考”范式实...
阅读原文

腾讯微信推出的多模态大模型

POINTS 1.5 是腾讯微信发布的多模态大模型,是POINTS 1.0的升级版本。 模型继续沿用了POINTS 1.0中的LLaVA架构,由一个视觉编码器、一个投影器和一个大型语言...
阅读原文

Step-1o:国内首个千亿参数端到端语音大模型震撼发布,性提升语音识别与合成能力

Step-1o是阶跃星辰推出的国内首个千亿参数端到端语音大模型。模型支持语音、文本等混合形式的输入和输出,可以快速反应并随时打断,提供最便捷的互动体验;同...
阅读原文

Insight-V:多模态模型提升长链视觉推理能力的创新解决方案

Insight-V是南洋理工大学、腾讯公司和清华大学的研究者们共同推出的多模态模型,能提升多模态大型语言模型在长链视觉推理方面的能力。基于可扩展的数据生成流...
阅读原文

SVDQuant:高效扩散模型后训练量化技术提升AI性能与推理速度

SVDQuant是MIT研究团队推出的后训练量化技术,针对扩散模型,将模型的权重和激活值量化至4位,减少内存占用加速推理过程。SVDQuant引入高精度的低秩分支吸收...
阅读原文

Meta 推出控制数字智能体动作的人工智能模型

Meta Motivo 是 Meta 公司推出的AI模型,能提升元宇宙体验的真实性。Meta Motivo基于控制虚拟人形智能体的全身动作,模拟人类行为,增强用户互动。模型采用无...
阅读原文

微软推出的14B参数小语言模型,擅长数学等领域的复杂推理

Phi-4是微软推出的14亿参数小型语言模型,在数学等领域的复杂推理以及传统语言处理方面表现出色。Phi-4用数据质量为核心训练重点,大量融入合成数据,提升模...
阅读原文

AI文本引导图像编辑框架,0.23秒内实现高质量的图像编辑

SwiftEdit是由VinAI Research团队推出的文本引导的图像编辑工具,基于创新的一步扩散技术,能在0.23秒内实现快速且高质量的图像编辑。工具的核心优势在于一步...
阅读原文

AI 客户端,基于 MCP 支持多语言和自动化安装

ChatMCP 是基于模型上下文协议(MCP)的 AI 聊天客户端,支持与各种大型语言模型(LLM)如 OpenAI、Claude 和 OLLama 等进行交互。ChatMCP具备自动化安装 MCP...
阅读原文
1234561