AI项目和框架

MIMO

MIMO是阿里巴巴集团智能计算研究所推出的可控角色视频合成的新型AI框架,基于空间分解建模技术,将2D视频转换为3D空间代码,实现对角色、动作和场景的精确控...
阅读原文

豆包AI视频模型

豆包AI视频模型是字节跳动推出的两款AI视频生成大模型:PixelDance 和 Seaweed 。PixelDance基于DiT结构,擅长理解复杂指令,生成连贯、多主体交互的视频片段...
阅读原文

美图奇想大模型

美图奇想大模型(MiracleVision)是美图公司推出的一款AI视觉大模型,专注于美学创作,包括东方美学、人像和商业设计等。模型完成了视频生成能力的全面升级,...
阅读原文

SafeEar

SafeEar是由浙江大学和清华大学联合开发的AI音频伪造检测框架,保护用户隐私的同时检测音频伪造。采用基于神经音频编解码器的解耦模型,分离语音的声学信息和...
阅读原文

PDF2Audio

PDF2Audio 是一个开源工具,能将 PDF 文档转换成音频内容,适合制作播客、讲座或摘要。它基于 OpenAI 的 GPT 模型生成播客脚本,通过文本到语音技术转化为音频。
阅读原文

GraphReasoning

GraphReasoning是一种基于人工智能技术将大量科学论文转换成知识图谱的方法。通过结构化分析,计算节点度、识别社区及其连通性,评估关键节点的中心性,来揭...
阅读原文

Comic Translate

Comic Translate 是一个开源的漫画翻译工具,由开发者 ogkalu2 推出。帮助用户自动翻译全球各地的漫画,支持英语、韩语、日语、法语、简体中文、繁体中文、俄...
阅读原文

PearAI

PearAI 是一个开源的 AI 驱动的代码编辑器,基于 Visual Studio Code (VSCode) 开发。PearAI 集成AI技术,减少编程工作量提高开发效率。PearAI 支持开发者直...
阅读原文

EzAudio

EzAudio是由约翰霍普金斯大学和腾讯AI实验室共同推出的一款文本到音频(Text-to-Audio, T2A)生成模型。基于一种高效的扩散变换器技术,用在从文本提示生成高...
阅读原文

FLUX-Controlnet-Inpainting

FLUX-Controlnet-Inpainting 是阿里妈妈(Alibaba's Alimama)推出的一款图像修复工具,融合 ControlNet 和 FLUX.1-dev 技术。工具根据用户指定的掩码区...
阅读原文

Rope

Rope是一款开源的AI换脸工具,基于insightface的inswapper_128模型构建,提供一个用户友好的图形界面。用户通过上传图片或视频,在几秒钟内完成换脸操作,效...
阅读原文

Westlake-Omni

Westlake-Omni 是西湖心辰推出的全球首个开源中文情感端到端语音交互大模型。模型采用离散表示法,统一文本和语音模态的处理,特别强调实时性,快速响应用户...
阅读原文

AutoGen Studio

AutoGen Studio 是微软研究院推出的一款开源界面工具,旨在简化多智能体系统的构建、调试和评估过程。AutoGen Studio提供一个基于 Web 的交互式界面和 Python...
阅读原文

IDIFY

IDIFY是一款免费开源的在线证件照生成工具,通过AI技术实现自动抠图,帮助用户快速生成符合标准的证件照。用户只需在浏览器中上传照片,选择尺寸和背景色,可...
阅读原文

Emu3

Emu3是由北京智源人工智能研究院推出的一款原生多模态世界模型,采用智源自研的多模态自回归技术路径,在图像、视频、文字上联合训练,使模型具备原生多模态...
阅读原文
1434445464762