AI项目和框架

GenMAC:多代理协作框架推动文本到视频生成技术的创新与应用

GenMAC是香港大学、清华大学和微软研究院推出的多代理协作的迭代框架,用在解决文本到视频生成中的复杂场景生成问题。基于将任务分解为设计、生成和重新设计...
阅读原文

开源AI会议助手,提供实时建议、智能摘要、快速回顾关键信息

Amurex是AI会议助手,基于实时建议、智能摘要、关键要点提取、迟到加入回顾和完整会议记录等功能,帮助用户提升会议效率。作为开源工具,Amurex强调透明度、...
阅读原文

北大健康推出的 AI 健康科普应用

易健EasyHealth是北京大学健康传播专业师生推出的微信小程序,基于大语言模型技术打造的健康科普智能问答系统。程序提供AI智能问答、情感智能算法、健康档案...
阅读原文

智源研究院开源的无标注视频学习3D生成模型

See3D(See Video, Get 3D)是北京智源人工智能研究院推出的3D生成模型,能基于大规模无标注的互联网视频进行学习,实现从视频中生成3D内容。与传统依赖相机...
阅读原文

谷歌推出的最强量子芯片,成功解决30年纠错难题

Willow 量子芯片是谷歌最新推出的具有105个物理量子比特,在量子纠错和计算效率上取得了显著突破。Willow成功解决了量子计算领域近30年的纠错难题,实现了在...
阅读原文

微软和马里兰大学共同开源的多模态大语言模型

Florence-VL是创新的多模态大型语言模型(MLLMs),是马里兰大学和微软研究院共同推出的。Florence-VL用生成式视觉基础模型Florence-2丰富视觉表示,能捕捉图...
阅读原文

开源AI虚拟试衣工具,智能适配性别和体型自动调整衣物

OOTDiffusion是开源的AI虚拟试衣工具,能智能适配不同性别和体型,自动调整衣物尺寸和形状,生成自然贴合的试穿效果。OOTDiffusion支持半身和全身试穿模式,...
阅读原文

英伟达推出的视觉语言大模型

NVILA是NVIDIA推出的系列视觉语言模型,能平衡效率和准确性。模型用“先扩展后压缩”策略,有效处理高分辨率图像和长视频。NVILA在训练和微调阶段进行系统优化...
阅读原文

O1-CODER:智能编码助手O1版提升开发效率与代码质量

O1-CODER是北京交通大学研究团队推出的开源项目,旨在复制OpenAI的O1模型,专注于编码任务。O1-CODER结合强化学习(RL)和蒙特卡洛树搜索(MCTS)技术,提升...
阅读原文

南洋理工推出的VR端3D角色扮演AI系统

SOLAMI是创新的VR端3D角色扮演AI系统,是南洋理工大学研究团队推出的。支持用户用语音和肢体语言与虚拟角色进行沉浸式互动,基于社交视觉-语言-行为模型,提...
阅读原文

clone-voice:多语言声音克隆工具支持16种语言,实现个性化语音合成

Clone-voice是开源的声音克隆工具,基于深度学习技术分析和模拟人类声音,实现声音的高质量克隆。工具支持包括中文、英文、日语、韩语等在内的16种语言,能将...
阅读原文

AI文本到图像生成框架,提升单步扩散模型的效率和性能

SNOOPI是创新的文本到图像生成框架,基于增强单步扩散模型的指导提升模型性能和控制力。SNOOPI包括PG-SB(适当指导 - SwiftBrush)和NASA(负向远离转向注意...
阅读原文

音频驱动的生成肖像说话视频框架,保持身份一致性和表现力

MEMO(Memory-Guided EMOtionaware diffusion)是Skywork AI、南洋理工大学和新加坡国立大学推出的音频驱动肖像动画框架,用在生成具有身份一致性和表现力的...
阅读原文

xAI为Grok AI助手推出的新图像生成模型

Aurora是xAI为AI助手Grok新增的图像生成模型。Aurora擅长创建逼真的图像,擅长人物肖像。Aurora能生成包括公共和版权人物在内的图像(如米老鼠)。Aurora 的...
阅读原文

One Shot, One Talk:中科大与香港理工携手打造创新动态图像生成技术,实现实时创作与智能化设计

One Shot, One Talk是先进的图像生成技术,能从单张图片中生成具有个性化细节的全身动态说话头像,支持逼真的动画效果,包括自然的表情变化和生动的身体动作...
阅读原文
14567861