AI项目和框架
ConsisID:智能文本到视频生成模型实现创意内容的快速转化
ConsisID是北京大学和鹏城实验室等机构推出的文本到视频(Text-to-Video, IPT2V)生成模型,基于频率分解技术保持视频中人物身份的一致性。模型用免调优(tun...
复旦联合微软等机构推出的端到端身份一致性视频扩散框架
StableAnimator是复旦大学、微软亚洲研究院、虎牙公司和卡内基梅隆大学共同推出的端到端高质量身份保持视频扩散框架。StableAnimator能根据一张参考图像和一...
I2V-01-Live:海螺AI创新图生视频模型助力创意内容生成与视觉表现提升
I2V-01-Live是海螺AI推出的图生视频模型,能将静态二维图像转化为动态视频。模型基于深度学习技术,增强动作的流畅度和生动性,让人物或对象的动作更加自然和...
开源AI检索生成框架,自动生成精确的SQL查询
Vanna是开源的Python RAG(Retrieval-Augmented Generation)框架,能帮助用户基于大型语言模型(LLMs)为其数据库生成精确的SQL查询。Vanna用两步简单流程操...
首尔国立大学推出的单参考图像生成多身份全身图像技术
PersonaCraft是韩国首尔国立大学推出的个性化全身图像合成技术,结合扩散模型和3D人类建模,能从单一参考图像生成多个人物的逼真、个性化全身图像。PersonaCr...
GeneMAN:创新3D人体模型创建框架助力精准数字化人体重建
GeneMAN是上海AI实验室、北京大学、南洋理工大学、上海交通大学联合推出的3D人形创建框架,能从单张图片中创建出高保真度的3D人体模型。框架不依赖于参数化人...
MagicDriveDiT:高分辨率自动驾驶长视频生成技术创新与应用
MagicDriveDiT是香港中文大学、香港科技大学、华为云和华为诺亚方舟实验室共同推出基于DiT架构的新型视频生成方法,专为自动驾驶应用设计,实现高分辨率和长...
EfficientTAM:Meta AI推出创新视频对象分割与跟踪模型,提升视觉内容分析能力
EfficientTAM是Meta AI推出的轻量级视频对象分割和跟踪模型,能解决SAM 2模型在移动设备上部署时的高计算复杂度问题。基于用简单的非层次化Vision Transforme...
Amazon Nova:亚马逊全新多模态生成大模型引领文本、图像与视频创作新时代
Amazon Nova 是亚马逊云服务(AWS)推出的新一代AI基础模型系列,提供行业领先的性能和成本效益。该系列包括专门处理文本的Amazon Nova Micro、多模态的Amazo...
HunyuanVideo:腾讯发布130亿参数开源视频生成模型,赋能创作新纪元
HunyuanVideo是腾讯开源的视频生成模型,拥有130亿参数,是目前参数量最大的开源视频模型之一。HunyuanVideo具备物理模拟、高文本语义还原度、动作一致性和电...
Codel:多功能AI代理工具助力终端、浏览器及编辑器高效执行复杂任务
Codel是全自主AI代理工具,能在沙盒化的Docker环境中执行复杂任务和项目。Codel具备自主操作能力,内置浏览器和文本编辑器,所有操作记录存储于PostgreSQL数...
Lobe Vidol:智能交互平台让你与虚拟人和3D模型实时对话探索新世界
Lobe Vidol是开源的数字人创作平台,让每个人都能轻松创建和互动自己的虚拟偶像。Lobe Vidol提供流畅的对话体验、背景设置、动作姿势库、优雅的用户界面、角...
GPT学术优化:多功能开源项目助力学术研究与写作的高效创新工具
GPT学术优化(GPT Academic)是功能丰富的开源项目,专为学术研究和写作设计。GPT学术优化集成一键论文翻译、源代码解析、互联网信息获取、Latex文章校对、论...
HiFiVFS:高保真视频换脸技术引领视觉
HiFiVFS(High Fidelity Video Face Swapping)是腾讯和VIVO公司推出的高保真视频换脸框架,HiFiVFS基于Stable Video Diffusion(SVD)框架,用多帧输入和时...
MVGenMaster:多视角融合的智能扩散模型提升数据分析与生成能力
MVGenMaster是复旦大学、阿里巴巴达摩院和湖潘实验室共同推出的多视图扩散模型,基于增强3D先验处理多样化的新视角合成(NVS)任务。模型基于度量深度和相机...