AI项目和框架

LivePortrait

LivePortrait是快手推出的开源人像动画生成框架,专注于高效、可控地将驱动视频的表情和姿态迁移至静态或动态人像,创造出富有表现力的视频。该技术通过隐式...
阅读原文

Llama3.1

Llama 3.1是Meta最新发布的开源AI模型,包括8B、70B和405B三个版本,其中405B版本以其4050亿参数量成为目前最大的开源模型之一。Llama 3.1支持128K的上下文长...
阅读原文

GPT-4o Long Output模型

GPT-4o Long Output模型是OpenAI最新推出的超长输出AI模型,支持高达64k tokens的长文本输出,相当于约200页小说。相较于原GPT-4o模型,输出能力提升16倍,但...
阅读原文

MindSearch

MindSearch是上海人工智能实验室联合研发团队推出的开源AI搜索框架,结合了大规模信息搜集和整理能力。利用InternLM2.5 7B对话模型,MindSearch能在3分钟内从...
阅读原文

Diffree

Diffree是由OpenGVLab推出的AI贴图框架,能根据用户的文字描述,在图片中自动找到合适的位置添加新对象。通过智能掩码预测,无需手动绘制,即可确定新对象的...
阅读原文

FLUX.1

FLUX.1是由Stable Diffusion创始团队推出的开源AI图像生成模型,拥有12B参数,是迄今为止最大的文生图模型。包含三种变体:顶级性能的FLUX.1 [pro]、开源非商...
阅读原文

Stable Fast 3D

Stable Fast 3D(SF3D)是Stability AI推出的一种创新3D网格重建技术,能在0.5秒内从单张图片生成高质量的3D模型。Stable Fast 3D采用先进的Transformer网络...
阅读原文

Tora

Tora是阿里推出的AI视频生成框架,基于轨迹导向的扩散变换器(DiT)技术,将文本、视觉和轨迹条件融合,生成高质量且符合物理世界动态的视频内容。Tora由轨迹...
阅读原文

Whisper-Medusa

Whisper-Medusa是aiOla推出的开源AI语音识别模型,结合了OpenAI的Whisper技术与aiOla的创新,Whisper-Medusa引入了多头注意力机制,实现了并行处理,显著提升...
阅读原文

FoleyCrafter

FoleyCrafter是上海人工智能实验室和香港中文大学(深圳)共同推出的AI视频配音框架,FoleyCrafter能自动听出视频中的动作,配上恰到好处的声音效果。不管是...
阅读原文

MinerU

MinerU是上海人工智能实验室OpenDataLab团队推出的开源智能数据提取工具,专注于复杂PDF文档的高效解析与提取。MinerU能将包含图片、公式、表格等元素的多模...
阅读原文

CogVideoX

CogVideoX是智谱AI最新推出的开源AI视频生成模型,与智谱AI的商业产品“清影”同源。CogVideoX支持英文提示词,能生成6秒长、每秒8帧、分辨率为720*480的视频。...
阅读原文

PhotoMaker V2

PhotoMaker V2是腾讯推出的AI图像生成框架,能在极短的时间内生成逼真的人物照片。与初代相比,V2版本在角色的一致性和可控性上实现了显著提升,用户可以通过...
阅读原文

SEED-Story

SEED-Story是腾讯联合香港科技大学、香港中文大学推出的多模态故事生成模型。基于多模态大语言模型(MLLM),能预测文本和视觉token,通过视觉de-tokenizer生...
阅读原文

FlashFace

FlashFace是阿里联合香港大学推出的高保真AI写真工具。能基于用户提供的面部图像和文本提示,快速生成个性化的高保真人像写真图。FlashFace具备高保真度身份...
阅读原文
1313233343565