AI项目和框架

Qwen2.5

Qwen2.5 是阿里通义千问团队最新开源的最强AI大模型,具有多种参数规模的模型,包括 0.5B、1.5B、3B、7B、14B、32B 和 72B。模型在预训练时使用了最新的大规...
阅读原文

abab-video-1

abab-video-1是MiniMax公司推出的首款AI高清视频生成模型,模型支持生成最高1280x720分辨率、25fps的高清视频,具备电影感的镜头移动效果,能根据文本描述快...
阅读原文

abab-music-1

abab-music-1 是 MiniMax 推出的一款端到端 AI 音乐生成大模型。支持多功能端到端音乐生成,能合成多种音乐形式,包括纯音乐和清唱作品,同时满足伴奏和人声...
阅读原文

FineVideo

FineVideo是由Hugging Face推出的一个大型多模态视频数据集,专注于视频理解领域中的复杂任务,如情绪分析、故事叙述和媒体编辑。FineVideo包含超过43,000个Y...
阅读原文

Draw an Audio

Draw an Audio 是中国科学院自动化研究所和美团点评的研究人员推出的视频生成音频系统。根据视频内容自动生成匹配的声音效果,类似于电影制作中的 Foley 艺术...
阅读原文

CogVideoX-5B-I2V

CogVideoX-5B-I2V 是智谱 AI 开源的一款图生视频模型,通过一张图片和文本提示词生成视频。模型采用了3D 因果变分自编码器和专家自适应 LayerNorm 技术,能输...
阅读原文

RapidPages

RapidPages 是一个开源的集成开发环境(IDE),专注于基于AI技术快速生成 React 和 Tailwind CSS 的 UI 组件。基于自然语言处理,支持用户仅通过描述所需界面...
阅读原文

Ovis1.6

Ovis1.6是阿里国际AI团队推出的多模态大模型,在多模态权威综合评测基准OpenCompass上取得了优异的成绩,特别是在30亿参数以下的模型中综合得分排名第一,超...
阅读原文

Gummy

Gummy是通义实验室在2024年云栖大会上推出的端到端语音翻译大模型。模型能实时流式生成语音识别与翻译结果,支持包括中文、英语、粤语、日语、韩语、法语、德...
阅读原文

cogvlm2-llama3-caption

cogvlm2-llama3-caption模型是一个基于CogVLM2架构的视频描述生成模型。模型用于理解视频内容,自动生成描述视频内容的文本标题或字幕。
阅读原文

StoryMaker

StoryMaker 是小红书开源的一款文本到图像生成工具,专注于帮助创作者在连续图像内容中保持角色的一致性。基于 Stable Diffusion XL 模型和 LoRA 技术,确保...
阅读原文

CogVideoX-Fun

CogVideoX-Fun是一个基于CogVideoX结合EasyAnimate修改的AI视频生成整合包,提供了更自由的生成条件,支持文字生成视频、图片生成视频以及视频生成视频。工具...
阅读原文

ItiNera

ItiNera 是港大和MIT联合开发的智能城市行程规划系统。基于大型语言模型(LLM)和空间优化技术,根据用户的个性化需求,如情侣酒吧、二次元圣地等,一键生成C...
阅读原文

华知大模型5.0

华知大模型5.0是同方知网与华为云联合推出的AI大模型,具备多模态理解和生成能力。华知大模型5.0的最大亮点在于多维模型的构建能力,涵盖从7B到135B不等的多...
阅读原文

LVCD

LVCD(Large Video Color Diffusion)是一个专为动画视频线稿上色设计的视频扩散框架,能将黑白线稿自动转化为彩色动画视频。LVCD使用了一种先进的扩散模型,...
阅读原文
19495969798115