AI项目和框架

MovieDreamer

MovieDreamer是浙江大学联合阿里巴巴专为长视频研发的AI视频生成框架。结合自回归模型和扩散渲染技术,能生成具有复杂情节和高视觉质量的长视频。
阅读原文

Glyph-ByT5

Glyph-ByT5-v2由微软亚洲研究院、清华大学、北京大学和利物浦大学联合开发的多语言视觉文本渲染项目。Glyph-ByT5-v2支持10种不同语言的准确视觉文本渲染,审...
阅读原文

Llama-3.1-Minitron

Llama-3.1-Minitron是由英伟达和Meta合作开发的AI模型,通过剪枝和知识蒸馏技术从Llama 3.1 8B模型精炼而成的更小型4B参数模型。这种优化减少了模型大小和复...
阅读原文

HybridRAG

HybridRAG 是黑石联合英伟达推出的混合检索增强生成架构,结合了检索增强生成(Retrieval-Augmented Generation)模型的机器学习架构。模型通过检索系统寻找...
阅读原文

DeepSeek-Prover-V1.5

DeepSeek-Prover-V1.5是由DeepSeek团队开发的开源数学大模型,拥有70亿参数。模型通过结合强化学习(RLPAF)和蒙特卡洛树搜索(特别是RMaxTS变体),在数学定...
阅读原文

SadTalker

SadTalker是西安交通大学、腾讯AI实验室和蚂蚁集团联合推出的开源AI数字人项目。SadTalker专注于通过单张人脸图像和语音音频,利用3D运动系数生成逼真的说话...
阅读原文

xGen-MM

xGen-MM是Salesforce推出的一款开源多模态AI模型,具有处理交错数据的能力,能同时理解和生成文本、图像等多种数据类型。xGen-MM通过学习大量的图片和文字信...
阅读原文

Seed-ASR

Seed-ASR是字节跳动开发的一款基于大型语言模型(LLM)的语音识别(ASR)模型。在超过2000万小时的语音数据和近90万小时的配对ASR数据上训练,支持普通话和13...
阅读原文

Moffee

Moffee是开源的Markdown转PPT工具,支持用户使用Markdown语法快速创建专业的幻灯片。Moffee自动处理布局、分页和样式,支持实时预览和导出为PDF或HTML格式。
阅读原文

浦语灵笔

浦语灵笔IXC-2.5是上海人工智能实验室推出的新一代多模态大模型,具备7B规模的大型语言模型后端。能处理长达96K的长上下文,支持超高分辨率图像和细粒度视频...
阅读原文

新壹视频大模型

新壹视频大模型是新壹科技推出的AI视频创作大模型,自研AI算法和深度学习技术,实现从剧本到成品的一键式创作。具备剧本生成、情感化语音合成、3D元素创建和...
阅读原文

书生·浦语

书生·浦语是上海人工智能实验室推出的开源AI大模型,具有卓越的推理能力和超长文本处理功能。书生·浦语支持高达一百万词元的文本输入,能自主进行网络搜索并...
阅读原文

Half_illustration

Half_illustration是一个基于Flux.1模型的LoRA图像创意模型,融合了摄影写实与插画艺术的元素,创造出独特的视觉效果。这种风格在图像中同时展现了逼真的人物...
阅读原文

ProPainter

ProPainter是南洋理工大学S-Lab团队推出的AI视频修复项目。通过结合双域传播和蒙版引导的稀疏视频Transformer,有效提高了视频修复的性能。ProPainter能自动...
阅读原文

TurboEdit

TurboEdit是Adobe Research 推出的AI即时图像编辑模型。通过编码器迭代反演和基于文本的精细控制,能够在几步内实现对图像的精确编辑。利用详细的文本提示,...
阅读原文
1343536373864