AI项目和框架

Codestral

Codestral是法国人工智能初创公司Mistral AI推出的一款代码生成AI模型,专为提高软件开发效率而设计,支持超过80种编程语言,包括但不限于Python、Java、C、C...
阅读原文

ChatTTS

ChatTTS是一款专为对话场景设计的支持中英文的文本转语音(TTS)模型,基于约10万小时的中英文数据进行训练,能够生成高质量、自然流畅的对话语音。
阅读原文

Seed-TTS

Seed-TTS是由字节跳动开发的一系列高级文本到语音(Text to Speech,TTS)模型,能够生成与人类语音极为相似的高质量语音,具备出色的上下文学习能力和自然度。
阅读原文

Qwen2

Qwen2是由阿里云通义千问团队开源的新一代大语言模型,该系列涵盖了从0.5B到72B不等的五个规模模型,在中文和英文基础上增加了27种语言的高质量数据,大幅提...
阅读原文

Follow-Your-Emoji

Follow-Your-Emoji是由香港科技大学、腾讯混元和清华大学的研究人员推出的一个基于扩散模型的人像动画框架,利用扩散模型为参考肖像添加目标表情序列,实现动...
阅读原文

ToonCrafter

ToonCrafter是由腾讯AI实验室、香港中文大学和香港城市大学的研究人员开源的卡通动画视频插值工具,突破了传统卡通动画制作中线性运动的假设限制,采用创新的...
阅读原文

MimicBrush

MimicBrush是由阿里巴巴、香港大学和蚂蚁集团的研究人员推出的AI图像编辑融合框架,允许用户通过简单的操作,在源图像上指定需要编辑的区域,并提供一个包含...
阅读原文

Hallo

Hallo是由复旦大学、百度公司、苏黎世联邦理工学院和南京大学的研究人员共同提出的一个AI对口型肖像图像动画技术,可基于语音音频输入来驱动生成逼真且动态的...
阅读原文

Unique3D

Unique3D是由清华大学团队开源的一个单张图像到3D模型转换的框架,通过结合多视图扩散模型和法线扩散模型,以及一种高效的多级上采样策略,能够从单张图片中...
阅读原文

琴乐大模型

琴乐大模型是由腾讯AI Lab与腾讯TME天琴实验室共同研发的人工智能音乐创作大模型,该模型通过输入中英文关键词、描述性语句或音频,能够直接生成立体声音频或...
阅读原文

Diffutoon

Diffutoon是由阿里巴巴和华东师大的研究人员推出的一个将视频转换为卡通动漫风格的AI框架,基于扩散模型的可编辑卡通着色技术,能够将真实感视频转换成动漫风...
阅读原文

ExVideo

ExVideo是由阿里巴巴和华东师大的研究人员推出的一种视频合成模型的后调优技术,能够扩展现有视频合成模型的时间尺度,以生成更长的视频。该团队基于Stable V...
阅读原文

Toucan TTS

Toucan TTS是由德国斯图加特大学自然语言处理研究所(IMS)开发的文本到语音合成工具箱,支持超过7000种语言,包括多种方言和变体,提供多说话人语音合成、语...
阅读原文

MOFA-Video

MOFA-Video是由腾讯AI实验室和东京大学的研究人员开源的一个可控性的图像生成视频的模型,该技术利用生成运动场适应器对图像进行动画处理以生成视频。
阅读原文

CriticGPT

CriticGPT是OpenAI发布的一个新型人工智能模型,基于GPT-4构建,专门用于审查和识别大型语言模型(如ChatGPT)生成的代码中的错误。CriticGPT通过人类反馈强...
阅读原文
1789101143