AI项目和框架
ScreenAgent
ScreenAgent是一个由吉林大学人工智能学院的研究团队开发的计算机控制智能体,该智能体是基于视觉语言模型(VLM)构建的,能够与真实计算机屏幕进行交互。Scr...
GPT-SoVITS
GPT-SoVITS是一个开源的声音克隆项目,该语音合成工具结合了GPT模型和SoVITS变声器技术,仅需通过少量的样本数据实现高质量的语音克隆和文本到语音转换。该工...
OpenCodeInterpreter
OpenCodeInterpreter是一个开源的代码解释器系统,旨在通过利用大模型结合代码生成、执行和迭代精炼的能力,可以辅助开发者在软件开发过程中生成、测试和优化...
ChatMusician
ChatMusician是由Multimodal Art Projection Research Community、Skywork AI和香港科技大学的研究人员推出的,一个开源的用于理解和生成音乐的大型语言模型...
StarCoder 2
StarCoder 2是由BigCode项目团队开发的新一代大型代码语言模型,旨在为代码生成、编辑和推理任务提供强大的支持。该系列模型在前一代StarCoder模型的基础上进...
Snap Video
Snap Video是由Snap公司的研究团队开发的一个AI视频生成模型,目标是通过文本描述来合成视频,即用户可以输入一段描述性的文本,模型能够根据这段文本生成相...
LayerDiffusion
LayerDiffusion是由来自斯坦福大学的研究人员提出的一种利用大规模预训练的潜在扩散模型生成透明图像的技术,可以帮助用户生成单个透明图像或多个透明图层。...
TextDiffuser-2
Text-Diffuser 2是由来自微软研究院、香港科技大学和中山大学的研究人员最新推出的一个基于扩散模型的文本渲染方法,旨在解决图像扩散模型生成文字时在灵活性...