Depth Anything
Depth Anything是由来自Tiktok、香港大学和浙江大学的研究人员推出的一个为单目深度估计设计的深度学习模型,旨在处理各种情况下的图像并估计其深度信息。该...
Stable Diffusion 3
Stable Diffusion 3 是由 Stability AI 开发的一款先进的文本到图像生成模型,是 Stable Diffusion 系列模型的最新迭代,旨在通过文本提示生成高质量的图像。...
ConsiStory
ConsiStory是由NVIDIA和特拉维夫大学的研究人员共同开发的一种无需训练的文本生成图像的方法,可以实现让图像在保持风格和主题不变的情况下,遵循不同的文本...
ScreenAgent
ScreenAgent是一个由吉林大学人工智能学院的研究团队开发的计算机控制智能体,该智能体是基于视觉语言模型(VLM)构建的,能够与真实计算机屏幕进行交互。Scr...
GPT-SoVITS
GPT-SoVITS是一个开源的声音克隆项目,该语音合成工具结合了GPT模型和SoVITS变声器技术,仅需通过少量的样本数据实现高质量的语音克隆和文本到语音转换。该工...
Mistral Large
Mistral Large是由法国人工智能公司Mistral AI开发的一款先进的大型语言模型(LLM),具备顶级的推理能力,能够处理复杂的多语言推理任务,包括文本理解、转...
OpenCodeInterpreter
OpenCodeInterpreter是一个开源的代码解释器系统,旨在通过利用大模型结合代码生成、执行和迭代精炼的能力,可以辅助开发者在软件开发过程中生成、测试和优化...
ChatMusician
ChatMusician是由Multimodal Art Projection Research Community、Skywork AI和香港科技大学的研究人员推出的,一个开源的用于理解和生成音乐的大型语言模型...
StarCoder 2
StarCoder 2是由BigCode项目团队开发的新一代大型代码语言模型,旨在为代码生成、编辑和推理任务提供强大的支持。该系列模型在前一代StarCoder模型的基础上进...