标签:多语言支持

HiDream.ai – 多模态AI图像、视频和3D生成平台

HiDream.ai是由前京东副总裁梅涛创立的 AI 初创公司智象未来(HiDream.ai)推出的多模态AI视觉平台Pixeling千象,支持AI图像、视频和3D生成。HiDream.ai 的生...
阅读原文

ReplaceAnything – 阿里推出的AI替换图片中物体的开源框架

ReplaceAnything是由阿里巴巴智能计算研究院推出的一款开源AI图像内容替换框架,利用先进的人工智能技术,能够实现对照片或图像中物体的智能替换。用户可以通...
阅读原文

Perplexity – AI搜索引擎,使用聊天的方式进行搜索

Perplexity AI是一款聊天机器人式的搜索引擎,允许用户用自然语言提出问题,并使用生成式AI技术从各种来源收集获取信息并给出答案。该AI搜索引擎将人工智能与...
阅读原文

AnyText – 阿里开源的视觉图像文字生成和编辑模型

AnyText是阿里巴巴智能计算研究院的团队推出的一个基于扩散的多语言视觉文本生成和编辑模型,专注于在图像中渲染准确和连贯的文本。AnyText包括两个主要元素...
阅读原文

OLMo – 艾伦AI研究所开源的完全开放的大语言模型框架

OLMo(Open Language Model)是由Allen AI(AI2,艾伦AI研究所)开发的一个完全开源开放的大型语言模型(LLM)框架,设计初衷是为了通过开放研究,促进学术界...
阅读原文

MetaGPT – 多个AI智能体协作分工的框架

MetaGPT是一个创新的元编程框架,结合了大语言模型和多智能体协作系统,旨在通过模拟人类工作流程来解决复杂问题。该框架的核心在于将标准化操作程序(SOPs)...
阅读原文

Depth Anything – Tiktok等推出的单目深度估计模型

Depth Anything是由来自Tiktok、香港大学和浙江大学的研究人员推出的一个为单目深度估计设计的深度学习模型,旨在处理各种情况下的图像并估计其深度信息。该...
阅读原文

ConsiStory – 免训练实现主题一致性的文生图方法

ConsiStory是由NVIDIA和特拉维夫大学的研究人员共同开发的一种无需训练的文本生成图像的方法,可以实现让图像在保持风格和主题不变的情况下,遵循不同的文本...
阅读原文

StarCoder 2 – BigCode推出的第二代开源代码大模型

StarCoder 2是由BigCode项目团队开发的新一代大型代码语言模型,旨在为代码生成、编辑和推理任务提供强大的支持。该系列模型在前一代StarCoder模型的基础上进...
阅读原文

MeloTTS – MyShell AI推出的多语言文本到语音转换工具

MeloTTS 是一个由 MyShell AI 开发的开源的高质量多语言文本转语音(TTS)库,能够将文本转换成自然流畅的语音输出,支持多种语言。MeloTTS 的语音合成速度非...
阅读原文

UniEdit – 免训练调优的统一视频编辑框架

UniEdit是由浙江大学、微软研究院和北京大学的研究人员推出的一个创新的视频编辑框架,允许用户在不需要进行模型微调的情况下,对视频的运动和外观进行编辑,...
阅读原文

DUSt3R – 从任意图像集合中重建3D场景的框架

DUSt3R是由来自芬兰阿尔托大学和Naver欧洲实验室的研究人员推出的一个3D重建框架,旨在简化从任意图像集合中重建三维场景的过程,而无需事先了解相机校准或视...
阅读原文

ELLA – 腾讯推出的扩散模型适配器,可增强语义对齐

ELLA(Efficient Large Language Model Adapter,高效的大模型适配器)是由腾讯的研究人员推出的一种新型方法,旨在提升文本到图像生成模型在处理复杂文本提...
阅读原文

Grok-1 – 马斯克旗下xAI开源的大模型,参数量3140亿

Grok-1 是由马斯克旗下的人工智能初创公司 xAI 开发的一款大型语言模型,是一个混合专家(MoE)模型,拥有 3140 亿参数,使其成为目前参数量最大的开源大语言...
阅读原文

Open-Sora – 开源的类Sora架构的视频生成模型和复现方案

Open-Sora是由Colossal-AI团队开源的视频生成模型,旨在复现OpenAI的Sora视频生成产品。Open-Sora同样基于DiT架构,通过三个阶段训练:大规模图像预训练、大...
阅读原文
1234526