标签:自然语言处理

AnyText – 阿里开源的视觉图像文字生成和编辑模型

AnyText是阿里巴巴智能计算研究院的团队推出的一个基于扩散的多语言视觉文本生成和编辑模型,专注于在图像中渲染准确和连贯的文本。AnyText包括两个主要元素...
阅读原文

360AI搜索 – 360推出的新一代答案引擎

360AI搜索是360公司推出的一款集成了人工智能技术的搜索引擎,类似于Perplexity被设计为新一代答案引擎,旨在为用户提供更加精准、全面和智能的搜索体验。当...
阅读原文

DiffusionGPT – 开源的大模型驱动的文本到图像生成系统

DiffusionGPT是由来自字节跳动与中山大学的研究人员推出的一个开源的大模型(LLM)驱动的文本到图像生成系统,旨在解决文生图领域无法处理不同的输入或者仅限...
阅读原文

StarCoder 2 – BigCode推出的第二代开源代码大模型

StarCoder 2是由BigCode项目团队开发的新一代大型代码语言模型,旨在为代码生成、编辑和推理任务提供强大的支持。该系列模型在前一代StarCoder模型的基础上进...
阅读原文

DUSt3R – 从任意图像集合中重建3D场景的框架

DUSt3R是由来自芬兰阿尔托大学和Naver欧洲实验室的研究人员推出的一个3D重建框架,旨在简化从任意图像集合中重建三维场景的过程,而无需事先了解相机校准或视...
阅读原文

Claude 3 – Anthropic推出的第三代大模型和AI聊天机器人

Claude 3是人工智能初创公司Anthropic开发的新一代人工智能模型,旨在提供先进的认知能力和智能处理任务。Claude 3模型家族包括三个不同级别的模型,按性能强...
阅读原文

ResAdapter – 字节推出的扩散模型的分辨率适配器

ResAdapter是由字节跳动的研究人员推出的一种为扩散模型(如Stable Diffusion)设计的分辨率适配器,允许这些图像生成模型生成具有任意分辨率和宽高比的图像...
阅读原文

ELLA – 腾讯推出的扩散模型适配器,可增强语义对齐

ELLA(Efficient Large Language Model Adapter,高效的大模型适配器)是由腾讯的研究人员推出的一种新型方法,旨在提升文本到图像生成模型在处理复杂文本提...
阅读原文

Grok-1 – 马斯克旗下xAI开源的大模型,参数量3140亿

Grok-1 是由马斯克旗下的人工智能初创公司 xAI 开发的一款大型语言模型,是一个混合专家(MoE)模型,拥有 3140 亿参数,使其成为目前参数量最大的开源大语言...
阅读原文

LATTE3D – 英伟达推出的文本快速生成3D对象的模型

LATTE3D是由英伟达的研究人员推出的一个文本生成3D对象的模型,能够从文本提示描述快速生成高质量的3D内容(仅需400毫秒)。该技术的核心在于采用了一种称为“...
阅读原文

SUPIR – 高保真的AI图像修复和画质增强模型

SUPIR是一个突破性的图像修复和画质增强方法,利用了大规模的生成模型StableDiffusion-XL(SDXL)和模型扩展技术,通过深度学习和多模态方法,实现了对低质量...
阅读原文

VoiceCraft – 开源的语音编辑和文本转语音模型

VoiceCraft是一个由德克萨斯大学奥斯汀分校研究团队开源的神经编解码器语言模型,专注于零样本语音编辑和文本到语音(TTS)任务。该模型采用Transformer架构...
阅读原文

Champ – 基于3D的人物图片转视频动画模型

Champ是由阿里巴巴、复旦大学和南京大学的研究人员共同提出的一种基于3D的将人物图片转换为视频动画的模型,该方法结合了3D参数化模型(特别是SMPL模型)和潜...
阅读原文

AI应用集 – AI应用商店(人工智能APP安卓和iOS免费下载)

AI应用集人工智能应用商店汇集了各类人工智能APP,从生活助手到办公工具,从教育学习到娱乐休闲,海量安卓和iOS人工智能APP免费下载。
阅读原文

Gauth APP – 字节在海外推出的AI学习助手应用

Gauth APP是由字节跳动的海外子公司开发的一款智能学习辅助应用,专注于帮助学生高效解决数学、化学、物理等科目的复杂问题。
阅读原文
1234523