标签:情感分析

MetaGPT

MetaGPT是一个创新的元编程框架,结合了大语言模型和多智能体协作系统,旨在通过模拟人类工作流程来解决复杂问题。该框架的核心在于将标准化操作程序(SOPs)...
阅读原文

VideoPoet

VideoPoet是由谷歌的研究团队开发的一种基于大模型的AI视频生成方案,支持从文本、图像或视频输入中合成高质量的视频内容,并生成匹配的音频。VideoPoet的核...
阅读原文

Mistral Large

Mistral Large是由法国人工智能公司Mistral AI开发的一款先进的大型语言模型(LLM),具备顶级的推理能力,能够处理复杂的多语言推理任务,包括文本理解、转...
阅读原文

EMO

EMO(Emote Portrait Alive)是一个由阿里巴巴集团智能计算研究院的研究人员开发的框架,一个音频驱动的AI肖像视频生成系统,能够通过输入单一的参考图像和语...
阅读原文

DUSt3R

DUSt3R是由来自芬兰阿尔托大学和Naver欧洲实验室的研究人员推出的一个3D重建框架,旨在简化从任意图像集合中重建三维场景的过程,而无需事先了解相机校准或视...
阅读原文

Claude 3

Claude 3是人工智能初创公司Anthropic开发的新一代人工智能模型,旨在提供先进的认知能力和智能处理任务。Claude 3模型家族包括三个不同级别的模型,按性能强...
阅读原文

ELLA

ELLA(Efficient Large Language Model Adapter,高效的大模型适配器)是由腾讯的研究人员推出的一种新型方法,旨在提升文本到图像生成模型在处理复杂文本提...
阅读原文

Open-Sora

Open-Sora是由Colossal-AI团队开源的视频生成模型,旨在复现OpenAI的Sora视频生成产品。Open-Sora同样基于DiT架构,通过三个阶段训练:大规模图像预训练、大...
阅读原文

Mora

Mora是由来自微软和理海大学的研究人员推出的一个多智能体(AI Agents)框架,专门用于通用视频生成任务,目标是模拟并扩展OpenAI的Sora视频生成模型。该框架...
阅读原文

Voice Engine

Voice Engine是OpenAI最新推出的一项AI语音合成和声音克隆技术,能够利用简短的15秒音频样本和文本输入,生成接近原声的自然听起来的语音。该项技术自2022年...
阅读原文

SWE-agent

SWE-agent是一个由普林斯顿大学NLP组研究人员开发的开源AI程序员和软件工程师系统,利用大型语言模型(如GPT-4)的能力,可以自动解决GitHub存储库中的问题。...
阅读原文

VASA-1

VASA-1是由微软亚洲研究院提出的一个将静态照片转换为对口型动态视频的生成框架,能够根据单张静态人脸照片和一段语音音频,实时生成逼真的3D说话面部动画。
阅读原文

Llama 3

Llama 3是Meta公司最新开源推出的新一代大型语言模型(LLM),包含8B和70B两种参数规模的模型,标志着开源人工智能领域的又一重大进步。作为Llama系列的第三...
阅读原文

PuLID

PuLID是字节跳动的团队开源的一种个性化文本到图像生成技术,通过对比对齐和快速采样方法,实现了无需调整模型的高效ID定制,轻松实现图像换脸效果。
阅读原文

腾讯元器

腾讯元器是腾讯公司在腾讯云生成式AI产业应用峰会上推出的一款基于其腾讯混元大模型的AI智能体创作与分发平台,可帮助用户轻松创建和部署智能体,无需编写代...
阅读原文
1222324252636