SEED-Story – 腾讯联合港科大、港中文推出的多模态故事生成模型

SEED-Story是由腾讯与香港科技大学、香港中文大学共同研发的一款创新性多模态故事生成模型。该模型基于多模态大语言模型（MLLM），能够同时预测文本和视觉token，并通过视觉de-tokenizer生成风格一致的图像。凭借引入的多模态注意力机制，SEED-Story支持生成长达25个序列的连贯叙事。

SEED-Story是什么

SEED-Story是腾讯与香港科技大学、香港中文大学合作开发的一款多模态故事生成模型。它利用多模态大语言模型（MLLM）来预测文本与视觉token，并通过视觉de-tokenizer生成具有一致风格的图像。SEED-Story采用多模态注意力机制，能够生成长达25个序列的连贯故事。此外，SEED-Story还提供了名为StoryStream的大规模高分辨率数据集，用于模型的训练和评估。

SEED-Story - 腾讯联合港科大、港中文推出的多模态故事生成模型

SEED-Story的主要功能

多模态故事生成：SEED-Story能够根据用户提供的起始图像和文本，生成包含连贯叙述和风格一致图像的长篇故事。
多模态注意力汇聚机制：引入了多模态注意力汇聚机制，使得模型能够高效自回归地生成故事，支持生成长达25个序列的内容。
大规模数据集：发布了名为StoryStream的高分辨率数据集，用于训练模型并从多方面评估多模态故事生成的效果。
故事指令调整：在故事生成过程中，SEED-Story通过指令调整对模型进行微调，以预测故事的下一个图像和文本。
可视化和交互：提供可视化比较，展示生成的图像在质量和一致性上优于其他基线模型。

SEED-Story的技术原理

多模态大语言模型（MLLM）：该技术利用大型语言模型来理解、生成和预测文本及视觉元素，能够处理并生成文本数据，同时理解并生成视觉内容。
文本和视觉标记预测：SEED-Story能够准确预测文本标记（文本中的元素或单词）和视觉标记（图像中的元素）。
视觉de-tokenizer：将语言模型生成的文本和视觉标记转化为图像，通过视觉de-tokenizer生成风格一致的高质量图像。
多模态注意力机制：引入该机制，使模型在生成故事时能够关注文本与图像之间的相互关系，从而更有效地处理长序列生成任务。
自回归生成：模型采用自回归方式生成故事，即每个新生成的标记依赖于之前生成的所有标记，确保故事的连贯性。
长序列生成能力：通过多模态注意力机制，SEED-Story能够生成比训练序列更长的故事。
StoryStream数据集：提供一个高分辨率大规模数据集，用于训练模型并评估多模态故事生成任务，数据集包含视觉吸引的高分辨率图像及详细叙述文本。
训练流程：包括预训练去标记器以重建图像、采样交错图像文本序列进行训练，并利用MLLM的回归图像特征来优化生成图像。

SEED-Story - 腾讯联合港科大、港中文推出的多模态故事生成模型

SEED-Story的项目地址

GitHub仓库：https://github.com/TencentARC/SEED-Story
HuggingFace模型库：https://huggingface.co/TencentARC/SEED-Story
arXiv技术论文：https://arxiv.org/abs/2407.08683

SEED-Story的应用场景

创意写作辅助：为作家和内容创作者提供灵感，帮助他们生成故事大纲、角色描述和情节发展。
教育与学习：作为教学工具，帮助学生理解故事叙述结构，提高他们的写作和创意思维能力。
娱乐与游戏开发：在视频游戏中生成动态故事线和角色背景，增强沉浸式体验。
广告与营销：快速生成引人注目的广告故事或营销材料，提升广告内容的吸引力和个性化。
电影与动画制作：辅助剧本创作，生成角色对话和场景描述，加速制作流程。

阅读原文

# AI项目和框架 # 个性化创作 # 多样化选择 # 情节构建 # 故事生成 # 角色设计

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

SEED-Story – 腾讯联合港科大、港中文推出的多模态故事生成模型

SEED-Story是什么

SEED-Story的主要功能

SEED-Story的技术原理

SEED-Story的项目地址

SEED-Story的应用场景

FlashFace - 阿里联合香港大学推出的高保真AI写真工具

PhotoMaker V2 - 腾讯推出的AI图像生成框架

相关文章

暂无评论

Kimi Chat

ChatGPT

毕业论文生成器

AIGC热点