LLaMA-Mesh：清华与英伟达携手打造智能自然语言驱动的3D模型生成系统

LLaMA-Mesh是一项由清华大学与NVIDIA联合开发的创新项目，旨在将3D网格生成技术与大型语言模型（LLMs）结合，用户可以通过简单的文本提示直接生成3D模型。该项目采用OBJ文件格式，将3D网格的顶点坐标和面定义转换为文本，并通过顶点量化技术进行优化，使模型能够理解和生成复杂的3D网格。LLaMA-Mesh以其卓越的语言理解和生成能力，提供了一种全新的、直观高效的3D内容创作方式。

LLaMA-Mesh是什么

LLaMA-Mesh是清华大学与NVIDIA共同推出的一项性项目，旨在将3D网格生成与大型语言模型（LLMs）相结合，通过文本提示直接生成3D模型。该项目采用OBJ文件格式，以文本形式表示3D网格的顶点坐标和面定义，并利用顶点量化技术优化数据处理，这使得模型能够更好地理解和生成3D网格。LLaMA-Mesh能够生成高质量的3D网格，保持强大的语言理解和生成能力，为3D内容创作提供了更加直观和高效的方法。

LLaMA-Mesh的主要功能

3D网格生成：根据用户输入的文本提示生成对应的3D网格模型。
网格理解：能够理解和解释3D网格的结构特征。
文本与网格交互输出：在对话中生成文本和3D网格的交替输出，实现互动式设计。
语言能力保持：在扩展至3D网格生成的同时，保持模型的文本理解与生成能力。

LLaMA-Mesh的技术原理

3D表示：
- OBJ文件格式：利用OBJ文件格式将3D网格的顶点坐标和面定义以文本形式表示，从而便于语言模型的处理。
- 顶点量化：将顶点坐标量化至固定的区间，减少标记数量，使模型能够处理更长的序列，同时保留几何细节。
预训练模型：选择经过指令调整的LLaMA3.1-8B-Instruct预训练模型，具备理解文本提示和生成3D网格的能力。
3D任务微调：
监督微调（SFT）数据集：构建包含文本-3D对与交替文本-3D对话的数据集，通过微调使模型掌握3D网格生成的技能。
规则与LLM增强：结合规则方法与基于语言模型的增强手段，构建训练数据，以提升模型的3D理解与生成能力。
统一模型：
文本与3D网格统一：在一个统一的模型中生成文本和3D网格，实现多模态内容生成。