大模型对齐下一站：合成数据

AIGC动态欢迎阅读

原标题：大模型对齐下一站：合成数据
关键字：模型,腾讯,报告,数据,复杂度
文章来源：智猩猩GenAI
内容字数：0字

内容摘要：

开讲预约11月1日上午10点，南开大学在读博士李森茂，将以《基于扩散模型编码器模块的推理加速》为主题进行直播讲解，欢迎扫名~大模型训练中，数据质量已经是所有人的了。在23年开始接触Alignment之后，我一直是人工标注流派，深信InstructGPT[1]中所描述的，先train好标注员，再train好模型。那时候各个模型的质量也都一般，合成的数据一眼就能挑到一堆毛病。
事情的转折要从sora开始，了解到那么好的效果居然大量应用了合成数据之后，我开始意识到自己还停留在上一个时代。首先大模型的能力是一直在提升的，去年还被狂吹的GPT3.5现在已经被甩了几条街了，大模型在很多任务上都可以达到人类标注员的水平；其次在大模型时代，应该多去发掘模型的价值，学会和AI协作，而不是上来就先验地觉得模型生成的数据质量不过关。
随着业内模型能力和使用熟练度的整体提升，今年数据合成的工作一波又一波，数据合成的前景非常客观：
合成Prompt：GPT系列相比竞品的一个显著优势是数据飞轮，有源源不断的用户输入。合成的Prompt则可以补足多样性上的缺陷，今年Nemotron[2]、Llama3[3]

原文链接：大模型对齐下一站：合成数据