GPT5训练失败的思考

AIGC动态欢迎阅读

原标题：GPT5训练失败的思考
关键字：模型,归纳,信息,下落,智能
文章来源：智猩猩GenAI
内容字数：0字

内容摘要：

原文：https://zhuanlan.zhihu.com/p/718513570
近期硅谷VC、ai创始人交流要点：scaling law或已放缓1、大模型：AI仍是硅谷唯一的话题，但是没有去年那么狂热了，主要是scaling的速度有所放缓（警惕对于训练算力的需求放缓），大约3-4周前谷歌内部训练Gemini下一代模型（比上一代大10倍，类似GPT-5）时2次都失败了。这也解释了为什么GPT-5延期发布。硅谷目前认为LLM层面再把模型做大难度较大，原因在于：a) MOE后post-training效果不太好，模型没有收敛b) 数据是瓶颈，合成数据质量比网上搜的数据质量差了不少2、不排除GPT-5继续延期
01思考一：在日常使用GPT-4的过程中，我发现其在许多场景下的输出已经非常接近完美。
这里的“完美”并不意味着通用人工智能（AGI）已经实现。
而是在现有系统形态，对话界面+输入有限的信息，模型基于有限的信息给出回复，已经接近有限信息理论上应该有的回复。虽然表述有些复杂，但简而言之，许多问题之所以没有得到满意的回答，主要是因为输入的信息不足。
02思考二：虽然模型拥有庞大的上下

原文链接：GPT5训练失败的思考