关于post-training和一些思考

关于post-training和一些思考

AIGC动态欢迎阅读

原标题:关于post-training和一些思考
关键字:报告,模型,数据,算法,里面
文章来源:智猩猩AGI
内容字数:0字

内容摘要:


生成式AI时代最火AI芯片峰会下月来袭!9月6-7日,智猩猩发起主办的2024全球AI芯片峰会将在北京盛大举行。峰会设有开幕式、数据中心AI芯片专场、边缘/端侧AI芯片专场、智算集群技术论坛等7大板块。目前,来自AMD、高通、Habana、壁仞科技、摩尔线程、苹芯科技、亿铸科技、凌川科技、云天励飞、中国移动研究院、北极雄芯等40+企业的嘉宾已确认演讲或讨论。扫码申请免费票或购票参会~Author: [yanwushen]
Link: [https://zhuanlan.zhihu.com/p/710936230]
最近有趋势是要扩大post-training规模,本文讨论的就是Llama3.1等开源大模型的技术报告里的post-training部分,已经有很多文章提到其中的细节要点了,这里更着重于比较大的层面。
01DPO vs PPO整个93页报告当然是很有份量的,很大程度的推进了领域内的发展,但令人失望的是,没有像在 Llama 2 中使用 PPO 那样对 SFT->DPO 进行彻底的分析。另外,本来以为会有很多关于 DPO 与 PPO 怎么选择的内容,但文章里面只说了“我们还探索


原文链接:关于post-training和一些思考

联系作者

文章来源:智猩猩AGI
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...