浅谈大模型 SFT 的实践落地:10 问 10 答

AIGC动态6个月前发布 算法邦
17 0 0

浅谈大模型 SFT 的实践落地:10 问 10 答

AIGC动态欢迎阅读

原标题:浅谈大模型 SFT 的实践落地:10 问 10 答
关键字:模型,数据,任务,解读,报告
文章来源:算法邦
内容字数:0字

内容摘要:


来源|知乎—周星星
地址|https://zhuanlan.zhihu.com/p/685582706
前言SFT 是“低端”的工作,但它与业务紧密相连。相较于难以实施且多数公司没资源训练的预训练,以及调试难度高的强化学习,SFT 可谓效果立竿见影,SFT在实际应用中更易显现成效。
本文关注如何通过 SFT 逼近大模型的表现,既确保效果又兼顾模型的泛化能力,从而满足业务需求,实现大模型的有效落地。接下来,我将采用 10 问 10 答的分享分享一些经验,这些经验源自实际业务中的实践、社区的交流和 阅读过的 Paper 中,不断总结出来的个人心得,这些经验也会随时间不断更新。期待与大家的交流探讨。
Q1: 常见 SFT的开发流程是如何的?第一步,根据业务场景调整提示词(prompt):业务团队会提供具体场景,或者给出他们编写的prompt,也可能只提供场景和数据,需要算法工程师自行编写。编写优秀的 prompt 对发挥模型的最大性能至关重要,一个出色的 prompt 可能将性能提升至80分以上直接得到业务要求,而一个普通的prompt可能只能得到50分。这里可以参考 OpenAI 和文心一


原文链接:浅谈大模型 SFT 的实践落地:10 问 10 答

联系作者

文章来源:算法邦
作者微信:allplusai
作者简介:智猩猩矩阵账号之一,聚焦生成式AI,重点关注模型与应用。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...