LLama 405B 技术报告解读

LLama 405B 技术报告解读

AIGC动态欢迎阅读

原标题:LLama 405B 技术报告解读
关键字:模型,报告,数据,阶段,上下文
文章来源:智猩猩AGI
内容字数:0字

内容摘要:


9月6-7日,2024全球AI芯片峰会将在北京召开。目前,AMD人工智能事业部高级总监王宏强,清华大学交叉信息研究院助理教授、北极雄芯创始人马恺声,珠海芯动力创始人兼CEO李原,“吴文俊2023人工智能芯片专项奖”第一完成人、锋行致远创始人兼CEO孙唐等嘉宾已确认出席。欢迎报名或购票参会~果然传的消息都是真的,meta在24号凌晨发布了llama 3的405B版本,这次还是做一个技术报告解读。
值得一提的是,在技术报告的开头,meta特意强调了一个 Managing complexity,大意是管控复杂度。
为什么没用MoE却弄个405B的dense?为什么没用PPO只用DPO?
meta给的解释是:Managing complexity,大意就是这样简单吧…
评测结果如下,这个结果跟当初网上传的那个版本还是有一定出入的,没有到摁着GPT4o锤的程度。
况且,根据GPT4o的速度来看,参数量要远远小于一个405B的dense,高下立判。不过这个无可厚非,毕竟GPT4也挺慢的虽然如此,但是llama3 405B中间有许多实用的trick还是值得我们学习的,整个的画风有点像打比赛刷榜那


原文链接:LLama 405B 技术报告解读

联系作者

文章来源:智猩猩AGI
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...