首次证实白盒Transformer可扩展性!马毅教授CRATE-α:鲸吞14亿数据,性能稳步提升

AIGC动态7个月前发布 新智元
7 0 0

首次证实白盒Transformer可扩展性!马毅教授CRATE-α:鲸吞14亿数据,性能稳步提升

AIGC动态欢迎阅读

原标题:首次证实白盒Transformer可扩展性!马毅教授CRATE-α:鲸吞14亿数据性能稳步提升
关键字:模型,性能,数据,解释性,准确率
文章来源:新智元
内容字数:0字

内容摘要:


新智元报道编辑:LRS
【新智元导读】CRATE-α是一种新型Transformer架构变体,通过设计改进提升了模型的可扩展性、性能和可解释性,CRATE-α-Base在ImageNet分类任务上的性能显著超过了之前最好的CRATE-B模型,其性能会随着模型和数据集规模扩大而继续提升。在过去的几年里,Transformer架构在自然语言处理(NLP)、图像处理和视觉计算领域的深度表征学习中取得了显著的成就,几乎成为了AI领域的主导技术。
然而,虽然Transformer架构及其众多变体在实践中取得了巨大成功,但其设计大多是基于经验的,并没有严格的数学解释,也在一定程度上限制了研究人员的思路,无法开发出更高效、更具可解释性的Transformer新变体。
为了填补这一空白,马毅教授团队曾发布过白盒Transformer模型CRATE,其架构的每一层都是通过数学推导得到的,可以完全解释为展开的梯度下降迭代;此外,CRATE学习到的模型和特征在语义上也比传统的Transformer模型具有更好的可解释性,例如,即使模型仅在分类任务上进行训练,可视化图像的特征也能自然地形成该图像的零样本分割


原文链接:首次证实白盒Transformer可扩展性!马毅教授CRATE-α:鲸吞14亿数据,性能稳步提升

联系作者

文章来源:新智元
作者微信:AI_era
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人对人类社会与文明进化的影响,领航中国新智能时代。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...