阿里除夕发布Qwen2.5-Max反超DeepSeek V3,一句话开发小游戏

网友:新年快乐,特别是奥特曼

阿里除夕发布Qwen2.5-Max反超DeepSeek V3,一句话开发小游戏

原标题:阿里除夕发布Qwen2.5-Max反超DeepSeek V3,一句话开发小游戏
文章来源:量子位
内容字数:2144字

阿里通义Qwen2.5-Max:春节大模型惊喜来袭

大年初一,阿里巴巴通义大模型团队发布了Qwen2.5-Max,作为春节的第三弹惊喜,这款超大规模的MoE模型在多个基准测试中表现出色,引发了广泛关注。

1. 性能超越多款主流模型

Qwen2.5-Max在Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond等基准测试中均取得了优异成绩,整体性能超越了DeepSeek V3、Llama-3.1-405B以及闭源模型GPT-4o,甚至可以与Claude-3.5-Sonnet相媲美。在基座模型对比中,它也超越了DeepSeek V3和Llama-3.1-405B,并在MMLU-Pro等评估模型知识理解和推理能力的基准测试中表现突出。

2. 强大的模型架构和训练数据

与DeepSeek V3一样,Qwen2.5-Max也是一个超大规模的MoE模型,经过超过20万亿token的预训练数据以及精心设计的SFT+RLHF后训练方案训练而成。这表明阿里巴巴在模型训练方面投入了大量的资源和技术。

3. 多模态能力展示及应用场景

Qwen2.5-Max展现了强大的多模态能力,例如:联网搜索功能,能够标注信息来源;代码能力方面,可以根据用户需求生成各种可视化效果,例如创建旋转的球体,甚至在球体内部添加弹跳的小球,并能准确处理碰撞;它还具备Artifacts功能,可以快速开发小应用和小游戏,例如扫雷游戏;此外,它还能轻松统计单词中特定字母的数量。

4. 便捷的访问方式

目前,Qwen2.5-Max已在Qwen Chat中上线,用户也可以通过Hugging Face Demo、Any Chat以及阿里云服务API进行访问,方便开发者和用户体验和使用。

5. 研发团队的辛勤付出

阿里巴巴的研究员们在春节期间仍然坚持工作,积极推广Qwen2.5-Max。阿里高级算法专家林俊旸和Binyuan Hui等人在社交媒体上分享了他们的工作和感受,体现了研发团队的敬业精神和对产品的信心。

总而言之,Qwen2.5-Max的发布是阿里巴巴在大型语言模型领域取得的重要进展,其强大的性能和多样的应用场景使其成为一个备受瞩目的新兴模型。其便捷的访问方式也降低了用户体验的门槛,为人工智能技术的普及和应用提供了新的动力。


联系作者

文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明
问小白满血版DeepSeek免费不限次数使用

相关文章

问小白满血版DeepSeek免费不限次数使用

暂无评论

暂无评论...