国产AI模型多点开花。
国产AI模型2024年终总结:多点开花,应用为王
2024年,国产AI模型在多项评测中表现亮眼,与海外模型竞争激烈。智源研究院FlagEval“百模”评测结果显示,国产模型在中文能力和多模态应用方面优势明显,但在推理和数学等方面仍有提升空间。
1. 语言模型:中文优势明显,推理能力待加强
在闭源大模型主观评测中,字节跳动豆包模型和百度ERNIE 4.0 Turbo得分领先OpenAI模型,体现了国产模型在中文语境下的优势。然而,OpenAI的o1系列在客观评测中,特别是推理能力方面,展现出显著的领先地位。国产模型在数学、代码等方面也相对薄弱,呈现出“文强理弱”的现象。部分模型在英语和历史学科测试中已超越人类平均水平。
2. 多模态模型:快速发展,各擅胜场
多模态模型是今年的亮点,国产模型在文生图、文生视频等领域取得了显著进展。字节跳动豆包模型在视觉理解方面表现出色,腾讯、快手、阿里巴巴等公司在文生图、文生视频等方面也有领先产品。虽然AI文生图技术趋于成熟,但文生视频领域仍面临挑战。开源多模态模型在图文理解方面正在追赶闭源模型,但在长尾视觉知识和复杂数据分析能力方面仍有提升空间。
3. 新兴能力:辩论和金融量化交易初露锋芒
智源研究院新增了对AI模型辩论能力和金融量化交易能力的评测。结果显示,AI模型更擅长反驳,但在构建完整辩论框架和避免“幻觉”方面仍需改进。在金融量化交易领域,头部模型已具备生成交易策略代码的能力,部分模型的水平接近初级量化交易员。
4. 未来展望:从参数量竞争转向应用落地
2024年,大模型领域发展迅速,参数规模增长放缓,模型的数学能力显著提升。未来,AI模型竞争将从参数量转向应用场景,商业化落地效率和效益将成为关键竞争力。国产模型需进一步提升推理、数学等能力,并加强在实际应用场景中的落地,才能在全球竞争中占据更有利的地位。
联系作者
文章来源:智东西
作者微信:
作者简介:智能产业新媒体!智东西专注报道人工智能主导的前沿技术发展,和技术应用带来的千行百业产业升级。聚焦智能变革,服务产业升级。