豆包升级了“眼睛”,看APP截图就能写代码了!超低价让多模态AI普惠

AIGC动态1个月前发布 量子位
0 0 0

1元钱就能处理248张图

豆包升级了“眼睛”,看APP截图就能写代码了!超低价让多模态AI普惠

原标题:豆包升级了“眼睛”,看APP截图就能写代码了!超低价让多模态AI普惠
文章来源:量子位
内容字数:6829字

豆包大模型全面升级:视觉、语音、语言能力显著提升

本文总结了金磊撰写的文章,介绍了豆包大模型的最新升级,重点在于其视觉、语音和语言能力的提升,以及在实际应用中的落地情况。

  1. 视觉能力升级:豆包·视觉理解模型惊艳亮相

    豆包发布了新的视觉理解模型,其核心亮点在于内容识别更强、理解与推理增强以及视觉描述细腻。它能够识别OCR、图像知识、动作情绪、位置状态等,尤其对中国传统文化理解更深。在与GPT-4的对比测试中,豆包在复杂物体识别、反向猜Prompt等方面表现更优,尤其在处理AIME数学竞赛题上展现了强大的逻辑推理能力。此外,豆包在提取复杂表格数据方面也表现出色,远超GPT-4。

  2. 语音能力升级:豆包·音乐模型生成完整音乐

    豆包的语音模型——豆包·音乐模型,现已能够生成长达3分钟的完整音乐,并支持多种曲风、心情和特征的创作。用户不仅可以用文字Prompt,还可以用图片来作曲,展现了其强大的音乐生成能力和对图像内容的理解能力。

  3. 语言能力升级:大语言模型全面提升

    豆包的大语言模型在各个方面都有显著提升,与小半年前相比,综合能力提升了32%,数学能力提升43%,专业知识提升54%,代码能力提升58%。这使得豆包能够更好地理解和处理各种语言任务。

  4. 应用落地:HiAgent和扣子赋能企业

    豆包大模型已经广泛应用于科教、金融、医疗、企业服务和汽车等多个行业,并与众多头部企业达成合作。其日均tokens使用量已突破4万亿大关。为了方便企业应用,豆包推出了HiAgent和扣子两大工具,分别提供应用模板和开发者生态,降低了企业使用AI的门槛,加速了应用落地。

  5. 价格优势:大幅降低使用成本

    豆包·视觉理解模型的价格大幅降低,仅需0.003元/千tokens,性价比极高。

总而言之,豆包大模型在视觉、语音和语言三个方面都实现了显著的升级,并通过HiAgent和扣子等工具,有效降低了企业应用门槛,展现了其强大的技术实力和市场竞争力。


联系作者

文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...
第五届
全国人工智能大赛

总奖金超 233 万!

报名即将截止