豆包升级了“眼睛”，看APP截图就能写代码了！超低价让多模态AI普惠

AIGC动态2年前 (2024)发布量子位

445 0 0

1元钱就能处理248张图

原标题：豆包升级了“眼睛”，看APP截图就能写代码了！超低价让多模态AI普惠
文章来源：量子位
内容字数：6829字

豆包大模型全面升级：视觉、语音、语言能力显著提升

本文总结了金磊撰写的文章，介绍了豆包大模型的最新升级，重点在于其视觉、语音和语言能力的提升，以及在实际应用中的落地情况。

视觉能力升级：豆包·视觉理解模型惊艳亮相
豆包发布了新的视觉理解模型，其核心亮点在于内容识别更强、理解与推理增强以及视觉描述细腻。它能够识别OCR、图像知识、动作情绪、位置状态等，尤其对中国传统文化理解更深。在与GPT-4的对比测试中，豆包在复杂物体识别、反向猜Prompt等方面表现更优，尤其在处理AIME数学竞赛题上展现了强大的逻辑推理能力。此外，豆包在提取复杂表格数据方面也表现出色，远超GPT-4。
语音能力升级：豆包·音乐模型生成完整音乐
豆包的语音模型——豆包·音乐模型，现已能够生成长达3分钟的完整音乐，并支持多种曲风、心情和特征的创作。用户不仅可以用文字Prompt，还可以用图片来作曲，展现了其强大的音乐生成能力和对图像内容的理解能力。
语言能力升级：大语言模型全面提升
豆包的大语言模型在各个方面都有显著提升，与小半年前相比，综合能力提升了32%，数学能力提升43%，专业知识提升54%，代码能力提升58%。这使得豆包能够更好地理解和处理各种语言任务。
应用落地：HiAgent和扣子赋能企业
豆包大模型已经广泛应用于科教、金融、医疗、企业服务和汽车等多个行业，并与众多头部企业达成合作。其日均tokens使用量已突破4万亿大关。为了方便企业应用，豆包推出了HiAgent和扣子两大工具，分别提供应用模板和开发者生态，降低了企业使用AI的门槛，加速了应用落地。
价格优势：大幅降低使用成本
豆包·视觉理解模型的价格大幅降低，仅需0.003元/千tokens，性价比极高。

总而言之，豆包大模型在视觉、语音和语言三个方面都实现了显著的升级，并通过HiAgent和扣子等工具，有效降低了企业应用门槛，展现了其强大的技术实力和市场竞争力。

联系作者

文章来源：量子位
作者微信：
作者简介：追踪人工智能新趋势，关注科技行业新突破

阅读原文

# AIGC动态 # AI图像理解API # AI图像识别代码生成 # AI普惠化解决方案 # 低代码AI开发平台 # 多模态AI应用

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

豆包升级了“眼睛”，看APP截图就能写代码了！超低价让多模态AI普惠

1元钱就能处理248张图

豆包大模型全面升级：视觉、语音、语言能力显著提升

视觉能力升级：豆包·视觉理解模型惊艳亮相

语音能力升级：豆包·音乐模型生成完整音乐

语言能力升级：大语言模型全面提升

应用落地：HiAgent和扣子赋能企业

价格优势：大幅降低使用成本

联系作者

突破自动驾驶新纪元：港中文、港科大与华为携手推出MagicDriveDiT！

100+大模型综测结果出炉！智源发布FlagEval“百模”评测结果，覆盖文本语音图片视频多种模态

相关文章

暂无评论