1元钱就能处理248张图
原标题:豆包升级了“眼睛”,看APP截图就能写代码了!超低价让多模态AI普惠
文章来源:量子位
内容字数:6829字
豆包大模型全面升级:视觉、语音、语言能力显著提升
本文总结了金磊撰写的文章,介绍了豆包大模型的最新升级,重点在于其视觉、语音和语言能力的提升,以及在实际应用中的落地情况。
视觉能力升级:豆包·视觉理解模型惊艳亮相
豆包发布了新的视觉理解模型,其核心亮点在于内容识别更强、理解与推理增强以及视觉描述细腻。它能够识别OCR、图像知识、动作情绪、位置状态等,尤其对中国传统文化理解更深。在与GPT-4的对比测试中,豆包在复杂物体识别、反向猜Prompt等方面表现更优,尤其在处理AIME数学竞赛题上展现了强大的逻辑推理能力。此外,豆包在提取复杂表格数据方面也表现出色,远超GPT-4。
语音能力升级:豆包·音乐模型生成完整音乐
豆包的语音模型——豆包·音乐模型,现已能够生成长达3分钟的完整音乐,并支持多种曲风、心情和特征的创作。用户不仅可以用文字Prompt,还可以用图片来作曲,展现了其强大的音乐生成能力和对图像内容的理解能力。
语言能力升级:大语言模型全面提升
豆包的大语言模型在各个方面都有显著提升,与小半年前相比,综合能力提升了32%,数学能力提升43%,专业知识提升54%,代码能力提升58%。这使得豆包能够更好地理解和处理各种语言任务。
应用落地:HiAgent和扣子赋能企业
豆包大模型已经广泛应用于科教、金融、医疗、企业服务和汽车等多个行业,并与众多头部企业达成合作。其日均tokens使用量已突破4万亿大关。为了方便企业应用,豆包推出了HiAgent和扣子两大工具,分别提供应用模板和开发者生态,降低了企业使用AI的门槛,加速了应用落地。
价格优势:大幅降低使用成本
豆包·视觉理解模型的价格大幅降低,仅需0.003元/千tokens,性价比极高。
总而言之,豆包大模型在视觉、语音和语言三个方面都实现了显著的升级,并通过HiAgent和扣子等工具,有效降低了企业应用门槛,展现了其强大的技术实力和市场竞争力。
联系作者
文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破