豆包视觉理解模型正式发布：一元处理近 300 张高清图片，低于行业价格 85%

豆包视觉理解模型已经接入豆包App和PC端产品～

原标题：豆包视觉理解模型正式发布：一元处理近 300 张高清图片，低于行业价格 85%
文章来源：AI前线
内容字数：5273字

12月18日，火山引擎Force大会上，字节跳动重磅发布了豆包大模型家族的最新进展，包括视觉理解模型、3D生成模型以及通用模型Pro等多款产品的升级，展现了其在AI领域强大的技术实力和对普惠AI的坚定承诺。

此次发布的重头戏是豆包视觉理解模型，其在数学、物理、图表、代码等方面展现出强大的推理能力。更令人瞩目的是其超低价格：千tokens输入价格仅为3厘，一元可处理284张720P图片，比行业价格便宜85%。该模型已接入豆包App和PC端产品，并通过火山引擎开放给企业客户，大幅降低了大模型应用的门槛。

豆包3D生成模型首次亮相，采用3D-DiT等先进算法，生成高质量的3D模型。结合火山引擎与英伟达合作的数字孪生平台veOmniverse，可高效完成智能训练、数据合成和数字资产制作，加速虚拟与现实的深度融合。用户只需输入文本，即可实时生成3D场景和模型，满足仿真训练的多样化需求。

豆包通用模型Pro已全面对齐GPT-4，但在价格上仅为后者的1/8。在专业知识领域、综合任务处理能力、指令遵循和推理能力等方面均有显著提升，甚至在部分复杂任务中表现优于GPT-4。

豆包音乐模型升级为生成3分钟完整作品，具备更强的旋律、节奏、和声控制能力；文生图模型2.1版本新增“一键P图，一键海报”功能，实现精准生成汉字和一句话P图；未来还将推出更长视频生成能力的豆包视频生成模型1.5版和端到端实时语音模型。

截至12月中旬，豆包通用模型日均tokens使用量已超过4万亿，较七个月前增长33倍。豆包大模型已与八成主流汽车品牌合作，并接入到多家手机、PC等智能终端，覆盖终端设备约3亿台。在企业生产力相关场景的应用也快速增长，展现了强大的市场竞争力。

火山引擎总裁谭待表示，豆包大模型的成功得益于“更强模型、更低成本、更易落地”的发展理念。火山引擎还升级了火山方舟、扣子和HiAgent等平台产品，并推出新一代计算、网络、存储和安全产品，构建AI云原生架构，助力企业高效开发AI应用。

字节跳动致力于将豆包大模型打造成为国内最全面、技术最领先的大模型之一，并通过火山引擎的平台赋能，推动AI技术普惠化，让AI成为每家企业都能用得起、用得好的普惠科技。

文章来源：AI前线
作者微信：
作者简介：面向AI爱好者、开发者和科学家，提供大模型最新资讯、AI技术分享干货、一线业界实践案例，助你全面拥抱AIGC。

文章版权归作者所有，未经允许请勿转载。

暂无评论...