谷歌最强大模型免费开放了！长音频理解功能独一份，100万上下文敞开用

AIGC动态2年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：谷歌最强大模型免费开放了！长音频理解功能独一份，100万上下文敞开用
关键字：报告,解读,模型,音频,开发者
文章来源：量子位
内容字数：4931字

内容摘要：

丰色发自凹非寺量子位 | 公众号 QbitAI谷歌最强大模型Gemini 1.5 Pro今天起，“全面”对外开放。
目前完全免费，开发者可以通过API调用的方式使用，普通玩家也可以在谷歌AI Studio中直接体验。
（Ps. 发布这则消息的谷歌工程师Logan Kilpatrick正是原来OpenAI开发者关系的负责人，刚刚跳槽到谷歌。）
最让人期待的是，Gemini 1.5 Pro API首次增加了音频理解功能。
无论是财报电话会、电视节目还是大神演讲，不需要我们再提供字幕文档它就可以直接解读了。
如下图所示：
上传Jeff Dean长约117000+token的演讲录音，Gemini 1.5 Pro在30.8s内就完成了解析。
而由于Gemini 1.5 Pro100万的上下文窗口这次也直接对外开放，因此它可以处理的最长音频约为11小时，最长视频则为1小时，相当够用。
我们也赶紧实测了一把，结果是真香。
Gemini 1.5 Pro开放API了谷歌官方给这次免费开放的Gemini 1.5 Pro版本定义为“公开预览版”。
它主要面向开发者，可在谷歌AI Studio中获得AP

原文链接：谷歌最强大模型免费开放了！长音频理解功能独一份，100万上下文敞开用