谷歌最强大模型免费开放了!长音频理解功能独一份,100万上下文敞开用

AIGC动态8个月前发布 量子位
14 0 0

谷歌最强大模型免费开放了!长音频理解功能独一份,100万上下文敞开用

AIGC动态欢迎阅读

原标题:谷歌最强大模型免费开放了!长音频理解功能独一份,100万上下文敞开用
关键字:报告,解读,模型,音频,开发者
文章来源:量子位
内容字数:4931字

内容摘要:


丰色 发自 凹非寺量子位 | 公众号 QbitAI谷歌最强大模型Gemini 1.5 Pro今天起,“全面”对外开放。
目前完全免费,开发者可以通过API调用的方式使用,普通玩家也可以在谷歌AI Studio中直接体验。
(Ps. 发布这则消息的谷歌工程师Logan Kilpatrick正是原来OpenAI开发者关系的负责人,刚刚跳槽到谷歌。)
最让人期待的是,Gemini 1.5 Pro API首次增加了音频理解功能。
无论是财报电话会、电视节目还是大神演讲,不需要我们再提供字幕文档它就可以直接解读了。
如下图所示:
上传Jeff Dean长约117000+token的演讲录音,Gemini 1.5 Pro在30.8s内就完成了解析。
而由于Gemini 1.5 Pro100万的上下文窗口这次也直接对外开放,因此它可以处理的最长音频约为11小时,最长视频则为1小时,相当够用。
我们也赶紧实测了一把,结果是真香。
Gemini 1.5 Pro开放API了谷歌官方给这次免费开放的Gemini 1.5 Pro版本定义为“公开预览版”。
它主要面向开发者,可在谷歌AI Studio中获得AP


原文链接:谷歌最强大模型免费开放了!长音频理解功能独一份,100万上下文敞开用

联系作者

文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...