众所周知,OpenAI 从去年就开始在疯狂谷歌发布会,每次都是在谷歌发布会前搞重大模型发布,弄得谷歌发布会当天毫无存在感,一脸茫然。结果搞得曾经的 AI 老大哥 Google 如今在中国网友心中的地位,可能还不如刚出道的 Anthropic(Claude)。但如果你是资深的 AI 人,你一定会像我一样,在默默惊讶于今年的事态反转,Google Gemini 模型变得越来越了,甚至大有完爆 GPT 系列模型的势头。今夜,我觉得这个奇点降临了。谷歌这次赶在今晚 OpenAI Day 5 发布会前一小时,宣布发布 Gemini 2.0 模型!有多呢?我直接给你放个海辛姐的一手实测视频,你们感受下(记得开喇叭):爆点太多,我一时不知道该先讲哪个。01爆点一首先你注意到,无论语音还是视觉,都是实时直播状态(左下角同时开启麦克风 + 摄像头)。如果你玩过别的多模态 AI,你一定有深刻的感触是——AI 味儿太,比如反应迟钝,各种不流畅。而这里,Gemini 2.0 的延迟低到我甚至忘了这是 AI,我觉得这反应速度已经比我妈都快了。这绝对是世界上首个,真正把语音 + 视觉全模态能力真正做到实时、无卡顿感交互的 AI 模型。02爆点二Gemini 2.0 的回复太像人了。甚至让我觉得有点毛骨悚然。这个像人,不止是文本非常的口语化,而且语音语气也非常到位。一点都没有其他 AI 模型中的僵硬感和尴尬感。如果拿来做英语外教陪练,真的能被爽到。03爆点三喜欢海辛姐声音的评论区扣 11104爆点四为了给今天这篇文章配一手实测视频,陪演猫都已经困的睁不开眼了,请给猫猫点个「赞」或「在看」谢谢。除此之外,Gemini 2.0 甚至还能在实时音频、视频流输入的同时,去组合调用搜索引擎、代码解释器等工具。但限于时间原因,这里没有去做更多测试了。05Gemini 2.0 的成绩单如果用一句话形容 Gemini 2.0 的成绩单——最小最轻量的 Gemini 2.0 Flash 模型已经超越了上一代谷歌旗舰 Gemini 1.5 Pro 002。谷歌旗舰 Gemini 1.5 Pro 002 是什么概念?我给你们放个老图——在很多评测中,拳打 GPT-4o,脚踢 Claude 3.5 Sonnet…要知道,Gemini Flash 系列的模型,都跟不要钱一样,而且速度非常快。但如今却拥有了如 GPT-4o 和 Claude3.5Sonnet 的能力,关键还是真·实时全模态的。我觉得,谷歌这一把,真的弯道超车,重夺回 AI 王座了。我还第一时间去问了谷歌 Gemini 2.0 Flash 一个经典问题:有理有据,而且你注意下最下面的计时器,整个回答全部写完,一才用了不到 3 秒。根据官方的说法,Gemini 2.0 Flash 现在是体验版本,开发者可以通过 Google AI Studio 和 Vertex AI 来调用 Gemini 2.0 Flash API 了,均可使用多模态输入和文本输出。部分高优先级开发者还可使用原生的 TTS 文本转语音和图像生成功能。而视频里演示的实时多模能力可以通过 Multimodal Live API 来调用。看到这里,你是不是已经觉得谷歌这把发布会已经很了?但我告诉你,这还没完。Gemini 2.0 不仅多模态能力,Agent 能力同样非常——谷歌基于 Gemini 2.0 升级了超级智能体 Project Astra,在 Gemini 2.0 的加持下,不仅多模能力了很多,工具调用更加自如,而且这个智能体可以记住长达 10 分钟的对话内容,并且可以回忆起过去与它进行的历史对话。2. 谷歌基于 Gemini 2.0 还构建了能在浏览器中完成复杂电脑操作任务的智能体 Project Mariner。比如它可以直接在浏览器里帮你处理 Excel 表格。3. 除此之外,还有面向开发者的 AI 编程智能体;游戏智能体等。这让我觉得,Agent 时代这次真的来了。06Gemini 高级功能:Deep Research深度研究模式直接放视频:科研搜索域也因此变天了。要知道,谷歌学术可是世界上最大的学术搜索引擎。谷歌亲自下场做 AI 科研搜索,还直接跟研报生成打通,可能不少创业公司要考虑洗洗睡了。听我讲完了谷歌 Gemini 2.0 发布会,你是不是好奇今晚 OpenAI Day 5 发布会讲了啥?讲的是,OpenAI 给 Apple Intelligence 开发了 ChatGPT 插件的事儿。我直接把发布会视频给你们录下来了,自己看吧,我实在不想行尬吹。看完这个视频,我觉得你应该能明白我标题里说的,“今夜谷歌把 OpenAI 狙爆”是什么意思了。这一次,谷歌。END点击下方名片即刻关注我们
© 版权声明
文章版权归作者所有,未经允许请勿转载。
暂无评论...