整理|华卫昨天OpenAI的风头几乎都被谷歌抢尽了,不少用户都直接站队Gemini 2.0 ,称其是“GPT-5 级别的威胁”,不仅能生成文字外,还能直接生成图片和语音。更为关键的是,Gemini 2.0供全球用户使用,而且有专门的实验版模型对所有开发者免费开放。今天,OpenAI就带来了高级语音模式的功能更:实时视频通话、屏幕享和图像上传。即日起,这三项功能将在接下来几天内向所有 Team、以及大多数 ChatGPT Plus 和 Pro 用户推出(欧盟、瑞士、冰岛、挪威和列支敦士登的用户除外),Enterprise 和 Edu 用户将在明年 1 月获得访问权限。其中,屏幕享和图片上传仅在 iOS 和 Android 移动应用程序的高级语音模式中推出。现在ChatGPT可以“看到和听到”高级语音模式在去年发布的 GPT-4o 中已经预览过,但只有音频模式是实时的。现在,用户可以使用手机摄像头与 ChatGPT ,大模型将会 “看到 ”你所看到的一切,包括你的手机屏幕。进行实时视频通话功能的演示时,OpenAI的首席产品官 Kevin Weil首先牵头测试了一番ChatGPT的“记忆”能力。在OpenAI 的团队成员依次与ChatGPT视频打过招呼并有了一定的认识后,Weil要求它回忆各位成员的特征并说出相应的姓名。接下来, Weil 又和其他 OpenAI 团队成员演示了 ChatGPT 协助如何制作手冲咖啡:通过将摄像机对准动作,AVM 展示了它对咖啡机原理的理解,并引导提问者完成咖啡的整个冲泡过程。并且,在整个演示过程中,ChatGPT Advanced Voice 保持了自然而亲切的声音,还调整了它的语气,甚至像人类一样大笑。有网友开玩笑道,“下一步GPT该指导人做饭了。”还有网友表示,“Her正在慢慢成为现实”,“如果这不是 AGI,我不知道什么是。”该团队还展示了 ChatGPT 如何理解上传的屏幕截图,这对于需要ChatGPT提供技术支持或协助处理屏幕内容的情况非常有用。当选择 “享屏幕 ”时,会弹出手机的屏幕享选项,允许用户将屏幕广播给 ChatGPT;开始屏幕享后,再次按下屏幕享按钮即可停止与 ChatGPT 享屏幕。同时,OpenAI官方提醒到,ChatGPT 可能会自动响应用户从相机或屏幕上分享的内容。此外,在用户停止分享后,ChatGPT 可能仍会引用其之前在对话中分享的内容。但OpenAI保证,除非用户启用了“为每个人改进模型”,否则他们不会使用对话中上传的音频或视频片段来训练大模型。比o1“更受欢迎”的模式来了?高级语音模式基于原生多模态GPT-4o模型,可以直接接收和输出音频,提供更自然的对话节奏和情感表达。OpenAI 首席技术官 Muri Murati 表示,GPT-4o 提供了“GPT-4 级别”的智能,但改进了 GPT-4 在文本、视觉以及音频方面的能力。据介绍,高级语音模式支持超过50种语言,9种逼真输出语音选项,且每种语音都有自己独特的语气和特征。而其背后的GPT-4o 不仅可以将语音转换为文本,还可以理解和标记音频的其他功能,例如呼吸和情感。在圣诞节期间,OpenAI还增了Santa Mode(圣诞模式),用户可以在ChatGPT中与圣诞老人的声音进行实时互动,支持移动应用、桌面应用和网页版。用户通过点击现在ChatGPT主屏幕上的雪花图标,或者在设置页面中找到并选择圣诞老人,就你可以向圣诞老人询问关于圣诞节的问题。为了让更多用户体验与圣诞老人对话的功能,首次与圣诞老人进行高级语音对话的用户,其高级语音使用额度将被重置一次。即使你当天的或本月的使用额度已用完,也可以立即与圣诞老人进行语音对话。超出重置后的额度后,用户也可以通过文字方式与圣诞老人。OpenAI高级研究科学家、德扑AI之父Noam Brown甚至称,“我完全相信圣诞老人模式会比 o1 吸引来更多的订阅用户。”结语OpenAI直播第六天,CEO Sam Altman并没有出现,而是由包括OpenAI的首席产品官 Kevin Weil、OpenAI产品经理Jackie Shannon、负责多模态的OpenAI技术团队成员Michelle Qin和Rowan Zellers在内的四位员工来介绍了更的功能。其中,Michelle Qin是唯一的华人,入职OpenAI六个月。根据其个人主页的介绍,Michelle Qin是斯坦福大学理学士和硕士毕业生,主修人工智能域的计算机科学。此前曾有过在苹果和Pika工作的经历。然而,OpenAI第六天的更也迎来一波网友的吐槽。有网友评价,这次的更很“无聊”,或许明天会“很疯狂”。也有网友认为,“这只是Sora上线后的一个 ‘降温 ’功能。”还有网友表示,“谷歌在正式发布之前就向用户发布了 Gemini 2,并且从一开始就提供实时语音和视频,OpenAI却在发布后花了将近半年的时间才推出。”值得一提的是,就在昨天下午,ChatGPT 还突然宕机了近4个小时,就布的Sora也未能幸免。ChatGPT宕机之时,众多用户都直呼“全球学术停摆了”。而这已经不是ChatGPT第一次发生这样的情况,上个月ChatGPT瘫痪了30分钟,今年6月的宕机甚至持续了5小时以上。参考链接:https://help.openai.com/en/articles/8400625-voice-mode-faq会议推荐12 月 13 日至 14 日(周五至周六),AICon 全球人工智能开发与应用大会将在北京盛大开幕!本次大会汇聚 70+ 位 AI 及技术域的顶尖专家,深入探讨大模型与推理、AI Agent、多模态、具身智能等前沿话题。此外还有丰富的圆桌论坛、以及展区活动,带你深入探索大模型的最实践与未来趋势。年度最后一次 AI 盛宴,让我们一起见证 AI 未来。今日荐文ChatGPT Canvas免费啦!集成Python仿真器,支持在线修Bug,生产力飙升Sora 刚正式登场就把OpenAI系统干废了!Altman紧急暂停用户注册阿里合伙人为“爹味发言”道歉:自罚三个月工资;美图出售加密货币获利5.7亿;亏损11亿、上市对赌失败,公司启动全员降薪 | AI周报OpenAI深夜炸场!一口气放出o1模型全家桶,月费200美元的ChatGPT Pro被狂槽:Altman只想躺在上数钱谷歌最世界模型“硬控”OpenAI 一分钟:智能体交互、替你玩游戏!等等,智能体们早在游戏里 cosplay、交友了!你也「在看」吗?👇
© 版权声明
文章版权归作者所有,未经允许请勿转载。
暂无评论...