OpenAI干翻所有语音助手！GPT-4o模型实时语音视频交互强到恐怖，完全免费开放

AIGC动态2年前 (2024)发布算法邦

AIGC动态欢迎阅读

原标题：OpenAI干翻所有语音助手！GPT-4o模型实时语音视频交互强到恐怖，完全免费开放
关键字：模型,解读,用户,语音,文本
文章来源：算法邦
内容字数：9473字

内容摘要：

智东西5月14日报道，今日凌晨1点，抢在谷歌年度开发者大会Google I/O开幕前，OpenAI举办春季线上直播，宣布将推出桌面版ChatGPT，并发布全新旗舰AI模型GPT-4o。
GPT-4o向所有人免费开放，可实时跨文本、音频、视觉（图像与视频）进行推理，API定价只有GPT-4 Turbo的一半，速度达到GPT-4 Turbo的2倍。付费的ChatGPT Plus用户将获得5倍调用额度，并能最早访问其全新macOS桌面App和下一代语音及视频功能。这次OpenAI对AI机器人ChatGPT的升级依然“直击人心”，实时语音翻译能力自然流畅，感觉能直接取代同声传译了。
不仅反应快、回答准，它还能按要求改变说话语气，从冰冷机械到幽默娇羞都信手拈来，而且能随时高歌一曲，听起来与真人无异。
除了语音外，GPT-4o可以进行实时视频交互了！比如通过视频影像理解线性方程，还学会了“看脸色行事”，能通过人的表情和语调理解并判断出人的情绪。▲GPT-4o识别了视频中的文字并作出娇羞的反应
更有甚者，它能直接看你的屏幕，并根据看到的内容回答你的提问。比如当你展示一段代码，它会进行理解并告

原文链接：OpenAI干翻所有语音助手！GPT-4o模型实时语音视频交互强到恐怖，完全免费开放