OpenAI 开发者大会！实时语音功能有API了，GPT-4o支持多模态微调，上下文cache功能上线

AIGC动态1年前 (2024)发布夕小瑶科技说

AIGC动态欢迎阅读

原标题：OpenAI 开发者大会！实时语音功能有API了，GPT-4o支持多模态微调，上下文cache功能上线
关键字：开发者,模型,功能,视觉,大会
文章来源：夕小瑶科技说
内容字数：0字

内容摘要：

夕小瑶科技说原创作者 | 付奶茶家人们！十一假期第1天， OpenAI一年一度的开发者大会又来了惹！今年的开发者大会分成三部分分别在美国、英国、新加坡三个地点举办，刚刚结束的是第一场。
去年的OpenAI开发者大会公布了GPT-4 Turbo和GPTs，今年没有大更新，但主打实用。
发布了给开发者的一些福利，包括API的功能更新以及降价。下面一起盘一下吧！
视觉微调（Vision Fine-Tuning）OpenAI今年在GPT-4o上引入了微调的功能，开发者们已经开始利用文本对模型进行微调以适应下游任务。
而此次开发者大会之际，OpenAI宣布将引入GPT-4o的视觉微调功能，允许开发者结合图像和文本来定制模型的视觉理解能力。
视觉微调的过程与文本微调相似，开发者需要按照指定的格式准备数据集并上传。开放视觉微调功能使得开发者能够增强模型在视觉搜索、生成和检测等核心能力方面的功能。
例如，东南亚的运输公司Grab通过仅使用100个样本对GPT-4o进行视觉微调，显著提高了其特定任务的图像理解能力。在车道计数的准确性上Grab实现了20%的提升，在限速标志的定位上提高了13%，这些成绩

原文链接：OpenAI 开发者大会！实时语音功能有API了，GPT-4o支持多模态微调，上下文cache功能上线