没有数据训练大模型？OpenAI 总裁带队转录YouTube视频，谷歌、Meta 也想尽数据收割套路

AIGC动态2年前 (2024)发布 AI前线

AIGC动态欢迎阅读

原标题：没有数据训练大模型？OpenAI 总裁带队转录YouTube视频，谷歌、Meta 也想尽数据收割套路
关键字：政策,数据,报告,知识产权,模型
文章来源：AI前线
内容字数：16615字

内容摘要：

作者|CadeMetz,CeciliaKang,
SheeraFrenkel,StuartA.ThompsonandNicoGrant
译者|核子可乐
策划|褚杏娟
2021 年底，OpenAI 开始面临数据供应荒。
这家人工智能研究机构在开发最新 AI 系统时，已然耗尽了互联网上所有质量稳定的英语文本库。现在他们需要更多数据来训练自家技术的下一个版本——更多更多。
为此，OpenAI 研究人员开发出一款名为 Whisper 的语音识别工具，能够转录 YouTube 视频中的音频以生成新的对话文本，再将其作为训练素材以提升 AI 系统的智能水平。
三名知情人士表示，部分 OpenAI 员工讨论了此举可能违反 YouTube 规则。谷歌旗下的 YouTube 明确禁止将其视频用于“”于该平台以外的应用场景。
知情人士指出，最终 OpenAI 团队还是转录了超过 100 万小时的 YouTube 视频。两位知情人士表示，这支团队包括 OpenAI 总裁 Greg Brockman，他还亲自协助收集了这些视频。整理出的文本随后被输入名为 GPT-4 的系统，这也是目前得到广泛认可的最强

原文链接：没有数据训练大模型？OpenAI 总裁带队转录YouTube视频，谷歌、Meta 也想尽数据收割套路