AIGC动态欢迎阅读
原标题:没有数据训练大模型?OpenAI 总裁带队转录YouTube视频,谷歌、Meta 也想尽数据收割套路
关键字:政策,数据,报告,知识产权,模型
文章来源:AI前线
内容字数:16615字
内容摘要:
作者|CadeMetz,CeciliaKang,
SheeraFrenkel,StuartA.ThompsonandNicoGrant
译者|核子可乐
策划|褚杏娟
2021 年底,OpenAI 开始面临数据供应荒。
这家人工智能研究机构在开发最新 AI 系统时,已然耗尽了互联网上所有质量稳定的英语文本库。现在他们需要更多数据来训练自家技术的下一个版本——更多更多。
为此,OpenAI 研究人员开发出一款名为 Whisper 的语音识别工具,能够转录 YouTube 视频中的音频以生成新的对话文本,再将其作为训练素材以提升 AI 系统的智能水平。
三名知情人士表示,部分 OpenAI 员工讨论了此举可能违反 YouTube 规则。谷歌旗下的 YouTube 明确禁止将其视频用于“独立”于该平台以外的应用场景。
知情人士指出,最终 OpenAI 团队还是转录了超过 100 万小时的 YouTube 视频。两位知情人士表示,这支团队包括 OpenAI 总裁 Greg Brockman,他还亲自协助收集了这些视频。整理出的文本随后被输入名为 GPT-4 的系统,这也是目前得到广泛认可的最强
原文链接:没有数据训练大模型?OpenAI 总裁带队转录YouTube视频,谷歌、Meta 也想尽数据收割套路
联系作者
文章来源:AI前线
作者微信:ai-front
作者简介:面向AI爱好者、开发者和科学家,提供大模型最新资讯、AI技术分享干货、一线业界实践案例,助你全面拥抱AIGC。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...