弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一,远超知乎豆瓣小红书

AIGC动态7个月前发布 量子位
19 0 0

弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一,远超知乎豆瓣小红书

AIGC动态欢迎阅读

原标题:弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一,远超知乎豆瓣小红书
关键字:知乎,弱智,数据,中文,模型
文章来源:量子位
内容字数:4248字

内容摘要:


梦晨 西风 发自 凹非寺量子位 | 公众号 QbitAI离大谱了,弱智吧登上正经AI论文,还成了最好的中文训练数据??
具体来说,使用弱智吧数据训练的大模型,跑分超过百科、知乎、豆瓣、小红书等平台,甚至是研究团队精心挑选的数据集。
在问答、头脑风暴、分类、生成、总结、提取等8项测试中取得最高分。
没错,论文中的Ruozhiba就是指百度贴吧弱智吧,一个充满荒谬、离奇、不合常理发言的中文社区,画风通常是这样的:
最离谱的是,弱智吧AI代码能力也超过了使用专业技术问答社区思否数据训练的AI,这下吧友自己都闹不明白了。
其他平台围观网友也纷纷蚌埠住。
这项研究来自中科院深圳先进技术研究院、中科院自动化研究所,滑铁卢大学等众多高校、研究机构联合团队。
作者之一也现身评论区,透露使用弱智吧数据训练AI属于灵机一动,以前只用来测试。
弱智吧数据究竟如何达成这一成就,具体到论文中看。
弱智发言成指令微调神器这项研究起初为解决中文大模型训练中的诸多问题:
中文数据集很多是从英文翻译过来的,没有很好地契合中文的语言习惯和文化背景
不少数据集是用AI生成的,质量难以保证,容易出现事实性错误
即使是人工标注


原文链接:弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一,远超知乎豆瓣小红书

联系作者

文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...