标签:语料

星环科技孙元浩:语料已经是大模型最大的挑战

机器之心报道 作者:Esther「原来以为语料已经匮乏了,大模型训练已经没有语料了,实际上不是的,数据还远远没有跑光」。 作为大数据领域超过十年的创业者,...
阅读原文

弥补中文短板,社区Llama3汉化微调版效果如何?

Llama3自上个月发布以来,被称为社区最强开源模型。由于中文能力欠缺,为了弥补这一短板,开源社区已经出现了多个基于Llama3进行中文优化的微调模型。 这些微...
阅读原文

0门槛免费商用!孟子3-13B大模型正式开源,万亿token数据训练

白交 发自 凹非寺量子位 | 公众号 QbitAI澜舟科技官宣:孟子3-13B大模型正式开源! 这一主打高性价比的轻量化大模型,面向学术研究完全开放,并支持免费商用...
阅读原文

GPT-4「荣升」AI顶会同行评审专家?斯坦福最新研究:ICLR/NeurIPS等竟有16.9%评审是ChatGPT生成

新智元报道编辑:Mindy 【新智元导读】斯坦福的一篇案例研究表示,提交给AI会议的同行评审文本中,有6.5%到16.9%可能是由LLM大幅修改的,而这些趋势可能在个...
阅读原文

谷歌开源大模型Gemma带来了什么,原来“中国制造”的机会早已到来

金磊 发自 凹非寺量子位 | 公众号 QbitAI谷歌罕见open的AI,给开源大模型到底带来了什么? Gemma从发布到现在已经时过数日,谷歌久违的这次开源,可谓是给全...
阅读原文

国产开源模型标杆大升级,重点能力比肩ChatGPT!书生·浦语2.0发布,支持免费商用

明敏 发自 凹非寺量子位 | 公众号 QbitAI1月17日,新一代大语言模型书⽣·浦语2.0(InternLM2)正式发布并开源。 2种参数规格、3种模型版本,共计6个模型,全...
阅读原文

200亿「书生·浦语2.0」正式开源!数推性能比肩ChatGPT,200K超长上下文完美召回

新智元报道编辑:桃子 好困 【新智元导读】新一代国产开源大语言模型来了!200K超长上下文「完美」支持,20B版本综合性能全面领先。就在今天,上海人工智能实...
阅读原文

为大模型恶补数学,上交开源MathPile语料库,95亿tokens,还可商用

机器之心专栏 机器之心编辑部在当前智能对话模型的发展中,强大的底层模型起着至关重要的作用。这些先进模型的预训练往往依赖于高质量且多样化的语料库,而如...
阅读原文

Gemini自曝文心一言牵出重大难题,全球陷入高质量数据荒?2024年或将枯竭

新智元报道编辑:编辑部 【新智元导读】Gemini自曝自己是文心一言,听之虽然好笑,背后原因却令人忧心:互联网语料或许已经被AI严重污染,而且全球都陷入了高...
阅读原文

传字节成立AI应用新部门Flow;淘天集团筹建大模型团队;浪潮信息开源千亿级大模型丨AIGC大事日报

11/27全球AIGC产业要闻1、传字节跳动成立新部门Flow 发力AI应用层2、传淘天集团筹建大模型团队3、浪潮信息发布千亿级开源大模型源2.04、马毅团队提出白盒Tran...
阅读原文

重磅!首个生成式AI安全指导性文件来了,明确31种安全风险

头图由AIGC工具创作生成生成式AI安全新规征求意见,达标才能“持证上岗”。作者|李水青编辑|心缘智东西10月12日消息,10月11日,全国信息安全标准化技术委员会...
阅读原文

国内首个生成式AI安全规范!大模型产业圈人必读

先手出击!国内首个生成式AI安全红头文件来了。作者|李水青编辑|心缘智东西10月12日消息,10月11日,全国信息安全标准化技术委员会官网发布《生成式人工智能...
阅读原文

国内首个生成式AI安全规定!大模型产业圈人必读

先手出击!国内首个生成式AI安全红头文件来了。作者|李水青编辑|心缘智东西10月12日消息,10月11日,全国信息安全标准化技术委员会官网发布《生成式人工智能...
阅读原文

20B量级大模型性能媲美Llama2-70B!完全开源,从基座到工具全安排明白了

新智元报道编辑:编辑部【新智元导读】国产模型开源纪录,又被刷新了!上海AI实验室等机构开源的InternLM-20B,竟然能和Llama2-70B打个平手?就在刚刚,国内...
阅读原文