整合海量公共数据,谷歌开源AI统计学专家DataGemma

AIGC动态3个月前发布 新智元
10 0 0

整合海量公共数据,谷歌开源AI统计学专家DataGemma

AIGC动态欢迎阅读

原标题:整合海量公共数据,谷歌开源AI统计学专家DataGemma
关键字:数据,自然语言,用户,统计数据,模型
文章来源:新智元
内容字数:0字

内容摘要:


新智元报道编辑:alan
【新智元导读】近日,谷歌推出了自己筹划已久的大型开源公共统计数据库,以及在此基础上诞生的大模型。——「AI统计学专家」能解决幻觉吗?准确的统计数据、时效性强的信息,一直是大语言模型产生幻觉的重灾区。
知识是现成的,但学是不可能学的。
并非此身惰怠,只因现实太多阻碍。
对于这个问题,谷歌在近日推出了自己筹划已久的大型数据库Data Commons,以及在此基础上诞生的大模型DataGemma。
论文地址:https://docs.datacommons.org/papers/DataGemma-FullPaper.pdf
Data Commons是一个庞大的开源公共统计数据存储库,包含来自联合国 (UN)、疾病控制与预防中心 (CDC) 、人口普查局、卫生部、环境机构、经济部门、非组织和学术机构等可信来源的大量统计数据。
目前,整个语料库包含超过2500亿个数据点和超过2.5万亿个三元组。
数据有了,模型要怎么处理?
本文提出了一种将LLM桥接到数据的通用架构,并探讨了需要解决的三个问题。
首先,LLM必须学会在适当的时机选择,是使用存储在模型参数中的知识


原文链接:整合海量公共数据,谷歌开源AI统计学专家DataGemma

联系作者

文章来源:新智元
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...