整合海量公共数据，谷歌开源AI统计学专家DataGemma

AIGC动态2年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：整合海量公共数据，谷歌开源AI统计学专家DataGemma
关键字：数据,自然语言,用户,统计数据,模型
文章来源：新智元
内容字数：0字

内容摘要：

新智元报道编辑：alan
【新智元导读】近日，谷歌推出了自己筹划已久的大型开源公共统计数据库，以及在此基础上诞生的大模型。——「AI统计学专家」能解决幻觉吗？准确的统计数据、时效性强的信息，一直是大语言模型产生幻觉的重灾区。
知识是现成的，但学是不可能学的。
并非此身惰怠，只因现实太多阻碍。
对于这个问题，谷歌在近日推出了自己筹划已久的大型数据库Data Commons，以及在此基础上诞生的大模型DataGemma。
论文地址：https://docs.datacommons.org/papers/DataGemma-FullPaper.pdf
Data Commons是一个庞大的开源公共统计数据存储库，包含来自联合国 (UN)、疾病控制与预防中心 (CDC) 、人口普查局、卫生部、环境机构、经济部门、非组织和学术机构等可信来源的大量统计数据。
目前，整个语料库包含超过2500亿个数据点和超过2.5万亿个三元组。
数据有了，模型要怎么处理？
本文提出了一种将LLM桥接到数据的通用架构，并探讨了需要解决的三个问题。
首先，LLM必须学会在适当的时机选择，是使用存储在模型参数中的知识

原文链接：整合海量公共数据，谷歌开源AI统计学专家DataGemma