标签:数据
今日arXiv最热大模型论文:Dataverse,针对大模型的开源ETL工具,数据清洗不再难!
夕小瑶科技说 原创作者 | 松果 引言:大数据时代下的ETL挑战随着大数据时代的到来,数据处理的规模和复杂性不断增加,尤其是在大语言模型(LLMs)的开发中,...
谷歌向微软英特尔全面宣战!首款自研Arm CPU,最强大模型公测,AI视频对垒Sora
新智元报道编辑:Aeneas 好困 【新智元导读】昨晚的Google Cloud Next 2024大会上,谷歌接连放出一堆模型和产品王炸:Gemini 1.5 Pro公开可用、上线音频处理...
超越GPT-4V,苹果多模态大模型上新!
新智元报道编辑:flynne 【新智元导读】苹果开发的多模态模型Ferret-UI增强了对屏幕的理解和交互,在引用、基础和推理方面表现出了卓越的性能,这些增强功能...
Llama架构比不上GPT2?神奇token提升10倍记忆?
机器之心专栏 机器之心编辑部一个 7B 规模的语言模型 LLM 能存储多少人类知识?如何量化这一数值?训练时间、模型架构的不同将如何影响这一数值?浮点数压缩 ...
血常规、尿检等指标就能识别卵巢癌!中山大学刘继红团队牵头,四大医学院联合构建 AI 融合模型
作者:乔乔 编辑:李宝珠,三羊 中山大学肿瘤防治中心妇科刘继红教授团队,联合南方医科大学、华中科技大学同济医学院附属同济医院、浙江大学医学院附属妇产...
腾讯大模型落地实操:模型推理引擎 TACO-LLM 的实践、腾讯乐享的 AI 功能探索
大模型在今年的落地,除了对用 AI 对已有业务进行改造和提效外,算力和推理的优化,可能是另外一项重要的实践了。这在腾讯的两个完全不同的业务上有着明显的...
没有数据训练大模型?OpenAI 总裁带队转录YouTube视频,谷歌、Meta 也想尽数据收割套路
作者|CadeMetz,CeciliaKang, SheeraFrenkel,StuartA.ThompsonandNicoGrant 译者|核子可乐 策划|褚杏娟 2021 年底,OpenAI 开始面临数据供应荒。 这家人工智能...
120亿Stable LM 2上线即开源!2万亿token训练,碾压Llama 2 70B
新智元报道编辑:编辑部 【新智元导读】Stability AI推出Stable LM 2 12B模型,作为其新模型系列的进一步升级,该模型基于七种语言的2万亿Token进行训练,拥...
CVPR 2024 | 分割一切模型SAM泛化能力差?域适应策略给解决了
机器之心专栏 机器之心编辑部第一个针对「Segment Anything」大模型的域适应策略来了!相关论文已被CVPR 2024 接收。引言 大语言模型(LLMs)的成功激发了计...
iPhone上最强模型出现!性能超越GPT-4,Siri有救啦?
夕小瑶科技说 原创作者 | 任同学 你有多久没用你的Siri了呢?对于一个曾市值超过三万亿美元的科技巨头,苹果在人工智能方向上的实力还值得大家期待吗? 最近...
训出GPT-5短缺20万亿token!OpenAI被曝计划建「数据市场」
新智元报道编辑:桃子 【新智元导读】全网高质量数据集告急!OpenAI、Anthropic等AI公司正在开拓新方法,训练下一代AI模型。全网真的无数据可用了! 外媒报道...
今日arXiv最热大模型论文:人民大学发布,拯救打工人!Office真实场景下的大模型表格处理
夕小瑶科技说 原创作者 | 松果 引言:探索表格数据处理的新视角在当今的数据驱动世界中,表格数据无处不在,它们以其独特的结构化形式,为各行各业提供了信息...
30 个优质 NLP 数据集和模型,一键使用 8 个 demo,建议收藏!| 超全大模型资源汇总
大数据文摘受权转载自HyperAI超神经 近两年来,大模型的热度持续高涨,并且开始在更广泛的领域进行落地探索。随着行业整体的快速发展,越来越多的开源大模型...
基于多模态数据的学习者专注度研究
大数据文摘受权转载自中国人工智能学会 文 / 武法提专注是产生有效学习的先决条件,在以自主学习为主的在线学习场景中具有更为重要的作用,但在线学习时空分...
有效识别 63 万个三维空间构型,清华大学牵头发布 Uni-MOF 模型,预测 MOF 吸附能力
作者:梅菜 编辑:李宝珠,三羊 清华大学化工系卢滇楠教授团队,联合美国加州大学河滨分校吴建中教授和北京科学智能研究院高志锋研究员,提出一种三维 MOF 材...