数据 - 第 59 页

港大开源图基础大模型OpenGraph: 强泛化能力，前向传播预测全新数据

OpenGraph 投稿向凹非寺量子位 | 公众号 QbitAI图学习领域的数据饥荒问题，又有能缓解的新花活了！ OpenGraph，一个基于图的基础模型，专门用于在多种图数据...

阅读原文

AIGC动态

2年前 (2024)

复旦脑科学研究院新成果：借鉴语义分割，开发空间转录组语义注释工具 Pianno

作者：哇塞编辑：李宝珠，三羊复旦大学脑科学研究院诸颖团队提出了「空间转录组语义注释」概念，并开发了空间转录组语义注释工具 Pianno，能够为组织内的空...

阅读原文

AIGC动态

2年前 (2024)

低质多模态数据融合，多家机构联合出了篇综述论文

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术...

阅读原文

AIGC动态

2年前 (2024)

Hugging Face进军机器人，前特斯拉Optimus科学家带队｜甲子光年

软件平台也有硬件野心。作者｜王艺‍‍ 编辑｜赵健‍ 机器人太火了，连专注软件领域的Hugging Face也入局了！美国时间5月6日，Hugging Face的机器人项目负责人...

阅读原文

AIGC动态

2年前 (2024)

挑战OpenAI，微软自研5000亿参数绝密武器曝光！前谷歌DeepMind高管带队

新智元报道编辑：桃子好困【新智元导读】没有OpenAI，微软还有万全之策！首个5000亿参数大模型MAl-1正在研发，前谷歌DeepMind负责人领衔，预计5月底亮相。...

阅读原文

AIGC动态

2年前 (2024)

让机器准确「看懂」手物交互动作，清华大学等提出GeneOH Diffusion方法

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术...

阅读原文

AIGC动态

2年前 (2024)

揭秘 AI 多模态融合的“智慧核心”：六校联合发布低质数据融合新篇章

多模态融合是多模态智能中的基础任务之一。多模态融合的动机在于联合利用来自不同模态的有效信息提升下游任务的准确性和稳定性。传统的多模态融合方法往往依...

阅读原文

AIGC动态

2年前 (2024)

手机可跑，3.8B参数量超越GPT-3.5！微软发布Phi-3技术报告：秘密武器是洗干净数据

新智元报道编辑：LRS 【新智元导读】Scaling Laws再次失效？微软最新的phi-3-mini模型，只用3.8B模型就击败了一众7B老大哥，用iPhone14每秒可生成12个tokens...

阅读原文

AIGC动态

2年前 (2024)

MediaCrawler，轻松爬取抖音小红书评论数据！

大数据文摘受权转载自法纳斯特今天给大家介绍一个Python爬虫实战的项目，MediaCrawler。可以实现小红书爬虫，抖音爬虫，快手爬虫， B站爬虫，微博爬虫。 ...

阅读原文

AIGC动态

2年前 (2024)

历时 5 个月从零到一研发一款数据库产品，这些坑他们已经踩过了｜InfoQ 独家专访百度智能云向量数据库团队

采访嘉宾｜百度数据库产品总架构师朱洁、百度数据库高级架构师郭波作者 | 李冬梅生成式人工智能技术发展带动了大规模预训练模型的广泛应用，向量数据库成...

阅读原文

AIGC动态

2年前 (2024)

上海AI Lab开源首个可替代GPT-4V的多模态大模型

夕小瑶科技说原创作者 | 任同学与开源和闭源模型相比，InternVL 1.5 在 OCR、多模态、数学和多轮对话等 18 个基准测试中的 8 个中取得了最先进的结果。上海...

阅读原文

AIGC动态

2年前 (2024)

万字长文梳理Llama开源家族：从Llama-1到Llama-3

01引言在AI领域，大模型的发展正以前所未有的速度推进技术的边界。北京时间4月19日凌晨，Meta在官网上官宣了Llama-3，作为继Llama-1、Llama-2和Code-Llama之...

阅读原文

AIGC动态

2年前 (2024)

仅用250美元，Hugging Face技术主管手把手教你微调Llama 3

机器之心报道编辑：赵阳大语言模型的微调一直是说起来容易做起来难的事儿。近日 Hugging Face 技术主管 Philipp Schmid 发表了一篇博客，详细讲解了如何利用...

阅读原文

AIGC动态

2年前 (2024)

开源15T tokens！HuggingFace放出规模最大、质量最高预训练数据集

新智元报道编辑：LRS 【新智元导读】FineWeb是一个高质量的预训练数据集，包含15T+个tokens，主要包含英语文本；消融实验证明了FineWeb数据集的质量要高于其...

阅读原文

AIGC动态

2年前 (2024)

告别偏科，能玩转多模态、多任务、多领域的强化智能体终于来了

机器之心报道编辑：佳琦模型、专家智能体和数据集都已开源。随着 Llama 3 发布，未来大模型的参数量已飙升至惊人的 4000 亿。尽管每周几乎都有一个声称性能...

阅读原文

AIGC动态

2年前 (2024)

标签：数据