标签:语言

小模型性能饱和、表现不佳,根源是因为Softmax?

机器之心报道 编辑:陈萍小语言模型的出现是为弥补大语言模型的训练、推理等成本昂贵的缺点,但其自身也存在训练到某个阶段后性能下降的事实 (饱和现象),那...
阅读原文

「用 AI 训 AI」这事靠谱吗?

来源:节选自2024 年 Week04业内通讯在大语言模型领域,微调是改进模型的重要步骤。伴随开源模型数量日益增多,针对LLM的微调方法同样在推陈出新。 2024年初...
阅读原文

参数量不到10亿的OctopusV3,如何媲美GPT-4V和GPT-4?

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

AI知道苹果是什么吗?DeepMind语言模型科学家正把这些概念变得可量化、可测试

来源:ScienceAI 编辑:白菜叶 与计算机科学家 Ellie Pavlick 谈论她的工作——寻找大语言模型 (LLM) 中理解的证据——听起来可能像是在开玩笑。「hand-wavy」这...
阅读原文

AI程序员来了,学会让它给你打工才是正事!| Q福利

Devin 真的会抢走你的饭碗吗?全球首个完全自主的 AI 软件工程师上线,它是来自 Cognition 这家初创公司的产品——Devin, 这个名字也随即引爆了科技圈。话说 D...
阅读原文

MIT研究登顶会ICLR 2024:让机器人掌握"常识",自主完成复杂家务

大数据文摘受权转载自机器人大讲堂 在人工智能飞速发展的今天,家用服务机器人正日益走进寻常百姓家。然而,要让机器人像人一样灵活应对家庭环境的复杂多变,...
阅读原文

阿里开源110B大模型!超越LLama3!

4月26日晚间,阿里正式发布了110B的千问1.5开源大模型。 110B是中文开源模型的最大尺寸,用了GQA,32k上下文,除了中文能力亮眼,英文表现效果好于LLama3 70B...
阅读原文

世界读书日特辑:傅盛和《人类简史》的十年

近日,我在中信出版集团举办的2024读者嘉年华活动上,做了一场“傅盛和《人类简史》的十年”主题分享。 《人类简史》这部本书给我带来了很大的震撼,我认为它就...
阅读原文

今日arXiv最热NLP大模型论文:CMU最新综述:工具使用,大模型的神兵利器

夕小瑶科技说 原创作者 | Tscom 引言:探索语言模型中的“工具”概念在当今的数字化时代,语言模型(Language Models, LMs)已经成为了人工智能领域的一大亮点...
阅读原文

Transformer解码真实场景!Meta推出70M参数SceneScript模型

新智元报道编辑:alan 【新智元导读】近日,来自Meta的研究人员将Transformer用于解码真实世界的场景,并转化为几何表示,效果超越了传统的点云、网格或辐射...
阅读原文

CVPR 2024 | 擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

微软推出Phi-3 Mini:3.8B参数小到能塞进手机,性能媲美GPT-3.5

4月23日,微软在官网开源了小语言模型(SLM)——Phi-3-mini。这是微软Phi-3系列模型推出的首个模型。Phi-3-mini作为微软Phi系列的第四代产品,以其38亿参数和3...
阅读原文

微软发布Phi-3 Mini:3.8B参数小到能塞进手机,性能媲美GPT-3.5

“小而美”的Phi-3-mini竟然归功于其合成数据组成的数据集? 编译|长颈鹿 编辑|香草 智东西4月24日报道,4月23日,微软在官网开源了小语言模型(SLM)——Phi-3-m...
阅读原文

大模型综述出书了

在2023年3月,我们发表了大语言模型综述文章《A Survey of Large Language Models》。这篇综述文章已经更新到第13个版本,包含了83页的正文内容,并收录了900...
阅读原文

吴恩达力推,微软、谷歌、OpenAI 押注,AI Agent 会是创业新风口吗?

AI Agent 正在成为今年的 AI 新风口,不仅仅是从技术实现的角度,还有当下 AI 落地和收入角度的考虑。 吴恩达最近在多个场合分享了对于 AI Agent 的看法,他...
阅读原文
1101112131429