标签:语言
小模型性能饱和、表现不佳,根源是因为Softmax?
机器之心报道 编辑:陈萍小语言模型的出现是为弥补大语言模型的训练、推理等成本昂贵的缺点,但其自身也存在训练到某个阶段后性能下降的事实 (饱和现象),那...
「用 AI 训 AI」这事靠谱吗?
来源:节选自2024 年 Week04业内通讯在大语言模型领域,微调是改进模型的重要步骤。伴随开源模型数量日益增多,针对LLM的微调方法同样在推陈出新。 2024年初...
参数量不到10亿的OctopusV3,如何媲美GPT-4V和GPT-4?
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
AI知道苹果是什么吗?DeepMind语言模型科学家正把这些概念变得可量化、可测试
来源:ScienceAI 编辑:白菜叶 与计算机科学家 Ellie Pavlick 谈论她的工作——寻找大语言模型 (LLM) 中理解的证据——听起来可能像是在开玩笑。「hand-wavy」这...
AI程序员来了,学会让它给你打工才是正事!| Q福利
Devin 真的会抢走你的饭碗吗?全球首个完全自主的 AI 软件工程师上线,它是来自 Cognition 这家初创公司的产品——Devin, 这个名字也随即引爆了科技圈。话说 D...
MIT研究登顶会ICLR 2024:让机器人掌握"常识",自主完成复杂家务
大数据文摘受权转载自机器人大讲堂 在人工智能飞速发展的今天,家用服务机器人正日益走进寻常百姓家。然而,要让机器人像人一样灵活应对家庭环境的复杂多变,...
阿里开源110B大模型!超越LLama3!
4月26日晚间,阿里正式发布了110B的千问1.5开源大模型。 110B是中文开源模型的最大尺寸,用了GQA,32k上下文,除了中文能力亮眼,英文表现效果好于LLama3 70B...
世界读书日特辑:傅盛和《人类简史》的十年
近日,我在中信出版集团举办的2024读者嘉年华活动上,做了一场“傅盛和《人类简史》的十年”主题分享。 《人类简史》这部本书给我带来了很大的震撼,我认为它就...
今日arXiv最热NLP大模型论文:CMU最新综述:工具使用,大模型的神兵利器
夕小瑶科技说 原创作者 | Tscom 引言:探索语言模型中的“工具”概念在当今的数字化时代,语言模型(Language Models, LMs)已经成为了人工智能领域的一大亮点...
Transformer解码真实场景!Meta推出70M参数SceneScript模型
新智元报道编辑:alan 【新智元导读】近日,来自Meta的研究人员将Transformer用于解码真实世界的场景,并转化为几何表示,效果超越了传统的点云、网格或辐射...
CVPR 2024 | 擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
微软推出Phi-3 Mini:3.8B参数小到能塞进手机,性能媲美GPT-3.5
4月23日,微软在官网开源了小语言模型(SLM)——Phi-3-mini。这是微软Phi-3系列模型推出的首个模型。Phi-3-mini作为微软Phi系列的第四代产品,以其38亿参数和3...
微软发布Phi-3 Mini:3.8B参数小到能塞进手机,性能媲美GPT-3.5
“小而美”的Phi-3-mini竟然归功于其合成数据组成的数据集? 编译|长颈鹿 编辑|香草 智东西4月24日报道,4月23日,微软在官网开源了小语言模型(SLM)——Phi-3-m...
吴恩达力推,微软、谷歌、OpenAI 押注,AI Agent 会是创业新风口吗?
AI Agent 正在成为今年的 AI 新风口,不仅仅是从技术实现的角度,还有当下 AI 落地和收入角度的考虑。 吴恩达最近在多个场合分享了对于 AI Agent 的看法,他...