标签:幻觉

GPT-4V“大翻车”!把海豹识别成狗!分不清炸鸡和泰迪,葫芦娃也数不明白…

夕小瑶科技说 原创作者 | 付奶茶、王二狗最近听说,“遥遥领先”的GPT-4V翻大车了!竟然把海豹识别成狗!而且还分不清炸鸡和泰迪! 下面是GPT-4V对狗子和海豹的...
阅读原文

幻觉不是缺陷反而是优势!OpenAI大神认为大模型是“造梦机”

‍ ‍夕小瑶科技说 原创作者 | Tscom 通常情况下,人们对LLM产生的幻觉、虚假陈述等现象感到担忧,觉得有必要对这些LLM进一步优化以避免幻觉和虚假陈述等情况的...
阅读原文

OpenAI 疑似正在进行 GPT-4.5 灰度测试!

‍夕小瑶科技说 原创作者 | 王二狗大家好,我是二狗。 今天,有网友爆料OpenAI疑似正在进行GPT-4.5灰度测试! 当网友询问ChatGPT API调用查询模型的确切名称是...
阅读原文

大模型就是「造梦机」,Karpathy一语惊人!人类才是「幻觉问题」根本原因

新智元报道编辑:桃子 润【新智元导读】大模型就是「造梦机」!幻觉是LLM与生俱来的特性,而非缺陷。OpenAI科学家Andrej Karpathy独特视角在AI社区掀起了激烈...
阅读原文

开源模型「幻觉」更严重,这是三元组粒度的幻觉检测套件

机器之心专栏机器之心编辑部BSChecker:细粒度大模型幻觉检测工具与基准测试排行榜大模型长期以来一直存在一个致命的问题,即生成幻觉。由于数据集的复杂性,...
阅读原文

2023 年度热词,只能是它

新的技术新的流行词2023 年接近尾声,如果是你,会用哪个词概括它?语言是人类交流和表达的工具,每年最有代表性的词汇,如同言简意赅的线索,反映社会的流行...
阅读原文

ChatGPT最强竞对更新!上下文长度翻倍,API降价近30%

克雷西 发自 凹非寺量子位 | 公众号 QbitAIOpenAI开发者大会后不久,它的最强竞对Claude也宣布推出了重磅更新。更新后的Claude 2.1,上下文长度直接翻番到20...
阅读原文

大模型「幻觉」,看这一篇就够了 | 哈工大华为出品

西风 发自 凹非寺量子位 | 公众号 QbitAI大模型“幻觉”,终于有系统综述了!一口气49页,详细阐述了幻觉定义、分类、导致幻觉的原因,还有检测幻觉、减轻幻觉...
阅读原文

企业要做大模型落地?建议进来看看这个榜单

夕小瑶科技说 原创作者 | 卖萌酱机器幻觉问题,可能是未来相当长一段时间内悬浮在大模型领域上方的两片乌云之一。遥记半年前,LeCun 就曾断言:“单纯根据概率...
阅读原文

大模型幻觉排行榜GPT-4夺冠,英伟达科学家强力打假!Meta版ChatGPT一作发长文鸣冤

新智元报道编辑:编辑部【新智元导读】Meta Galatica的一周年忌日快到了,LeCun和一作心里都很痛。比ChatGPT早诞生两周,却因幻觉被喷下架——ChatGPT的荣光,...
阅读原文

LLM幻觉问题全梳理!哈工大团队50页综述重磅发布

新智元报道编辑:拉燕【新智元导读】最近,来自哈尔滨工业大学和华为的研究团队发表了一篇长达50页的综述,细致地盘点了有关LLM幻觉问题你该知道的所有事。幻...
阅读原文

比ChatGPT早发两周,被喷下线的Galactica成了LeCun最大的意难平

机器之心报道编辑:小舟、大盘鸡今天我们提到大型语言模型(LLM),第一个想到的就是 OpenAI 的 ChatGPT。一年来,ChatGPT 因其强大的性能,广泛的应用前景而...
阅读原文

大模型幻觉率排行:GPT-4 3%最低,谷歌Palm竟然高达27.2%

机器之心报道编辑:大盘鸡排行榜一出,高下立见。人工智能发展进步神速,但问题频出。OpenAI 新出的 ,后脚。幻觉一直是大模型的致命缺陷。由于数据集庞杂,...
阅读原文

GPT-4作弊被抓!吉娃娃or松饼打乱顺序就出错,LeCun:警惕在训练集上测试

梦晨 发自 凹非寺量子位 | 公众号 QbitAIGPT-4解决网络名梗“吉娃娃or蓝莓松饼”,一度惊艳无数人。然鹅,现在它被指出“作弊”了!全用原题中出现的图,只是打乱...
阅读原文

连葫芦娃都数不明白,解说英雄联盟的GPT-4V面临幻觉挑战

‍‍机器之心报道编辑:张倩、小舟让大模型同时理解图像和文字可能比想象中要难。在被称为「AI 春晚」的 OpenAI 首届开发者大会拉开帷幕后,很多人的朋友圈都被...
阅读原文