标签:幻觉

今日Arxiv最热NLP大模型论文:浙江大学发布统一的幻觉检测框架UNIHD

夕小瑶科技说 原创作者 | 芒果、Python引言:多模态大语言模型的幻觉问题及其重要性在人工智能领域,多模态大语言模型(MLLMs)已经取得了显著的进步,它们在...
阅读原文

大语言模型为什么始终会产生幻觉?

夕小瑶科技说 原创编辑 | 谢年年随着LLMs的广泛应用,幻觉问题引起了越来越多的安全和道德关注,各种各样的幻觉缓解方法也层出不穷,比如各类知识增强方法、...
阅读原文

今日arXiv最热NLP大模型论文:大语言模型为什么始终会产生幻觉

夕小瑶科技说 原创作者 | 谢年年、python随着LLMs的广泛应用,幻觉问题引起了越来越多的安全和道德关注,各种各样的幻觉缓解方法也层出不穷,比如各类知识增...
阅读原文

准确率不足20%,GPT-4V/Gemini竟看不懂漫画!首个图像序列基准测试开源

新智元报道编辑:LRS 【新智元导读】马里兰大学联合北卡教堂山发布首个专为多模态大语言模型(MLLM)设计的图像序列的基准测试Mementos,涵盖了真实世界图像...
阅读原文

今日ArXiv最骚NLP论文:大模型却能大幅提升效果的骚操作

夕小瑶科技说 原创作者 |谢年年、python在大模型的提示工程中,少样本提示,思维链提示(CoT)都是行之有效的方法,通过为大模型提供几个样例,为模型提供更...
阅读原文

大语言模型的32种消除幻觉的技术,你都了解吗?

夕小瑶科技说 原创作者 | 谢年年、python大模型幻觉问题是计算机语言学中一个重要的研究方向。为减轻幻觉,研究人员提出了多种策略,比如反馈机制、外部信息...
阅读原文

+大模型打败幻觉!斯坦福WikiChat性能碾压GPT-4,准确率高达97.3%

新智元报道编辑:alan 桃子 【新智元导读】大模型固有的幻觉问题严重影响了LLM的表现。斯坦福最新研究利用维基百科数据训练大模型,得到的WikiChat成为首个几...
阅读原文

大模型幻觉问题无解?理论证明校准的LM必然会出现幻觉

机器之心报道 编辑:Panda W理论证明!校准的语言模型必然出现幻觉。大型语言模型(LLM)虽然在诸多下游任务上展现出卓越的能力,但其实际应用还存在一些问题...
阅读原文

GPT-4V“大翻车”!把海豹识别成狗!分不清炸鸡和泰迪,葫芦娃也数不明白…

夕小瑶科技说 原创作者 | 付奶茶、王二狗最近听说,“遥遥领先”的GPT-4V翻大车了!竟然把海豹识别成狗!而且还分不清炸鸡和泰迪! 下面是GPT-4V对狗子和海豹的...
阅读原文

幻觉不是缺陷反而是优势!OpenAI大神认为大模型是“造梦机”

‍ ‍夕小瑶科技说 原创作者 | Tscom 通常情况下,人们对LLM产生的幻觉、虚假陈述等现象感到担忧,觉得有必要对这些LLM进一步优化以避免幻觉和虚假陈述等情况的...
阅读原文

OpenAI 疑似正在进行 GPT-4.5 灰度测试!

‍夕小瑶科技说 原创作者 | 王二狗大家好,我是二狗。 今天,有网友爆料OpenAI疑似正在进行GPT-4.5灰度测试! 当网友询问ChatGPT API调用查询模型的确切名称是...
阅读原文

大模型就是「造梦机」,Karpathy一语惊人!人类才是「幻觉问题」根本原因

新智元报道编辑:桃子 润【新智元导读】大模型就是「造梦机」!幻觉是LLM与生俱来的特性,而非缺陷。OpenAI科学家Andrej Karpathy独特视角在AI社区掀起了激烈...
阅读原文

开源模型「幻觉」更严重,这是三元组粒度的幻觉检测套件

机器之心专栏机器之心编辑部BSChecker:细粒度大模型幻觉检测工具与基准测试排行榜大模型长期以来一直存在一个致命的问题,即生成幻觉。由于数据集的复杂性,...
阅读原文

2023 年度热词,只能是它

新的技术新的流行词2023 年接近尾声,如果是你,会用哪个词概括它?语言是人类交流和表达的工具,每年最有代表性的词汇,如同言简意赅的线索,反映社会的流行...
阅读原文

ChatGPT最强竞对更新!上下文长度翻倍,API降价近30%

克雷西 发自 凹非寺量子位 | 公众号 QbitAIOpenAI开发者大会后不久,它的最强竞对Claude也宣布推出了重磅更新。更新后的Claude 2.1,上下文长度直接翻番到20...
阅读原文