标签:准确率

程序员窃喜!卡了大模型脖子的Json输出,OpenAI终于做到了100%正确

夕小瑶科技说 原创作者 | 海野OpenAI上次提到JSON模式的概念,还是在去年的DevDay上。那是ChatGPT第一次拥抱JSON模式。 但这个功能可以说是饱受诟病。 经常遇...
阅读原文

揭秘!47页文档拆解苹果智能,从架构、数据到训练和优化

机器之心报道 机器之心编辑部在 2024 年全球开发者大会上,苹果重磅推出了 Apple Intelligence,这是一个全新的个性化智能系统, 可以提供实用的智能服务,覆...
阅读原文

Mistral新旗舰决战Llama 3.1!最强开源Large 2 123B,扛鼎多语言编程全能王

新智元报道编辑: 【新智元导读】紧跟着Meta的重磅发布,Mistral Large 2也带着权重一起上新了,而且参数量仅为Llama 3.1 405B的三分之一。不仅在编码、数学...
阅读原文

OpenAI“最后一篇”超级对齐论文发布:大小模型相互博弈,输出可读性up

克雷西 发自 凹非寺量子位 | 公众号 QbitAI让大小模型相互博弈,就能实现生成内容可读性的提升! 这是来自OpenAI的正经研究,目标就是在保证准确率的同时,让...
阅读原文

端侧设备AI代理优化框架问世,领域内准确率可达97%

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

这些VLM竟都是盲人?GPT-4o、Sonnet-3.5相继败于「视力」测试

机器之心报道 机器之心编辑部四大 VLM,竟都在盲人摸象? 让现在最火的 SOTA 模型们(GPT-4o,Gemini-1.5,Sonnet-3,Sonnet-3.5)数一数两条线有几个交点,...
阅读原文

Q*项目公开发布!研究团队并非OpenAI

昆仑万维 投稿量子位 | 公众号 QbitAIQ*项目公开发布,可让小模型达到参数量比其大数十倍、甚至上百倍模型的推理能力。 自去年11月伴随着OpenAI内讧,其神秘Q...
阅读原文

昆仑万维携手南洋理工大学抢发Q*算法:百倍提升7B模型推理能力

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

悬赏800万的超难测试集,被GPT-4o实现新SOTA,准确率已达50%

克雷西 发自 凹非寺量子位 | 公众号 QbitAIGTP-4o挑战悬赏八百万的超难数据集,实现SOTA! 数据集当中包含了各种类型的图形推理题目,被挑战发起者预言“大模...
阅读原文

GPT-4不是世界模型,LeCun双手赞同!ACL力证LLM永远无法模拟世界

新智元报道编辑:桃子乔杨 【新智元导读】大模型是世界模型吗?UA微软等机构最新研究发现,GPT-4在复杂环境的模拟中,准确率甚至不及60%。对此,LeCun激动地...
阅读原文

首次证实白盒Transformer可扩展性!马毅教授CRATE-α:鲸吞14亿数据,性能稳步提升

新智元报道编辑:LRS 【新智元导读】CRATE-α是一种新型Transformer架构变体,通过设计改进提升了模型的可扩展性、性能和可解释性,CRATE-α-Base在ImageNet分...
阅读原文

清华接手,YOLOv10问世:性能大幅提升,登上GitHub热榜

机器之心报道 机器之心编辑部相同性能情况下,延迟减少 46%,参数减少 25%。目标检测系统的标杆 YOLO 系列,再次获得了重磅升级。自今年 2 月 YOLOv9 发布之...
阅读原文

芝大论文证明GPT-4选股准确率高达60%,人类股票分析师要下岗?AI大牛质疑数据污染

新智元报道编辑:编辑部 【新智元导读】GPT-4在为人类选股时,表现竟然超越了大部分人类分析师,和针对金融训练的专业模型?在没有任何上下文的情况下,它们...
阅读原文

谷歌数学版Gemini奥赛难题,堪比人类数学家!

新智元报道编辑:编辑部 【新智元导读】I/O大会上,谷歌Gemini 1.5 Pro一系列更新让开发者们再次沸腾。最新技术报告中,最引人注目的一点是,数学专业版1.5 P...
阅读原文

AI学会隐藏思维暗中推理!不依赖人类经验解决复杂任务,更黑箱了

梦晨 发自 凹非寺量子位 | 公众号 QbitAIAI做数学题,真正的思考居然是暗中“心算”的? 纽约大学团队新研究发现,即使不让AI写步骤,全用无意义的“……”代替,在...
阅读原文
1234