标签：测试

CoT提出者Jason Wei：大模型评估基准的「」

机器之心报道机器之心编辑部Jason Wei 是思维链提出者，并和 Yi Tay、Jeff Dean 等人合著了关于大模型涌现能力的论文。目前他正在 OpenAI 进行工作。在 CV ...

阅读原文

AIGC动态

2年前 (2024)

GPT-4被证实具有「人类心智」登Nature！AI比人类更好察觉讽刺和暗示

新智元报道编辑：庸庸【新智元导读】关于AI是否具有「心智理论」一直存在很多争议。Nature最新研究显示，GPT-4的行为可与人类媲美，甚至能够比人类更好地察...

阅读原文

AIGC动态

2年前 (2024)

GPT-4o成为全领域SOTA！基准测试远超Gemini和Claude，多模态功能远超GPT-4

新智元报道编辑：编辑部【新智元导读】OpenAI半小时的发布会让很多人第一反应是直呼「失望」，但随着官网放出更多demo以及更多网友开始试用，大家才发现GPT-...

阅读原文

AIGC动态

2年前 (2024)

GPT-4通过图灵测试，胜率高达54%！UCSD新作：人类无法认出GPT-4

新智元报道编辑：桃子庸庸【新智元导读】GPT-4通过图灵测试了！UCSD研究团队通过实证研究，人类无法将GPT-4与人类进行区分。而且，有54%的情况下，它被判定...

阅读原文

AIGC动态

2年前 (2024)

今日arXiv最热大模型论文：图灵测试中，GPT-4仍不及人类！

夕小瑶科技说原创作者 | Axe_越你跟分清智能和人类吗？ 2015年，在由香港大学主办，以创新创业为主题的Dream Catchers论坛上，腾讯创始人马化腾透露，在创业...

阅读原文

AIGC动态

2年前 (2024)

GPT-4o成全球网友新玩具，秒秒钟纸质原型转录初始HTML，网友：谷歌你是一点流量摊不上啊

衡宇发自凹非寺量子位 | 公众号 QbitAI好啊，不愧是OpenAI最新旗舰，打开各个社交软件，GPT-4o的上手测试都唰唰唰往我首页推。请！看！这，就是用上GPT-4...

阅读原文

AIGC动态

2年前 (2024)

OpenAI神秘gpt2正在A/B测试，奥特曼抢先剧透，网友已玩嗨

明敏发自凹非寺量子位 | 公众号 QbitAIOpenAI正在秘密A/B测试下一代模型，实力超强被怀疑是GPT-4.5或GPT-5。就在奥特曼当谜语人暗示之后，两款新模型悄悄...

阅读原文

AIGC动态

2年前 (2024)

今日arXiv最热NLP大模型论文：对指令太敏感？山东大学提出一致性对齐法，治好大模型敏感体质！

夕小瑶科技说原创作者 | Axe_越不知道大家在使用大语言模型（LLM）的时候有没有遇到过，明明一模一样的意思，哪怕只有一两个字不同的指令给到大模型后，都会...

阅读原文

AIGC动态

2年前 (2024)

美国高调展示首个AI战斗机！部长亲自试驾全程未干预，10万行代码试飞21次

新智元报道编辑：编辑部【新智元导读】美军战斗机，能由AI完成自主空战了！最近，美国空军部长Kendall亲自试驾了国防部正在研制的X-62A AI飞机。1小时的飞行...

阅读原文

AIGC动态

2年前 (2024)

GitHub版Devin上线，会打字就能开发应用，微软CEO：重新定义IDE

克雷西发自凹非寺量子位 | 公众号 QbitAI微软的“GitHub版Devin”——Copilot WorkSpace，终于上线了！ WorkSpace是一种“Copilot原生”的全新开发环境，目的是让...

阅读原文

AIGC动态

2年前 (2024)

国产黑马砸来百万算力福利，Llama 3微调快去冲！H800点击就送，1.99元玩转4090

新智元报道编辑：编辑部【新智元导读】才短短一周，微调Llama 3变体已经井喷了！去哪里微调Llama 3？这家国产黑马早已上架了推理微调预训练教程，更夸张的是...

阅读原文

AIGC动态

2年前 (2024)

微软来大招：手机部署堪比GPT3.5高性能大模型！

夕小瑶科技说原创作者 | 任同学上周 LLaMa3 算是把关注度拉爆了，这才过了几天，微软已经宣布自己的 Phi-3-mini (3.8B) 模型可以媲美 Mixtral 8x7B 和 GPT-...

阅读原文

AIGC动态

2年前 (2024)

发布几小时，微软秒删媲美GPT-4开源大模型！竟因忘记投毒测试

新智元报道编辑：编辑部【新智元导读】前段时间，微软公布并开源了最新一代大模型WizardLM-2，号称性能堪比GPT-4。不过，还未上线一天，模型权重和公告全被...

阅读原文

AIGC动态

2年前 (2024)

大模型一对一战斗75万轮，GPT-4夺冠，Llama 3位列第五

克雷西发自凹非寺量子位 | 公众号 QbitAI关于Llama 3，又有测试结果新鲜出炉—— 大模型评测社区LMSYS发布了一份大模型排行榜单，Llama 3位列第五，英文单项...

阅读原文

AIGC动态

2年前 (2024)

新测试基准发布，最强开源Llama 3尴尬了

梦晨发自凹非寺量子位 | 公众号 QbitAI如果试题太简单，学霸和学渣都能考90分，拉不开差距…… 随着Claude 3、Llama 3甚至之后GPT-5等更强模型发布，业界急需...

阅读原文

AIGC动态

2年前 (2024)

1…5 678 9…13