标签：测试

产品复盘：从「文风测试」到「 OC 分析」，AI产品一波流也有春天

过去 2 周，在 AI 技术圈极少有人知晓的情况下，一个叫做「文风测试」的小网站已经红透了半个社交网络。文风测试是一个非常简单的网站，你复制你写的文字进...

阅读原文

AIGC动态

2年前 (2024)

OpenAI宣布全面封禁中国API接入，开发者们慌了

夕小瑶科技说原创作者 | 付奶茶近日，陆陆续续有开发者、用户收到了OpenAI的官方通告，称将从7月9日开始，正式严格禁止部分国家/地区的API调用，其中包括中...

阅读原文

AIGC动态

2年前 (2024)

今日arXiv最热大模型论文：大模型对齐告别微调，直接编辑表征空间即可解决

夕小瑶科技说原创作者 | Richard人工智能技术正在飞速发展，尤其是大语言模型在自然语言处理领域取得了令人瞩目的成就。但同时，我们也面临着如何让语言模型...

阅读原文

AIGC动态

2年前 (2024)

为什么都放弃了LangChain？

机器之心报道机器之心编辑部或许从诞生那天起，LangChain 就注定是一个口碑两极分化的产品。看好 LangChain 的人欣赏它丰富的工具和组建和易于集成等特点，...

阅读原文

AIGC动态

2年前 (2024)

AI学会篡改奖励函数、研究者！Claude团队：无法根除的行为，令人不安

梦晨发自凹非寺量子位 | 公众号 QbitAI坏了！AI被发现偷偷篡改自己的奖励函数，并且欺骗研究人员，隐瞒这一行为。只需要给AI一个隐藏的“草稿纸”，研究人员...

阅读原文

AIGC动态

2年前 (2024)

GPT-4o攻破ARC-AGI无法被挑战的神话！71%准确率成新SOTA

新智元报道编辑：庸庸乔杨【新智元导读】号称不可能轻易被击败的AGI基准ARC-AGI被GPT-4o撼动，GPT-4o以在公共测试集50%、在训练集71%的准确率成为了新的SOTA...

阅读原文

AIGC动态

2年前 (2024)

悬赏800万的超难测试集，被GPT-4o实现新SOTA，准确率已达50%

克雷西发自凹非寺量子位 | 公众号 QbitAIGTP-4o挑战悬赏八百万的超难数据集，实现SOTA！数据集当中包含了各种类型的图形推理题目，被挑战发起者预言“大模...

阅读原文

AIGC动态

2年前 (2024)

【招聘贴】【薪资30-60K】【成都】【蚂蚁金服】【测试开发工程师】

来成都蚂蚁金服吗？我可以内推！！感兴趣，请微信扫以下码进行简历内推。【地点】：成都，高新区天府四街，蚂蚁C空间。【岗位】：测试开发工程师（偏AI...

阅读原文

AIGC动态

2年前 (2024)

英伟达市值3万亿美元高吗？不高有了Physical AI会更高

大数据文摘受权转载自头部科技文丨海天英伟达的市值疯狂飙升，简直有些丧心病狂！上周，英伟达市值突破3万亿美元，短短3个月增加1万亿美元。之所以猛增，...

阅读原文

AIGC动态

2年前 (2024)

两句话，让LLM逻辑推理瞬间崩溃！最新「爱丽丝梦游仙境」曝出GPT、Claude等重大缺陷

新智元报道编辑：乔杨好困【新智元导读】在基准测试上频频屠榜的大模型们，竟然被一道简单的逻辑推理题打得全军覆没？最近，研究机构LAION的几位作者共同发...

阅读原文

AIGC动态

2年前 (2024)

《自然》科学期刊：人工智能的心理洞察，比较LLMs和人类的心理理论

将我们定义为人类的核心是心理理论的概念：追踪他人心理状态的能力。在当今人工智能的研究领域，心理理论（Theory of Mind）的概念已经成为一个热门领域。心...

阅读原文

AIGC动态

2年前 (2024)

人工智能在心理测试理论方面胜过人类

STUART BRADFORD 来源：IEEE电气电子工程师学会心智理论（Theory of Mind，https://www.simplypsychology.org/theory-of-mind.html）——追踪他人心理状态的能...

阅读原文

AIGC动态

2年前 (2024)

都白学了！Mistral 的首个“开放”编程模型，精通Python、C等 80+ 语言，用220 亿参数赢了 GPT-4

整理 | 华卫 5 月 29 日，由微软支持、估值 60 亿美元的法国 AI 初创公司 Mistral 发布了其有史以来的第一个用于编码的“开放式”生成式 AI 模型，称为 Codestr...

阅读原文

AIGC动态

2年前 (2024)

27岁华裔天才少年对打UC伯克利，首发SEAL大模型排行榜！Claude 3 Opus数学封神

新智元报道编辑：编辑部【新智元导读】一直以来，UC伯克利团队的LMSYS大模型排行榜，深受AI圈欢迎。如今，最有实力的全新大模型排行榜SEAL诞生，得到AI大佬...

阅读原文

AIGC动态

2年前 (2024)

每天都看模型评分，但你真的了解吗？OpenAI研究员最新博客，一文读懂LLM评估

新智元报道编辑：乔杨【新智元导读】在LLM能力突飞猛进的当下，所有研究者似乎都在关注数据、算力、算法等模型开发的各个方面，但OpenAI研究员Jason Wei最近...

阅读原文

AIGC动态

2年前 (2024)

1…4 567 8…13