标签:基准

AI赚钱副业~AI生成影视解说,半个月涨粉变现3.5W+!

这两年大家都在感叹生活不易,然而我想说的是,机会还是有的,但问题不在于有没有,而在于你是否能够认准机会,然后抓住它。 接触过很多咨询项目的人,发现...

突破编程边界:豆包大模型团队发布全新开源代码基准,涵盖11类真实场景!

字节开源最全面代码大模型基准FullStack Bench,可在线体验。
阅读原文

含284个数据集,覆盖18项临床任务,上海AI Lab等发布多模态医疗基准GMAI-MMBench

作者:李姝 编辑:李宝珠 上海人工智能实验室联合华盛顿大学/莫纳什大学/华东师范大学等多所科研单位提出了 GMAI-MMBench 基准,包含来自全球的 284 个下游任...
阅读原文

​首个自主机器学习AI工程师,刚问世就秒了OpenAI o1,Kaggle大师拿到饱

机器之心报道 编辑:泽南,亚鹂‍‍‍多智能体系统,可自动化整个 ML 工作流程,节省数千小时工时。 Open AI 的推理模型 o1,这么快就被比下去了? 本周五,AI ...
阅读原文

LLM 推理量化评估:FP8、INT8 与 INT4 的全面对比

大会预告12月5日-6日,2024中国生成式AI大会(上海站)将举办。上海科大助理教授、博导顾家远,腾讯优图实验室天衍研究中心负责人吴贤,银河通用机器人合伙人...
阅读原文

最强开源CodeLLM模型深夜来袭!320亿参数,Qwen2.5-Coder新模型超越GPT-4o

小明 发自 凹非寺量子位 | 公众号 QbitAI一夜之间,AI编程模型的开源王座易主了! Qwen2.5-Coder-32B正式发布,霸气拿下多个主流基准测试SOTA,彻底登上全球...
阅读原文

o1/Claude集体翻车!陶哲轩等60+顶尖数学家合力提出新数学基准,大模型正确率通通不足2%

一水 发自 凹非寺量子位 | 公众号 QbitAI让大模型集体吃瘪,数学题正确率通通不到2%! 获大神卡帕西力荐,大模型新数学基准来势汹汹—— 一出手,曾在国际数学...
阅读原文

陶哲轩和Karpathy推荐的数学测试,让全体LLM的数学几乎得0分:解决率2%

夕小瑶科技说 原创作者 | 小鹿最近,出现了一个数学基准集,让大模型们的数学集体翻车,正确率还不到2%。 就是这家非营利研究机构Epoch AI,它集合了世界最顶...
阅读原文

陶哲轩联手60多位数学家出题,世界顶尖模型通过率仅2%!专家级数学基准,让AI再苦战数年

新智元报道编辑:Hjh 【新智元导读】Epoch AI推出数学基准FrontierMath,目前前沿模型测试成功率均低于2%!OpenAI研究科学家Noam Brown说道:「我喜欢看到新...
阅读原文

不让视觉语言模型「盲猜」,性能竟直接提升一倍?

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

下载次数破39万!CMU、Meta联合发布VQAScore文生图优化方案:Imagen3已采用

新智元报道编辑:LRST 【新智元导读】VQAScore是一个利用视觉问答模型来评估由文本提示生成的图像质量的新方法;GenAI-Bench是一个包含复杂文本提示的基准测...
阅读原文

高效评估多模态预训练对齐质量,中科大提出模态融合率MIR

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

突破短视频局限!MMBench 团队构建中长视频开放问答评测基准,全面评估多模态大模型视频理解能力

新宇投稿 凹非寺量子位 | 公众号 QbitAIGPT-4o 四月发布会掀起了视频理解的热潮,而开源领军者Qwen2也对视频毫不手软,在各个视频评测基准上狠狠秀了一把肌肉...
阅读原文

控制电脑手机的智能体人人都能造,微软开源OmniParser

机器之心报道 编辑:Panda大‍模型控制计算机果真就是未来方向?最近这几天,让大模型具备控制计算机(包括电脑和手机)的相关研究和应用如雨后春笋般不断涌现...
阅读原文

加强版Claude3.5正式上线,一句话操控电脑的时代真的要来了。

大数据文摘受权 转载自数字生命卡兹克 作者:卡兹克、东毅 夜里十一点,大洋彼岸早上8点整。 Claude带着大货闪亮登场了。 升级版的Claude 3.5 Sonnet,新模型...
阅读原文

开源版OpenAI再出「神作」,小模型吊打Llama 3!Ministral系列问世,边缘AI开启

新智元报道编辑:桃子 【新智元导读】Mistral 7B诞生一周年之际,法国AI初创公司Mistral再次连发两个轻量级模型Ministral 3B和Ministral 8B,性能赶超Llama 3...
阅读原文
12312