GPT-4V被超越？SEED-Bench多模态大模型测评基准更新

AIGC动态3年前 (2023)发布大数据文摘

507 0 0

AIGC动态欢迎阅读

原标题：GPT-4V被超越？SEED-Bench多模态大模型测评基准更新

关键字：腾讯,层级,报告,维度,图像

文章来源：大数据文摘

内容字数：4986字

内容摘要：

大数据文摘受权转载自将门创投
大语言模型（LLM）的蓬勃发展离不开健全的评测体系，而对于多模态大语言模型（MLLM）而言，一直缺乏类似MMLU、ARC等全面且客观的评测基准。腾讯AI Lab联手腾讯ARC Lab和港中深推出了SEED-Bench系列测评基准，有效弥补了这一缺陷，目前已成为测评MLLM的主流基准之一。
SEED-Bench评测基准在2023年7月首次发布，它包含了19K道经过人工标注正确答案的选择题，涵盖了图像和视频的12个评估维度；并在11月发布了v2版本，扩充至24K选择题和27个维度！? 值得一提的是，Hugging Face CEO Clément Delangue也对在线榜单进行了点赞。? 技术报告
SEED-Bench-1：
https://arxiv.org/abs/2307.16125
SEED-Bench-2：
https://arxiv.org/abs/2311.17092
?测评数据
SEED-Bench-1：
https://huggingface.co/datasets/AILab-CVC/SEED-Bench
SEED-Bench-2：

原文链接：点此阅读原文：GPT-4V被超越？SEED-Bench多模态大模型测评基准更新

联系作者

文章来源：大数据文摘

作者微信：BigDataDigest

作者简介：普及数据思维，传播数据文化

阅读原文

# AIGC动态 # 图像 # 层级 # 报告 # 维度 # 腾讯

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

GPT-4V被超越？SEED-Bench多模态大模型测评基准更新

AIGC动态欢迎阅读

联系作者

苹果版CUDA来了！专为自家芯片打造，M3 Max可跑每秒迭代2.8次

发没发布吵了一周，你在对GPT-4.5期待些什么

相关文章

暂无评论

GPT-4V被超越？SEED-Bench多模态大模型测评基准更新

AIGC动态欢迎阅读

联系作者

​苹果版CUDA来了！专为自家芯片打造，M3 Max可跑每秒迭代2.8次

发没发布吵了一周，你在对GPT-4.5期待些什么

相关文章

暂无评论

苹果版CUDA来了！专为自家芯片打造，M3 Max可跑每秒迭代2.8次