MMSearch

MMSearch是一个专为评估大型多模态模型（LMMs）在AI搜索引擎中的表现而设计的基准测试工具。它包含一个MMSearch-Engine框架和一个由300个问题组成的测试集，涵盖14个不同的子领域。通过问题重构、网页排序和答案总结三大步骤，MMSearch极大地提升了LMMs的搜索能力。

MMSearch

MMSearch是什么

MMSearch是一个基准测试工具，专门用于评估大型多模态模型（LMMs）在作为AI搜索引擎时的能力。它由MMSearch-Engine框架和一个包含300个问题的测试集组成，问题涵盖新闻和知识两大类别，确保测试内容与LMMs的训练数据不重叠，从而提供公正的评估。实验结果显示，GPT-4o模型在MMSearch基准测试中表现突出，超越了商业产品Perplexity Pro。另外，研究发现，在测试时增加计算量的效果优于单纯增大模型规模。

MMSearch的主要功能

多模态搜索能力评估：该系统旨在评估大型多模态模型（LMMs）在处理复杂包含图像和文本的查询时的表现。
问题重构：将用户的原始查询转变为适合搜索引擎处理的格式。
网页排序：从搜索引擎返回的结果中筛选出最相关的网页。
答案总结：从选出的网页中提取并总结出答案。

MMSearch的技术原理

MMSearch-Engine框架：
- 问题重构（Requery）：基于LMMs对用户查询意图的理解，将其转化为搜索引擎可处理的格式。如果查询中包含图像，还会利用Google Lens等工具识别图像中的关键信息。
- 网页排序（Rerank）：利用LMMs对搜索引擎返回的结果进行重新排序，以确定哪些网页最有可能包含正确答案。
- 答案总结（Summarization）：从选中的网页中提取相关信息，并进行总结。
数据集设计：MMSearch包含300个手动收集的查询实例，涵盖新闻和知识领域，确保与LMMs的训练数据不重叠。
评估策略：通过端到端任务和任务（问题重构、网页排序、答案总结）来评估LMMs的性能。