相关论文已被 ICLR 2025 接收,并已开源。
原标题:北京大学彭宇新教授团队开源最新多轮交互式商品检索模型、数据集及评测基准
文章来源:机器之心
内容字数:8463字
北京大学彭宇新教授团队ICLR 2025论文:多轮组合图像检索新基准FashionMT及模型MAI
本文介绍了北京大学彭宇新教授团队在多轮交互式商品检索领域的最新研究成果,该成果已被ICLR 2025接收并开源。该研究针对现有多轮组合图像检索(MTCIR)方法存在的历史上下文缺失和数据规模受限问题,提出了新的数据集和模型。
1. 现有MTCIR方法的不足
现有的MTCIR方法通常通过串联单轮CIR数据集构建多轮数据集,存在两大缺陷:首先,修改文本缺乏对历史图像的关联,导致检索偏离实际场景;其次,数据规模受限,难以满足研究和应用需求。
2. 新数据集FashionMT
为了解决上述问题,该研究构建了新的多轮组合图像检索数据集和评测基准FashionMT。FashionMT具有以下特点:
回溯性:每轮修改文本可能涉及历史参考图像信息,要求算法回溯利用多轮历史信息。
多样化:FashionMT包含的电商图像数量和类别分别是MT FashionIQ的14倍和30倍,交互轮次数量接近其27倍,提供了丰富的多模态检索场景。
FashionMT的构建利用了一个自动化的修改生成框架(MGF),该框架能够自动生成具有回溯性(回滚和组合两种情境)的修改文本。
3. 多轮聚合-迭代模型MAI
该研究提出了多轮聚合-迭代模型MAI,以应对MTCIR中的两大挑战:多模态语义聚合和多轮信息优化。
两阶段语义聚合(TSA):逐步将图像与其描述文本聚合,再与修改文本聚合,并结合循环组合损失(CCL)计算,增强语义一致性和模态对齐。
无参数多轮迭代优化(MIO):动态选择具有高语义多样性的代表性标记,有效压缩了历史数据表征的存储空间。
MAI包含四个主要模块:多模态语义聚合(BSA)、多轮迭代优化(MIO)、修改语义聚合(MSA)和循环组合损失(CCL)。其中,MIO模块利用基于聚类算法的token选择策略,实现长程依赖建模中的信息优化。
4. 实验结果
实验结果表明,MAI方法在FashionMT数据集上的召回指标平均提升了8%,优于现有方法。MAI能够有效处理细粒度需求和回溯性需求。
5. 总结
该研究通过构建新的数据集FashionMT和提出新的模型MAI,有效地解决了现有MTCIR方法的不足,为多轮交互式商品检索提供了新的解决方案。FashionMT数据集和MAI模型的开源,将促进该领域的研究和发展。
联系作者
文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台