智源研究院联合多所高校开发了多模态向量模型 BGE-VL,该模型在图文检索、组合图像检索等多模态检索任务中取得最佳效果。BGE-VL 借助大规模合成数据 MegaPairs 训练而成,具有优异的可扩展性和卓越的数据质量。MegaPairs 通过挖掘多模态三元组数据,以低成本生成多样化且高质量的数据,本次发布的版本涵盖 2600 万条样本。BGE-VL 的技术报告已发布,相关数据、模型及代码资源将向社区开放。研究背景指出,信息检索需满足用户多样化需求,多模态检索器需综合理解图像和文本指令,从多模态信息中检索相关内容。MegaPairs 构造分为挖掘多样图像对和合成开放域检索指令两个关键步骤。基于 MegaPairs 数据,智源训练出 3 款不同尺寸的多模态检索模型,显著提升主流多模态检索基准性能。未来,智源将继续探索 MegaPairs 与更多多模态检索场景结合,打造更全能通用的检索器。