智源BGE向量模型三剑出鞘,多模态检索领域勇攀高峰!

2025-05-22 1 0

在科技的星辰大海中,检索增强技术如同一艘艘领航的巨轮,在代码及多模态场景的波涛中奋勇前行。而向量模型,则是这巨轮上不可或缺的核心引擎。为了在这片充满挑战与机遇的领域中开辟新的航道,智源研究院联合多所高校,以无畏的勇气和坚定的决心,成功研发出三款强大的向量模型——代码向量模型BGE - Code - v1、多模态向量模型BGE - VL - v1.5以及视觉化文档向量模型BGE - VL - Screenshot。

这三款模型犹如三把利刃,在代码及多模态检索的战场上披荆斩棘,取得了令人瞩目的最佳效果。它们以绝对的优势登顶CoIR、Code - RAG、MMEB、MVRB等领域内主要测试基准,向世界宣告了中国科技力量在这一领域的崛起。自2023年8月BGE首次亮相以来,它就像一颗耀眼的新星,成为中国首个登顶Hugging Face榜首的国产AI模型,更是2023年所有发布模型的全球下载量冠军,展现出了强大的实力和无限的潜力。

如今,BGE - Code - v1、BGE - VL - v1.5、BGE - VL - Screenshot三款模型已向社区全面开放,如同慷慨的巨人,为相关技术研究与产业应用伸出了有力的援手。它们就像三把钥匙,为科研人员和开发者打开了通往多模态检索增强系统更强大境界的大门。

BGE - Code - v1:新一代代码优化语义向量模型的先锋

  • 模型地址:https://huggingface.co/BAAI/bge - code - v1
  • 项目主页:https://github.com/FlagOpen/FlagEmbedding/tree/master/research/BGE_Coder
  • 论文链接:https://arxiv.org/abs/2505.12697

BGE - VL - v1.5:通用多模态检索模型的中流砥柱

  • 模型地址:https://huggingface.co/BAAI/BGE - VL - v1.5 - zs
  • 项目主页:https://github.com/FlagOpen/FlagEmbedding/tree/master/research/BGE_VL
  • 论文链接:https://arxiv.org/abs/2412.14475

BGE - VL - Screenshot:实用强大的视觉化文档向量模型的开拓者

  • 模型地址:https://huggingface.co/BAAI/BGE - VL - Screenshot
  • 项目主页:https://github.com/FlagOpen/FlagEmbedding/tree/master/research/BGE_VL_Screenshot
  • 论文链接:https://arxiv.org/abs/2502.11431

由智源研究院主导研发的通用向量模型系列BGE,宛如一座科技的灯塔,旨在为各类数据提供高效一站式向量表征与语义检索方案。它不断推陈出新,已推出覆盖中英文、多语言检索及重排模型等多个版本,持续刷新MTEB、C - MTEB、BEIR、MIRACL等主流文本向量评测基准。BGE凭借其卓越的高性能与开放共享的特性,备受业界关注,已广泛应用于RAG、神经搜索等场景,累计下载超6亿次,被国内外多家AI企业集成,成为了行业发展的重要推动力。

目前,检索增强技术正从传统的文本场景向着代码与视觉等多模态数据的应用领域大步迈进。然而,前行的道路并非一帆风顺,相较于文本领域,现有向量模型在代码和视觉模态中的检索效果仍有待提升。但智源研究院没有丝毫退缩,此次发布的三款新模型,就是他们面对挑战时的有力回应,为构建更强大的多模态检索增强系统注入了强大的动力。

BGE - Code - v1

新一代代码优化语义向量模型

随着基础模型代码能力的飞速发展,Cursor、Copilot等辅助编程工具如雨后春笋般涌现,大幅提升了生产力。但当面对百万行级代码库时,代码块检索增强的需求就像一座大山,横亘在开发者面前。而代码理解能力,就成为了攀登这座大山的关键绳索。

BGE - Code - v1是以Qwen2.5 - Coder - 1.5B为基座打造的新一代代码向量模型,它就像一位身怀绝技的勇士,专为各类代码检索相关任务而精心磨砺。同时,它还配备了强大的多语言文本理解能力,仿佛拥有了一双能读懂世界各种语言的慧眼。该模型基于CoIR训练集和大量高质量代码 - 文本的合成数据进行训练,并采用课程学习,以BGE - gemma2 - multilingual的retrieval、STS数据为辅助,进一步提升了代码与文本的理解能力。BGE - Code - v1适用于开发文档搜索、代码库语义检索、跨语言信息获取等多种实际应用场景,无疑是面向代码 - 文本检索任务的最优选择。

CoIR代码检索基准,就像一个严格的考官,收集了覆盖14种编程语言的4大类8个子任务,能够有效地评估模型在自然语言和代码的各类混合场景中的检索能力。CodeRAG - Bench基准则像一面镜子,清晰地反映出代码检索模型在代码检索增强(RACG)中的表现。而BGE - Code - v1在这两个基准上均以显著优势超越谷歌、Voyage AI、Salesforce、Jina等商业/开源模型,成功登顶SOTA,成为了代码检索领域的王者。

BGE - VL - v1.5

通用多模态检索模型

BGE - VL - v1.5是基于LLaVA - 1.6(7.57B参数)训练的新一代通用多模态检索模型,它就像一只振翅高飞的雄鹰,全面升级了图文理解能力并具有更强大的检索能力。BGE - VL - v1.5在MagePairs 300万(3M)图文对齐数据基础上又收集了共100万条自然与合成数据(涵盖image - captioning数据、视觉问答数据、分类任务数据)进行多任务训练,显著地提升了模型在各类任务上的泛化性与理解能力。

基于MegaPairs数据,BGE - VL - v1.5在多模态检索任务中就像一把精准的利剑,性能优势显著。它不仅在图像检索中表现强劲,更在通用多模态场景中展现出了高适应性与准确率,适用于图文匹配、多模态问答、跨模态推荐等场景。

MMEB是当前使用最广泛的多模态向量基准,由分类、视觉问答、检索、视觉基础知识四类任务构成。基于zero - shot设置(未使用MMEB训练集),BGE - VL - v1.5 - zs在MMEB基准中刷新了zero - shot模型的最佳表现;在检索任务上,基于MMEB微调的BGE - VL - v1.5 - MMEB以72.16分登顶SOTA,成为了多模态检索领域的璀璨明星。

BGE - VL - Screenshot

实用强大的视觉化文档向量模型

实际场景中网页、文档等多模态任务常由图文、符号、图表等多元素混合数据构成,这类任务被称为 “可视化信息检索”(Vis - IR)。这就像是一场复杂的拼图游戏,多模态模型不仅需要具备从复杂结构中提取关键信息的视觉能力,还需精准理解文本与视觉语义。然而,目前现有检索模型在这场游戏中表现欠佳。

BGE - VL - Screenshot模型基于Qwen2.5 - VL - 3B - Instruct ,以新闻、商品、论文、文档、项目主页等七类数据源进行训练,收集超过1300万张截图和700万组标注截图问答样本。它就像一位经验丰富的探险家,在海量的数据中挖掘宝藏。

为了准确评估模型在Vis - IR任务上的表现,团队设计并推出了多模态检索基准MVRB(Massive Visualized IR Benchmark,榜单链接:https://huggingface.co/spaces/BAAI/MVRB_leaderboard),涵盖截图检索、复合截图检索、截图QA和开放分类4项任务共20个数据集。这就像是一场激烈的比赛,而BGE - VL - Screenshot在这场比赛中表现出色,以60.61的综合得分达到SOTA。在此基础上,通过少量query2screenshot多语言数据训练,模型实现了在英文之外的多语言任务上的出色表现,成为了多语言多模态检索领域的佼佼者。

智源研究院将继续怀揣着对科技的热爱和对未来的憧憬,深耕向量模型与检索增强技术,进一步提升BGE模型系列的能力与通用性。未来,他们期待与更多科研机构与产业伙伴携手共进,共同推动检索与人工智能的发展。就像一群勇敢的开拓者,在科技的荒原上不断探索,开辟出一条通往美好未来的康庄大道。我们也热烈欢迎广大研究者与开发者关注并使用BGE系列模型,共同构建一个开放繁荣的开源生态,让科技的光芒照亮每一个角落。

相关文章

电商“包邮区”西进:开启西部消费新时代,共筑国内消费大循环
28亿美元鲸吞喜马拉雅,腾讯音乐的战略棋局
氪星晚报:商业合作与产业发展新动态
京东领衔,中国快递物流在中东大放异彩
宝尊电商引领GAP强势崛起,重塑辉煌指日可待
惊爆!百度AI搜索全面上线,重塑企业信息检索新格局

发布评论