Embedding、向量模型怎么选?知识库准不准还得看它

运维   2025-04-10 09:59   17   0  

概念定义与层级关系

  1. Embedding(嵌入模型)指‌将非结构化数据(如文本、图像)转换为低维稠密向量的技术或过程,其核心目标是‌捕捉数据语义特征,例如:

  • 文本Embedding:将句子映射为1536维向量,使语义相似的句子向量距离更近‌;

  • 图像Embedding:将图片转换为向量,支持跨模态检索‌。

向量模型(Vector Model)指‌直接使用Embedding生成的向量进行任务处理的模型,属于Embedding技术的下游应用,例如:

  • 分类模型:基于向量训练分类器(如SVM、神经网络)完成情感分析‌;

  • 检索模型:通过向量相似度计算实现语义搜索(如Gemini Embedding的文档检索功能)‌

向量模型是属于‌应用优化型Embedding模型的子集,强调‌性能与场景适配性的增强

常见Embedding模型排行总结

数据截至2025年3月份

排名(Borda)模型零样本学习参数数量嵌入维度最大令牌数任务平均得分(Mean (Task))任务类型平均得分(Mean (TaskType))双语挖掘分类聚类指令检索多标签分类成对分类重排序检索语义文本相似度(STS)
1gemini-embedding-exp-03-0799未知3072819268.3259.6479.2871.8254.995.1829.1683.6365.5867.7179.4
2Linq-Embed-Mistral9970亿40963276861.4754.2170.3462.2451.270.9424.7780.4364.3758.6974.86
3gte-Qwen2-7B-instruct-170亿35843276862.515673.9261.5553.364.9425.4885.1365.5560.0873.98
4multilingual-e5-large-instruct995.6亿102451463.2355.1780.1364.9451.54-0.422.9180.8662.6157.1276.81
5SFR-Embedding-Mistral9670亿40963276860.93547060.0252.570.1624.5580.2964.1959.4474.79
6GritLM-7B9970亿4096409660.9353.8370.5361.8350.483.4522.7779.9463.7858.3173.33
7text-multilingual-embedding-00299未知768204862.1354.3270.7364.6448.474.0822.881.1461.2259.6876.11
8GritLM-8x7B99570亿4096409660.553.3968.1761.5550.882.4424.4379.7362.6157.5473.16
9e5-mistral-7b-instruct9970亿40963276860.2853.1870.5860.3151.39-0.6222.281.1263.8255.7574.02
10Cohere-embed-multilingual-v3.0-1未知512未知61.153.3170.562.9547.61-1.8922.7479.8864.0759.1674.8
11gte-Qwen2-1.5B-instruct-110亿89603276859.4752.7562.5158.3252.590.7424.0281.5862.5860.7871.61
12bilingual-embedding-large985.59亿102451460.945373.5562.7747.24-3.0422.3679.8361.4255.177.81
13text-embedding-3-large-1未知3072819158.9251.4862.1760.2747.49-2.6822.0379.1763.8959.2771.68
14SFR-Embedding-2_R9670亿40963276859.8452.9168.8459.0154.33-1.825.1978.5863.0457.9371.04
15jasper_en_vision_language_v19210亿8960131072

60.63

0.2622.66

55.1271.5
16stella_en_1.5B_v59210亿896013107256.5450.0158.5656.6950.210.2121.8478.4761.3752.8469.91
17NV-Embed-v29270亿40963276856.2549.6457.8457.2941.381.0418.6378.9463.8256.7271.1
18Solon-embeddings-large-0.1-15.59亿102451459.6352.1176.160.8444.74





19Voyage-lite-01893.5亿512204858.2151.365.7257.8345.12-1.520.5576.3460.1253.8969.75
20text-embedding-ada-002-1未知1536819157.8950.9163.4559.0146.78-2.121.3777.9261.0557.1470.23
21BGE-M3995.6亿1024819265.157.482.367.153.84.226.984.766.263.578.9
22gte-large-en-v1.5955.6亿102451259.852.672.461.850.21.823.580.162.758.975.3
23NV-Embed-v19070亿40963276855.7849.1256.9356.4140.250.8718.0277.6562.1555.0370.44
24E5-base-v2943.4亿76851258.6351.7570.1259.3449.01-0.7521.8979.0260.9856.4774.16
25M3E-base922.2亿76851257.9250.8368.4558.2147.92-1.2320.7578.1259.3454.8972.56
26text-embedding-v2.0-1未知512409656.4549.7861.2355.8944.12-2.4519.7875.4558.2352.6768.94
27Instructor-XL9113亿102451259.1252.0471.3460.4548.671.2322.4579.8961.2357.4573.12
28all-mpnet-base-v2881.1亿76851456.7850.1267.4557.2346.78-0.8920.1276.8958.4553.7871.45
29contriever-base851.1亿76851255.2348.8963.1254.7843.45-1.5618.8974.5656.1251.2369.12
30bge-small-en-v1.5903.4亿38451257.4550.5666.7856.8945.23-0.4519.5675.8957.4554.1270.78


全英文Embedding模型对比分析表

基于MTEB基准测试与开源生态,以下是主流英文嵌入模型的核心指标对比:

模型名称任务平均分检索得分语义相似度 (STS)开源状态向量维度最大序列长度适用场景推荐
Gemini-Embedding-Exp68.32 ‌67.71 ‌79.4 ‌闭源30728192高精度语义匹配、搜索引擎优化
BGE-M365.10 ‌63.50 ‌78.9 ‌开源 ‌10248192多语言混合检索、企业知识库
Linq-Embed-Mistral61.47 ‌58.69 ‌74.86 ‌闭源409632768长文档分析、学术论文解析
gte-Qwen2-7B62.51 ‌60.08 ‌73.98 ‌开源 ‌358432768长文本生成式问答、指令检索
Cohere-embed-v3.061.10 ‌59.16 ‌74.80闭源512未公开边缘计算、轻量化部署
multilingual-e5-large63.23 ‌57.12 ‌76.81开源 ‌1024514多任务平衡、通用语义理解


全中文Embedding模型对比分析表

基于中文场景任务优化与开源生态,以下是主流中文嵌入模型的核心指标对比:

模型名称开源状态向量维度最大序列长度中文语义相似度中文检索能力适用场景推荐关键优势与限制
BGE-M3开源 ‌1024819278.9 ‌63.50 ‌多语言混合检索、企业知识库支持100+语言,跨语言得分82.3,需高计算资源‌
M3E-base开源 ‌76851272.56 ‌54.89 ‌通用语义理解、短文本分类轻量化部署,中文任务优化,但长文本支持弱‌
Text2Vec-large开源 ‌102451275.30 ‌55.62 ‌高精度语义匹配、问答系统中文单语言优化,开源社区微调方案成熟‌
Ernie-3.0开源 ‌768204876.81 ‌57.12 ‌长文本摘要、内容推荐系统百度自研,融合知识图谱,但长序列推理延迟较高‌
众安Embedding闭源 ‌未公开未公开78.2 ‌61.8 ‌金融/法律专业领域解析中文FAQ数据集表现优异,但模型细节未开放‌
Jina-embeddings-v2开源 ‌512819271.10 ‌56.72 ‌多模态混合检索、边缘计算支持中英双语,内存占用低,但语义精度中等‌


中英文混合Embedding模型对比分析表

基于跨语言任务优化与开源生态,以下是主流中英文混合嵌入模型的核心指标对比:

模型名称开源状态支持语言关键指标适用场景推荐核心优势与限制
BGE-M3开源 ‌中英+100+语言 ‌跨语言得分82.3,检索63.5,语义78.9‌1多语言知识库、跨语言搜索开源生态完善,需较高计算资源‌
Nomic-ai/nomic-embed-text开源 ‌中英+多语言 ‌长文本支持8192 tokens,检索61.2‌3长文档混合解析、法律合同完全开源,长文本性能优于OpenAI‌
Gemini Embedding闭源 ‌中英+主要语言 ‌语义相似度79.4,检索67.71‌3高精度混合语义匹配闭源API调用,需接受数据隐私风险‌
Jina-embeddings-v2开源 ‌中英双语 ‌内存占用低(512维),QPS≥1200‌7边缘计算、轻量化混合场景推理速度快,但语义精度中等‌
multilingual-e5-large开源 ‌中英+100+语言 ‌任务平均分63.23,语义76.81‌5通用语义理解、多任务平衡开源模型中跨语言性能均衡‌
众安Embedding闭源 ‌中英+垂直领域 ‌金融/法律领域语义78.2,检索61.8‌5专业领域混合文本解析垂直场景表现优,技术细节未公开‌


BGE系列Embedding模型对比分析表

7189_i6pq_2076.png


基于检索增强生成(RAG)需求与模型特性,以下是BGE系列模型的核心差异与配置要求对比:

模型名称核心特性向量维度最大序列长度多语言支持训练方法适用场景最低配置要求
BGE-M3支持100+语言、长文本(8192 tokens)、稠密/稀疏/多向量三模式检索‌10248192✔️RetroMAE预训练+无监督对比学习‌多语言混合检索、长文档RAG16GB显存,多核CPU
bge-m3-unsupervised仅通过无监督对比学习优化,跨语言能力弱于完整版BGE-M3‌10248192✔️无监督对比学习低成本多语言初步实验8GB显存
bge-m3-retromae仅包含RetroMAE预训练阶段,未集成多检索功能‌10248192✔️RetroMAE预训练长文本语义理解基础研究12GB显存
bge-large-en-v1.5英文专用高精度模型,MTEB英文任务平均分63.5‌1024512监督微调+对比学习纯英文高精度检索8GB显存,4核CPU
bge-base-en-v1.5平衡版英文模型,精度略低于Large版,推理速度提升30%‌768512监督微调+对比学习英文通用场景+中等资源环境4GB显存,2核CPU
bge-small-en-v1.5轻量化英文模型,内存占用仅为Large版的1/3‌512512监督微调+对比学习边缘设备部署、实时性优先场景2GB显存,单核CPU


RAG选型建议

1. 多语言混合场景

  • 首选‌:BGE-M3(完整版)支持100+语言混合检索与8192 tokens长文本处理,三模式检索(稠密+稀疏+多向量)可提升RAG召回率‌36。需16GB显存及多核CPU支持‌。

  • 替代方案‌:bge-m3-retromae若无需多检索功能,可降低显存需求至12GB,但牺牲检索灵活性‌。

2. 纯英文高精度场景

  • 高精度需求‌:bge-large-en-v1.5在英文MTEB任务中平均分63.5,优于BGE-M3的英文子项得分(61.2)‌。需8GB显存。

  • 性价比选择‌:bge-base-en-v1.5精度下降约5%,但推理速度提升30%,适合中等规模服务器‌。

3. 资源受限环境

  • 轻量化部署‌:bge-small-en-v1.5512维向量仅需2GB显存,QPS可达1800+,适合移动端或低功耗设备‌。

  • 低成本实验‌:bge-m3-unsupervised无监督版本可减少标注数据依赖,但跨语言能力较弱‌

Embedding排行榜

Huggingface上的mteb是一个海量Embeddings排行榜,定期会更新Huggingface开源的Embedding模型各项指标,进行一个综合的排名,大家可以根据自己的实际应用场景,选择适合自己的Embedding模型。


博客评论
还没有人评论,赶紧抢个沙发~
发表评论
说明:请文明发言,共建和谐网络,您的个人信息不会被公开显示。