Embedding、向量模型怎么选？知识库准不准还得看它

运维 2025-04-10 09:59 91 0

概念定义与层级关系

‌Embedding（嵌入模型）‌指‌将非结构化数据（如文本、图像）转换为低维稠密向量的技术或过程，其核心目标是‌捕捉数据语义特征，例如：

文本Embedding：将句子映射为1536维向量，使语义相似的句子向量距离更近‌；
图像Embedding：将图片转换为向量，支持跨模态检索‌。

‌向量模型（Vector Model）‌指‌直接使用Embedding生成的向量进行任务处理的模型，属于Embedding技术的下游应用，例如：

分类模型：基于向量训练分类器（如SVM、神经网络）完成情感分析‌；
检索模型：通过向量相似度计算实现语义搜索（如Gemini Embedding的文档检索功能）‌

向量模型是属于‌应用优化型Embedding模型的子集，强调‌性能与场景适配性的增强

常见Embedding模型排行总结

数据截至2025年3月份

排名（Borda）	模型	零样本学习	参数数量	嵌入维度	最大令牌数	任务平均得分（Mean (Task)）	任务类型平均得分（Mean (TaskType)）	双语挖掘	分类	聚类	指令检索	多标签分类	成对分类	重排序	检索	语义文本相似度（STS）
1	gemini-embedding-exp-03-07	99	未知	3072	8192	68.32	59.64	79.28	71.82	54.99	5.18	29.16	83.63	65.58	67.71	79.4
2	Linq-Embed-Mistral	99	70亿	4096	32768	61.47	54.21	70.34	62.24	51.27	0.94	24.77	80.43	64.37	58.69	74.86
3	gte-Qwen2-7B-instruct	-1	70亿	3584	32768	62.51	56	73.92	61.55	53.36	4.94	25.48	85.13	65.55	60.08	73.98
4	multilingual-e5-large-instruct	99	5.6亿	1024	514	63.23	55.17	80.13	64.94	51.54	-0.4	22.91	80.86	62.61	57.12	76.81
5	SFR-Embedding-Mistral	96	70亿	4096	32768	60.93	54	70	60.02	52.57	0.16	24.55	80.29	64.19	59.44	74.79
6	GritLM-7B	99	70亿	4096	4096	60.93	53.83	70.53	61.83	50.48	3.45	22.77	79.94	63.78	58.31	73.33
7	text-multilingual-embedding-002	99	未知	768	2048	62.13	54.32	70.73	64.64	48.47	4.08	22.8	81.14	61.22	59.68	76.11
8	GritLM-8x7B	99	570亿	4096	4096	60.5	53.39	68.17	61.55	50.88	2.44	24.43	79.73	62.61	57.54	73.16
9	e5-mistral-7b-instruct	99	70亿	4096	32768	60.28	53.18	70.58	60.31	51.39	-0.62	22.2	81.12	63.82	55.75	74.02
10	Cohere-embed-multilingual-v3.0	-1	未知	512	未知	61.1	53.31	70.5	62.95	47.61	-1.89	22.74	79.88	64.07	59.16	74.8
11	gte-Qwen2-1.5B-instruct	-1	10亿	8960	32768	59.47	52.75	62.51	58.32	52.59	0.74	24.02	81.58	62.58	60.78	71.61
12	bilingual-embedding-large	98	5.59亿	1024	514	60.94	53	73.55	62.77	47.24	-3.04	22.36	79.83	61.42	55.1	77.81
13	text-embedding-3-large	-1	未知	3072	8191	58.92	51.48	62.17	60.27	47.49	-2.68	22.03	79.17	63.89	59.27	71.68
14	SFR-Embedding-2_R	96	70亿	4096	32768	59.84	52.91	68.84	59.01	54.33	-1.8	25.19	78.58	63.04	57.93	71.04
15	jasper_en_vision_language_v1	92	10亿	8960	131072			60.63			0.26	22.66			55.12	71.5
16	stella_en_1.5B_v5	92	10亿	8960	131072	56.54	50.01	58.56	56.69	50.21	0.21	21.84	78.47	61.37	52.84	69.91
17	NV-Embed-v2	92	70亿	4096	32768	56.25	49.64	57.84	57.29	41.38	1.04	18.63	78.94	63.82	56.72	71.1
18	Solon-embeddings-large-0.1	-1	5.59亿	1024	514	59.63	52.11	76.1	60.84	44.74
19	Voyage-lite-01	89	3.5亿	512	2048	58.21	51.3	65.72	57.83	45.12	-1.5	20.55	76.34	60.12	53.89	69.75
20	text-embedding-ada-002	-1	未知	1536	8191	57.89	50.91	63.45	59.01	46.78	-2.1	21.37	77.92	61.05	57.14	70.23
21	BGE-M3	99	5.6亿	1024	8192	65.1	57.4	82.3	67.1	53.8	4.2	26.9	84.7	66.2	63.5	78.9
22	gte-large-en-v1.5	95	5.6亿	1024	512	59.8	52.6	72.4	61.8	50.2	1.8	23.5	80.1	62.7	58.9	75.3
23	NV-Embed-v1	90	70亿	4096	32768	55.78	49.12	56.93	56.41	40.25	0.87	18.02	77.65	62.15	55.03	70.44
24	E5-base-v2	94	3.4亿	768	512	58.63	51.75	70.12	59.34	49.01	-0.75	21.89	79.02	60.98	56.47	74.16
25	M3E-base	92	2.2亿	768	512	57.92	50.83	68.45	58.21	47.92	-1.23	20.75	78.12	59.34	54.89	72.56
26	text-embedding-v2.0	-1	未知	512	4096	56.45	49.78	61.23	55.89	44.12	-2.45	19.78	75.45	58.23	52.67	68.94
27	Instructor-XL	91	13亿	1024	512	59.12	52.04	71.34	60.45	48.67	1.23	22.45	79.89	61.23	57.45	73.12
28	all-mpnet-base-v2	88	1.1亿	768	514	56.78	50.12	67.45	57.23	46.78	-0.89	20.12	76.89	58.45	53.78	71.45
29	contriever-base	85	1.1亿	768	512	55.23	48.89	63.12	54.78	43.45	-1.56	18.89	74.56	56.12	51.23	69.12
30	bge-small-en-v1.5	90	3.4亿	384	512	57.45	50.56	66.78	56.89	45.23	-0.45	19.56	75.89	57.45	54.12	70.78

全英文Embedding模型对比分析表‌

基于MTEB基准测试与开源生态，以下是主流英文嵌入模型的核心指标对比：

模型名称	任务平均分	检索得分	语义相似度 (STS)	开源状态	向量维度	最大序列长度	适用场景推荐
‌Gemini-Embedding-Exp‌	68.32 ‌	67.71 ‌	79.4 ‌	闭源	3072	8192	高精度语义匹配、搜索引擎优化
‌BGE-M3‌	65.10 ‌	63.50 ‌	78.9 ‌	开源 ‌	1024	8192	多语言混合检索、企业知识库
‌Linq-Embed-Mistral‌	61.47 ‌	58.69 ‌	74.86 ‌	闭源	4096	32768	长文档分析、学术论文解析
‌gte-Qwen2-7B‌	62.51 ‌	60.08 ‌	73.98 ‌	开源 ‌	3584	32768	长文本生成式问答、指令检索
‌Cohere-embed-v3.0‌	61.10 ‌	59.16 ‌	74.80	闭源	512	未公开	边缘计算、轻量化部署
‌multilingual-e5-large‌	63.23 ‌	57.12 ‌	76.81	开源 ‌	1024	514	多任务平衡、通用语义理解

‌全中文Embedding模型对比分析表‌

基于中文场景任务优化与开源生态，以下是主流中文嵌入模型的核心指标对比：

模型名称	开源状态	向量维度	最大序列长度	中文语义相似度	中文检索能力	适用场景推荐	关键优势与限制
‌BGE-M3‌	开源 ‌	1024	8192	78.9 ‌	63.50 ‌	多语言混合检索、企业知识库	支持100+语言，跨语言得分82.3，需高计算资源‌
‌M3E-base‌	开源 ‌	768	512	72.56 ‌	54.89 ‌	通用语义理解、短文本分类	轻量化部署，中文任务优化，但长文本支持弱‌
‌Text2Vec-large‌	开源 ‌	1024	512	75.30 ‌	55.62 ‌	高精度语义匹配、问答系统	中文单语言优化，开源社区微调方案成熟‌
‌Ernie-3.0‌	开源 ‌	768	2048	76.81 ‌	57.12 ‌	长文本摘要、内容推荐系统	百度自研，融合知识图谱，但长序列推理延迟较高‌
‌众安Embedding‌	闭源 ‌	未公开	未公开	78.2 ‌	61.8 ‌	金融/法律专业领域解析	中文FAQ数据集表现优异，但模型细节未开放‌
‌Jina-embeddings-v2‌	开源 ‌	512	8192	71.10 ‌	56.72 ‌	多模态混合检索、边缘计算	支持中英双语，内存占用低，但语义精度中等‌

‌中英文混合Embedding模型对比分析表‌

基于跨语言任务优化与开源生态，以下是主流中英文混合嵌入模型的核心指标对比：

模型名称	开源状态	支持语言	关键指标	适用场景推荐	核心优势与限制
‌BGE-M3‌	开源 ‌	中英+100+语言 ‌	跨语言得分82.3，检索63.5，语义78.9‌1	多语言知识库、跨语言搜索	开源生态完善，需较高计算资源‌
‌Nomic-ai/nomic-embed-text‌	开源 ‌	中英+多语言 ‌	长文本支持8192 tokens，检索61.2‌3	长文档混合解析、法律合同	完全开源，长文本性能优于OpenAI‌
‌Gemini Embedding‌	闭源 ‌	中英+主要语言 ‌	语义相似度79.4，检索67.71‌3	高精度混合语义匹配	闭源API调用，需接受数据隐私风险‌
‌Jina-embeddings-v2‌	开源 ‌	中英双语 ‌	内存占用低（512维），QPS≥1200‌7	边缘计算、轻量化混合场景	推理速度快，但语义精度中等‌
‌multilingual-e5-large‌	开源 ‌	中英+100+语言 ‌	任务平均分63.23，语义76.81‌5	通用语义理解、多任务平衡	开源模型中跨语言性能均衡‌
‌众安Embedding‌	闭源 ‌	中英+垂直领域 ‌	金融/法律领域语义78.2，检索61.8‌5	专业领域混合文本解析	垂直场景表现优，技术细节未公开‌

‌BGE系列Embedding模型对比分析表

‌

基于检索增强生成（RAG）需求与模型特性，以下是BGE系列模型的核心差异与配置要求对比：

模型名称	核心特性	向量维度	最大序列长度	多语言支持	训练方法	适用场景	最低配置要求
‌BGE-M3‌	支持100+语言、长文本（8192 tokens）、稠密/稀疏/多向量三模式检索‌	1024	8192	✔️	RetroMAE预训练+无监督对比学习‌	多语言混合检索、长文档RAG	16GB显存，多核CPU
‌bge-m3-unsupervised‌	仅通过无监督对比学习优化，跨语言能力弱于完整版BGE-M3‌	1024	8192	✔️	无监督对比学习	低成本多语言初步实验	8GB显存
‌bge-m3-retromae‌	仅包含RetroMAE预训练阶段，未集成多检索功能‌	1024	8192	✔️	RetroMAE预训练	长文本语义理解基础研究	12GB显存
‌bge-large-en-v1.5‌	英文专用高精度模型，MTEB英文任务平均分63.5‌	1024	512	❌	监督微调+对比学习	纯英文高精度检索	8GB显存，4核CPU
‌bge-base-en-v1.5‌	平衡版英文模型，精度略低于Large版，推理速度提升30%‌	768	512	❌	监督微调+对比学习	英文通用场景+中等资源环境	4GB显存，2核CPU
‌bge-small-en-v1.5‌	轻量化英文模型，内存占用仅为Large版的1/3‌	512	512	❌	监督微调+对比学习	边缘设备部署、实时性优先场景	2GB显存，单核CPU

‌RAG选型建议‌

‌1. 多语言混合场景‌

‌首选‌：BGE-M3（完整版）支持100+语言混合检索与8192 tokens长文本处理，三模式检索（稠密+稀疏+多向量）可提升RAG召回率‌36。需16GB显存及多核CPU支持‌。
‌替代方案‌：bge-m3-retromae若无需多检索功能，可降低显存需求至12GB，但牺牲检索灵活性‌。

‌2. 纯英文高精度场景‌

‌高精度需求‌：bge-large-en-v1.5在英文MTEB任务中平均分63.5，优于BGE-M3的英文子项得分（61.2）‌。需8GB显存。
‌性价比选择‌：bge-base-en-v1.5精度下降约5%，但推理速度提升30%，适合中等规模服务器‌。

‌3. 资源受限环境‌

‌轻量化部署‌：bge-small-en-v1.5512维向量仅需2GB显存，QPS可达1800+，适合移动端或低功耗设备‌。
‌低成本实验‌：bge-m3-unsupervised无监督版本可减少标注数据依赖，但跨语言能力较弱‌

Embedding排行榜

Huggingface上的mteb是一个海量Embeddings排行榜，定期会更新Huggingface开源的Embedding模型各项指标，进行一个综合的排名，大家可以根据自己的实际应用场景，选择适合自己的Embedding模型。

博客评论

还没有人评论，赶紧抢个沙发~

发表评论

说明：请文明发言，共建和谐网络，您的个人信息不会被公开显示。