SentenceTransformer：计算句子嵌入的模型

张开发

• 2026/5/29 5:14:22 • 15 分钟阅读

分享文章

原文towardsdatascience.com/sentencetransformer-a-model-for-computing-sentence-embedding-e8d31d9e6a8f在这篇帖子中我们探讨了 2019 年发布的 SentenceTransformer [1]它具有双编码器架构并将 BERT 调整为产生高效的句子嵌入。BERT双向编码器 Transformer 表示建立在所有 NLP 任务都依赖于标记/单词的意义这一理念之上。BERT 的训练分为两个阶段1预训练阶段BERT 学习语言的一般意义2微调阶段BERT 在特定任务上进行训练。…/Images/10a1663258e2756ef6557fc89574cadc.png图片来源于[3]BERT 在学习单词/标记的意义方面非常出色。但是它在学习句子意义方面并不擅长。因此它在某些任务上表现不佳例如句子分类和句子成对相似度。由于 BERT 产生标记嵌入从 BERT 获取句子嵌入的一种方法是对所有标记的嵌入进行平均。SentenceTransformer 论文[1]表明这种方法产生的句子嵌入质量非常低几乎与获取 GLOVE 嵌入一样差。这些嵌入没有捕捉到句子的意义。https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/7f280b5ee1dd7fb105fe819fc78f4636.png图片由作者提供为了从 BERT 创建有意义的句子嵌入SentenceTransformer 在少数与句子相关的任务上训练 BERT例如NLI自然语言推理这项任务接收两个输入句子并输出“蕴涵”、“矛盾”或“中性”。在“蕴涵”的情况下句子 1 蕴涵句子 2。在“矛盾”的情况下句子 1 与句子 2 矛盾。在第三种情况下即“中性”两个句子之间没有关系。STS句子文本相似度这项任务接收两个句子并决定它们的相似度。通常使用余弦相似度函数来计算相似度。三元组数据集在 NLI分类目标上训练 BERTSentenceTransformer 使用 Siamese 网络在 NLI 任务上训练 BERT。Siamese 意味着孪生它由两个结构完全相同且共享权重的网络组成。https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/28d1a6ae518364a6f57a5955184c552b.png图片由作者提供第一句句子 u 传递到第一个网络第二句句子 v 传递到第二个网络。每个 BERT 后的平均池化会平均每个标记嵌入得到一个 768 维的句子嵌入。我们可以称之为 emb(u)和 emb(v)。最后我们将以下三个向量连接起来emb(u)emb(v)emb(u)-emb(v)。这会得到一个 3*768 维的向量。然后我们通过一个密集层将其映射到 3 个神经元使用 softmax 激活。每个神经元对应于蕴涵、矛盾或中性。…/Images/c47dbe068482db18f4f12ffa3b8273a9.png图片来自 [1]为了训练这个网络我们使用交叉熵损失。在 STS (回归目标)上训练 BERT句子文本相似度任务接收两个句子并计算它们的相似度。在 STS 上微调 BERT 的网络架构如下。它仍然是一个对齐网络顶部有平均池化。https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/a009f7d631c3570dde5efef785dff4af.png作者图片在 u 和 v 通过 BERT 和平均池化层后我们得到emb(u)和emb(v)它们都是 768 维的。然后我们计算它们之间的余弦相似度这将是一个范围在(-1,1)之间的分数。为了训练这个网络我们最小化真实相似度和预测相似度之间的平方误差损失。在三元组数据集上训练 BERT (三元组目标)在三元组目标中模型接收一个锚点数据点一个与锚点相关或接近的正样本以及一个与锚点无关的负样本。在文本域中收集这些数据我们可以从文档中随机选择一个句子作为锚点选择其后的句子作为正样本并从不同的段落中随机选择一个句子作为负样本。现在的关键是训练网络使得锚点和正样本之间的距离即|a-p|仍然小于锚点和负样本之间的距离即|a-n|。我们经常设置一个间隔eps并说我们希望|a-p|小于|a-n| - eps。所以如果|a-p||a-m|-eps则loss0。换句话说如果|a-p|-|a-m|eps 0则loss0否则loss0。因此损失函数变为Loss: max (0, |a-p|-|a-m|eps)https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/3d228a27281e37907ceeed5e5f138ef9.png作者图片提醒一下上面解释的三元组损失是对比损失的一个更高级版本其中我们输入模型两个句子a和b它们要么相似要么不相似。对比损失定义为以下如果a和b相似则我们最小化|a-b|。如果它们不相似则我们最大化|a-b|。如果它们的距离大于一个阈值m即|a-b| m那么我们不再最大化它对我们来说足够不同。因此如果-|a-b| -m或换句话说m-|a-b| 0则我们的损失为零。因此损失函数变为y |a-b| (1-y) max(0, m-|a-b|)其中y1如果相似否则y0。在三元组损失上训练的网络通常比使用对比损失训练的相同网络收敛得更快。在推理时间无论我们使用什么方法对 BERT 进行句子理解任务的微调在训练模型后我们使用其中一个塔BERT pooling 层为训练语料库中的所有句子创建句子嵌入。我们将所有内容保存在索引结构中。然后在推理时间我们将查询句子通过相同的模型获取嵌入然后从索引数据结构中检索这个句子的 K 个最近邻。KNN 相似度的度量通常是余弦相似度。代码中的 SentenceTransformer让我们使用mrpcMicrosoft Paraphrasing Corpus[4]来训练一个句子转换器。这个数据集包含两个句子和一个标签表示两个句子是否具有相同的意义。要使用 SentenceTransformer我们首先安装库!pip install sentence_transformers然后我们构建模型。构建模型非常简单它包括三个步骤加载现有的语言模型在标记上构建一个 pooling 层使用模块参数将上述两个步骤连接起来并将其传递给 sentenceTransformer让我们将这个步骤转化为代码# Define model## Step 1: use an existing language modelword_embedding_modelmodels.Transformer(bert-base-uncased)## Step 2: use a pool function over the token embeddingspooling_modelmodels.Pooling(word_embedding_model.get_word_embedding_dimension(),pooling_modecls,pooling_mode_cls_tokenTrue,pooling_mode_mean_tokensFalse)## Join steps 1 and 2 using the modules argumentmodelSentenceTransformer(modules[word_embedding_model,pooling_model])在这段代码中我们使用 BERT 模型作为 transformer。然后我们使用 pooling 层中的 CLS 标记来获取嵌入。接下来让我们加载数据集。我们使用 MRPC 数据集该数据集位于CC-by-V4 许可这是一个常见的开源许可即 Creative CommonCC许可。fromdatasetsimportload_dataset datasetload_dataset(glue,mrpc)https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/d1e0b2727ec96bde05c45e53db3b1a89.png作者图片您可以看到数据集由三个分割组成每个分割包含两个句子和一个标签。我们构建训练数据作为一个InputExample的列表。每个InputExample将texts和label作为参数。# Format training datatrain_examples[]forexampleindataset[train]:train_examples.append(InputExample(texts[example[sentence1],example[sentence2]],labelfloat(example[label])))我们然后将这个 _trainexamples列表传递给一个数据加载器train_dataloaderDataLoader(train_examples,shuffleTrue,batch_size4)接下来我们选择训练损失train_losslosses.ContrastiveLoss(modelmodel)现在我们转向制作评估数据集# Format evaluation datasentences1[]sentences2[]scores[]forexampleindataset[validation]:sentences1.append(example[sentence1])sentences2.append(example[sentence2])scores.append(float(example[label]))我们使用binaryClassificationEvaluator进行评估。请参阅完整的评估列表这里。evaluatorevaluation.BinaryClassificationEvaluator(sentences1,sentences2,scores)我们然后通过调用 fit 函数来训练模型# Start trainingmodel.fit(train_objectives[(train_dataloader,train_loss)],evaluatorevaluator,evaluation_steps500,epochs1,warmup_steps0,output_path./sentence_transformer/,weight_decay0.01,optimizer_params{lr:0.00004},save_best_modelTrue,show_progress_barTrue,)现在您的模型已经训练好了您可以对任何特定的句子计算句子嵌入如下所示sentences[This is just a random sentence on a friday evenning,to test model ability.]#Sentences are encoded by calling model.encode()embeddingsmodel.encode(sentences)print(embeddings)如果您想计算模型在测试数据上的准确率可以执行以下操作fromsentence_transformersimportutil correct0forrowindataset[test].select(range(100)):umodel.encode(row[sentence1])vmodel.encode(row[sentence2])cos_scoreutil.cos_sim(u,v)[0].numpy()[0]ifcos_score0.5androw[label]1:correct1ifcos_score0.5androw[label]0:correct1print(correct/100)这将计算准确率即正确预测的总数除以测试数据点的数量。结论在这篇帖子中我们探讨了 sentenceTransformer 库和论文并了解了它是如何解决从 BERT 计算句子嵌入的问题。SentenceTransformer 通过在 Siamese 和 Triplet 架构中对三个与句子相关的数据集NLI、STS 和 triplet 数据集进行微调确保模型学习到有意义的句子嵌入。如果您有任何问题或建议请随时联系我邮箱[email protected] 领英www.linkedin.com/in/minaghashami/参考文献Sentence-BERT: 使用 Siamese BERT-Networks 的句子嵌入sbert 仓库BERT: 用于语言理解的深度双向变换器预训练huggingface.co/datasets/glue/viewer/mrpc交叉编码器 vs 双向编码器

SentenceTransformer：计算句子嵌入的模型

最新文章

NVIDIA DGX SuperPOD：AI超级工厂的算力革命

STC8H8K64U单片机内存布局保姆级图解：从code区到EEPROM，新手避坑指南

TVA技术在能源行业的应用综述

python jwt

保姆级教程：在粤嵌GEC6818上搞定GY-39传感器数据采集（附完整源码）

Android音频启动流程避坑指南：AudioPolicyService与AudioFlinger的交互核心loadHwModule与openOutput详解

推荐文章

相关文章

分享文章

更多文章

新手避坑指南：用Pandas高效合并CIC-IDS-2018的10个CSV文件（附内存优化技巧）

光电对抗：激光与激光雷达成像探测制导及电子对抗（3）

OpenClaw负载均衡：Qwen3-14B多实例轮询调用策略

嵌入式轻量级调试追踪组件dbg-trace设计与应用

【愚公系列】《剪映+DeepSeek+即梦：短视频制作》052-转场：短视频一气呵成的秘密（剧本分镜）

盘姬工具箱集成小工具：按键精灵、网络收音机等趣味功能

GEO监测是什么？2026年品牌主必须了解的AI可见度追踪工具

[具身智能-257]：监督式学习、无监督式学习、半监督式学习、强化学习的概念、差别、代码实现的原理

Go语言如何做国际化i18n_Go语言国际化多语言教程【秒懂】

智能体“记忆力”评估基准：如何量化记忆的准确性、相关性与时效性？

软件供应链安全新防线：Gitee CodePecker SCA如何重塑企业级SCA工具标准

3分钟体验OpenClaw：星图平台千问3.5-9B镜像快速入门