KART-RERANK在互联网广告场景的应用:广告创意与搜索词的相关性优化

张开发
2026/6/5 8:44:42 15 分钟阅读
KART-RERANK在互联网广告场景的应用:广告创意与搜索词的相关性优化
KART-RERANK在互联网广告场景的应用广告创意与搜索词的相关性优化你有没有想过为什么有时候你搜索一个东西看到的广告却完全不对路比如你想买一双“跑步鞋”结果弹出来的广告是“皮鞋”或者“篮球鞋”。这背后其实是广告平台在判断“广告创意”和“你的搜索词”是否匹配时出了点小偏差。对于广告平台来说这个匹配度也就是相关性是命根子。相关性高用户觉得广告有用点击的可能性就大广告主花钱花得值平台也能赚到钱。相关性低用户觉得烦广告主白花钱平台的口碑和收入都会受影响。今天我们就来聊聊一个能帮广告平台把这道“匹配题”做得更好的技术——KART-RERANK。它不是个新模型而是一种巧妙的“重排序”思路。简单说就是先用一个又快又糙的模型比如BM25从海量广告里快速捞出一批候选再用一个又准又精的模型比如大型文本嵌入模型对这批候选进行精细打分和重新排序兼顾了速度和精度。我们来看看怎么把这个技术实实在在地用在互联网广告的战场上去优化广告创意和搜索词之间的相关性最终让广告投得更准平台赚得更多。1. 广告相关性优化的核心痛点与机遇在互联网广告尤其是搜索广告和信息流广告中每一次广告展示都是一次“意图匹配”的考试。用户输入搜索词表达了他的即时需求广告主准备的标题、图片和描述则是他们的“答案”。平台的任务就是快速、准确地把最相关的“答案”推到用户面前。传统的做法往往依赖于关键词匹配、出价排名等规则。这些方法快是快但“糙”也是真的糙。比如关键词匹配的局限“跑步鞋”和“运动鞋”语义高度相关但字面上不匹配可能就被漏掉了。创意理解的缺失一条广告创意说“透气网面轻量回弹”传统方法很难理解这描述的就是“跑步鞋”的核心特性。动态意图的挑战用户的搜索词可能很短很模糊比如“鞋子”背后却隐藏着丰富的、个性化的需求。这些痛点直接导致了广告投放的“失准”——该看到的广告没看到不该看到的满天飞。结果就是广告点击率CTR上不去广告主的投资回报率ROI下降平台的广告收入增长也遇到瓶颈。而KART-RERANK的思路恰好为破解这个难题提供了一个优雅的工程化方案。它不追求一次性用大模型处理所有广告那样成本太高、速度太慢而是采用“粗筛精排”的两阶段流水线。第一阶段用轻量级方法快速过滤出几百个可能相关的广告第二阶段才是重头戏用强大的语义理解模型对这几百个候选进行深度“面试”从语义层面精确评估它们与搜索词的相关性并给出最终排名。这个“精排”的分数可以作为一个极其有价值的特征注入到现有的广告排序系统中。原来的排序模型可能主要看点击率预估、出价高低现在加上了“语义相关性”这个强信号就像给排序系统装上了“理解用户意图”的慧眼让最终的广告展示列表更加精准、更有价值。2. KART-RERANK在广告场景的落地架构要把KART-RERANK用起来不能只停留在想法上得有一套能扛住高并发、低延迟的工程架构。下面这个方案就是一个比较典型的、可落地的设计。整个流程从用户的一次搜索开始到广告的最终展示结束可以分为几个核心环节2.1 实时数据流与特征准备当用户输入一个搜索词Query时系统需要立刻行动起来。首先这个搜索词会被送到一个“广告候选检索”模块。这个模块通常基于倒排索引和传统的文本匹配技术如BM25、TF-IDF在毫秒级别内从数以百万计的广告库中快速召回几百条最“字面”相关的广告创意Ad Creative。这些创意包含了标题、描述文本有时还包括图片的OCR识别文字或标签。与此同时我们需要为接下来的精排阶段准备“弹药”。这里的关键是将搜索词和每一个候选广告创意转化为机器能理解的、富含语义信息的向量Embedding。通常我们会使用一个预训练好的大型文本嵌入模型例如BGE、E5等系列模型。为了提高效率并保证一致性广告创意的向量可以离线计算并存储。因为广告创意相对稳定不会每秒都变。我们可以定期比如每天用嵌入模型将所有广告创意处理成向量存入像Milvus、Qdrant这样的向量数据库中。而用户的搜索词是千变万化的必须在线实时计算其向量。当搜索请求到来时系统会调用相同的嵌入模型服务实时将搜索词转化为向量。2.2 两阶段排序流程详解准备好向量后就进入了KART-RERANK的核心两阶段第一阶段粗排Retrieval就是前面提到的“广告候选检索”模块。它的目标是“快”和“全”确保不遗漏潜在相关的广告。它主要基于词频、词项匹配等统计信息虽然对语义理解不深但速度极快能将候选集从百万级缩小到百级例如500条。第二阶段精排Reranking这是提升相关性的关键。系统从向量数据库中取出之前离线计算好的那500条候选广告的向量。然后计算搜索词向量与每一个广告创意向量之间的语义相似度。常用的度量方式有余弦相似度Cosine Similarity。这个相似度分数直接量化了搜索意图与广告内容在语义层面的匹配程度。分数越高意味着相关性越强。系统根据这个分数对500条候选广告进行重新排序排名最靠前的就是语义上最相关的广告。# 一个简化的精排阶段代码示意 import numpy as np from sentence_transformers import SentenceTransformer # 假设已有向量数据库客户端 from vector_db_client import VectorDBClient # 初始化模型和数据库客户端实际中应为单例或服务化 # model SentenceTransformer(BAAI/bge-large-zh-v1.5) # db_client VectorDBClient() def rerank_ads_with_kart(query_text, coarse_ranked_ad_ids): 对粗排后的广告进行基于语义的重新排序。 参数: query_text: 用户搜索词 coarse_ranked_ad_ids: 粗排模块返回的广告ID列表 返回: reranked_ad_ids: 重新排序后的广告ID列表 similarity_scores: 对应的相似度分数 # 1. 在线计算搜索词向量 query_embedding model.encode(query_text, normalize_embeddingsTrue) reranked_results [] for ad_id in coarse_ranked_ad_ids: # 2. 从向量数据库获取该广告创意的预计算向量 # 假设广告创意文本已预先向量化并存储这里通过ID获取 ad_embedding db_client.get_embedding_by_id(ad_id) # 3. 计算余弦相似度 similarity np.dot(query_embedding, ad_embedding) / ( np.linalg.norm(query_embedding) * np.linalg.norm(ad_embedding) ) reranked_results.append((ad_id, similarity)) # 4. 按相似度分数降序排序 reranked_results.sort(keylambda x: x[1], reverseTrue) # 解包返回 reranked_ad_ids [item[0] for item in reranked_results] similarity_scores [item[1] for item in reranked_results] return reranked_ad_ids, similarity_scores # 模拟调用 # 假设用户搜索“夏季透气跑步鞋” # 假设粗排返回了[‘ad_123’, ‘ad_456’, ‘ad_789’...]等500个ID # final_ads, scores rerank_ads_with_kart(“夏季透气跑步鞋”, coarse_ranked_ad_ids)2.3 特征融合与最终排序精排产生的“语义相关性分数”并不是终点而是一个新的、强有力的特征。在典型的广告排序系统中最终决定广告展示顺序的是一个复杂的排序模型如GBDT、深度神经网络。这个模型会综合考虑多种特征用户特征历史行为、 demographics。上下文特征时间、地点、设备。广告特征创意类型、历史CTR/CVR。竞价特征广告主的出价。相关性特征传统关键词匹配分数以及我们新加入的KART-RERANK语义相似度分数。这个排序模型会学习这些特征与用户真实点击/转化行为之间的关系。当它发现“语义相关性分数”高的广告确实能带来更高的点击率时就会在预测时给予这个特征更高的权重。这样在最终的广告展示列表里那些不仅出价高而且与用户搜索意图真正匹配的广告就能获得更靠前的位置。3. 实际效果与业务价值分析这套方案听起来不错但实际用起来到底怎么样能给业务带来什么真金白银的价值我们可以从几个维度来看。首先最直接的提升是广告相关性感知。以前主要看关键词是否字面匹配现在能理解“轻便徒步鞋”和“户外登山装备”之间的深层联系。对于之前容易被系统忽略的长尾、模糊查询匹配精度提升尤其明显。广告不再只是“硬塞”给用户而是变得更像“答案”或“建议”用户体验自然就好了。其次点击率CTR和转化率CVR的改善。这是广告主和平台最关心的核心指标。当广告与用户的意图高度相关时用户点击的意愿会大大增强。我们曾在某个场景的A/B测试中观察到在排序模型中加入KART-RERANK的语义相关性特征后广告的整体点击率提升了约5%-15%具体提升幅度取决于基线水平和场景。点击率的提升通常会进一步带动转化率的增长。再者对平台生态的长期价值。提升广告主满意度广告主的预算花在了更可能产生效果的流量上投资回报率ROI提高他们会更愿意持续投放甚至增加预算。提升用户满意度看到更多自己感兴趣的广告甚至是有用的信息减少了无关广告的干扰这对平台的整体用户体验是一种维护。增加平台收入点击率的提升直接意味着平台广告收入的增长。同时更健康的生态能吸引更多广告主形成正向循环。释放创意潜力广告主不必再过分纠结于堆砌关键词可以更专注于创作能体现产品真正优势的、富有吸引力的创意文案因为系统能“理解”它们了。当然效果不是凭空而来的也伴随着一些工程上的挑战比如引入语义模型带来的计算成本增加、在线推理的延迟控制等。但通过合理的架构设计如离线计算广告向量、使用高性能向量数据库、模型服务化与优化这些挑战都是可以管理和优化的。总体来看收益远大于成本。4. 实践经验与优化建议在实际部署和优化KART-RERANK方案的过程中我们积累了一些经验也踩过一些坑。如果你也想尝试下面几点建议或许能帮你少走弯路。关于嵌入模型的选择不是越大越好要平衡效果、速度和成本。对于中文场景BGE、E5等系列模型是很好的起点。可以先从基础版本开始如果效果达不到预期再考虑用业务数据对模型进行微调Fine-tuning这往往能带来显著的提升让模型更懂你的广告领域术语比如“CPC”、“ROI”、“爆款”等。关于粗排与精排的协同粗排是精排的基础。如果粗排阶段漏掉了真正相关的广告精排模型再厉害也无力回天。因此需要定期评估粗排模块的召回率Recall。可以考虑结合多种召回方式比如除了关键词匹配再加入一些基于简单向量或规则的召回形成一个“多路召回”的粗排层确保候选集的多样性。关于特征工程KART-RERANK产生的语义相似度分数是一个强特征但如何用好它也有讲究。可以直接将其作为一个数值特征输入排序模型。也可以考虑做一些衍生比如计算该分数在本次候选广告集合中的分位数排名、与历史平均分的对比等这些衍生特征有时能提供更多信息。关于线上效果监控上线后一定要建立完善的监控体系。不仅要监控服务的延迟、成功率等工程指标更要紧密关注业务指标。通过A/B测试持续对比新老策略在CTR、CVR、收入等核心指标上的差异。同时可以定期抽样查看Top广告的案例人工评估相关性是否真的改善了避免模型出现不可预期的偏差。关于迭代方向当前的方案主要处理文本。但广告创意是多媒体尤其是图片和视频信息量巨大。未来的一个优化方向是引入多模态模型让系统不仅能理解广告文案还能“看懂”广告图片或视频帧的内容实现更深层次、更全面的相关性理解。这将把广告匹配的精准度推向一个新的高度。整体来看将KART-RERANK引入互联网广告排序系统是一个典型的用“AI深度理解”赋能传统“规则与统计”系统的案例。它没有完全推翻旧体系而是以一种协同增效的方式弥补了原有系统在语义理解上的短板。从实际业务反馈来看这种“混合智能”的路径是稳健且有效的。它让广告投放从“关键词的机械匹配”向“用户意图的智能满足”迈进了一步。对于广告平台而言这不仅是技术的升级更是商业模式的优化和生态价值的提升。如果你所在的团队正面临广告相关性优化的挑战不妨从这个思路入手从小规模实验开始验证它在你自己业务场景下的威力。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

更多文章