EmbeddingGemma-300m新手教程：理解嵌入模型与聊天模型区别

张开发

• 2026/4/14 22:51:13 • 15 分钟阅读

分享文章

EmbeddingGemma-300m新手教程理解嵌入模型与聊天模型区别1. 引言从“聊天”到“理解”的思维转变如果你刚开始接触AI模型可能会被各种术语搞晕ChatGPT、Llama、Gemma、Embedding... 它们看起来都差不多但用起来却天差地别。今天我要介绍的EmbeddingGemma-300m就是一个典型的“非聊天”模型。让我用一个简单的比喻来解释想象你去图书馆找书。聊天模型如ChatGPT就像一位知识渊博的图书管理员。你问他“量子物理入门该看什么书”他会思考、组织语言然后给你一个完整的回答甚至推荐具体的书名和作者。嵌入模型如EmbeddingGemma-300m则像一台超级智能的图书索引机。它不直接回答你的问题但能把每本书的内容以及你的问题转换成一种特殊的“数字指纹”。当你提问时它通过比对“指纹”的相似度瞬间找出内容最相关的书籍给你。EmbeddingGemma-300m就是这样一个专门生成“数字指纹”专业术语叫“向量”或“嵌入”的模型。它只有3亿参数小巧到能在你的笔记本电脑上流畅运行却继承了谷歌构建Gemini大模型的先进技术。它擅长的是理解文本的语义并用于搜索、分类、聚类等任务支持超过100种语言。这篇文章我将带你从零开始不仅学会如何部署和使用EmbeddingGemma-300m更重要的是帮你彻底理清嵌入模型和聊天模型的根本区别避免踩坑。2. 核心概念嵌入模型到底是什么2.1 从生活例子理解“嵌入”“嵌入”听起来很抽象但其实我们每天都在用类似的概念。比如你如何判断两篇文章是否相关关键词匹配传统方法文章A有“苹果”、“手机”文章B也有“苹果”、“手机”那它们可能相关。但如果文章C写的是“苹果很好吃”这种方法就会出错因为它无法区分“苹果公司”和“水果苹果”。语义理解嵌入方法嵌入模型会去理解整段文字的意思。它会将“苹果公司发布新款iPhone”转换成一个数学向量比如300个数字这个向量代表了“科技”、“企业”、“电子产品”等语义。而“这个苹果很甜”会被转换成另一个向量代表“水果”、“食物”、“味道”。即使两句话都包含“苹果”它们的向量在数学空间里也相距甚远。EmbeddingGemma-300m干的就是这个“语义转数字”的活儿。它输出的不是文字而是一串有意义的数字一个300维的向量。语义相近的文本其向量在空间中的“距离”也更近。2.2 嵌入模型 vs. 聊天模型一张表看懂区别这是新手最容易混淆的地方。为了让你一目了然我总结了它们最核心的差异特性维度嵌入模型 (如 EmbeddingGemma-300m)聊天模型 (如 ChatGPT, Llama)核心任务理解与表示。将文本转换为蕴含语义的数值向量。生成与对话。根据输入和上下文生成连贯的文本回复。输出形式一串数字向量例如[0.12, -0.05, 0.33, ...]。自然语言文本例如“你好我是AI助手。”。调用方式通过API发送文本接收向量。不支持交互式对话。通过API或命令行进行多轮交互式对话。典型命令curl -X POST ... /api/embeddingsollama run llama3.2擅长场景语义搜索、文本分类/聚类、去重、推荐、作为其他模型的输入。问答、创作、翻译、代码生成、逻辑推理、聊天。资源消耗相对较低推理速度快适合实时处理。相对较高生成文本需要更多计算和时间。Ollama运行使用ollama pull拉取但不能用ollama run启动对话。使用ollama pull拉取可以用ollama run启动对话。简单记聊天模型是“作家”嵌入模型是“图书管理员”。你不能让图书管理员写一本小说也不能让作家去管理整个图书馆的索引系统。它们各司其职。3. 快速部署与验证第一步就做对理解了区别我们开始动手。部署EmbeddingGemma-300m非常简单但第一步就要用对方法。3.1 环境准备安装OllamaOllama是一个强大的工具让你能在本地轻松运行各种大模型。首先确保它已安装。macOS / Linux打开终端一行命令搞定。curl -fsSL https://ollama.com/install.sh | shWindows直接访问 Ollama官网下载安装程序双击运行即可。安装完成后在终端输入ollama --version检查是否成功。3.2 拉取模型获取EmbeddingGemma这是关键一步但命令很简单ollama pull embeddinggemma:300m这个命令会从Ollama的模型库中下载EmbeddingGemma-300m模型约1.2GB。泡杯茶等待下载完成。你可以用ollama list命令查看已下载的模型。NAME ID SIZE MODIFIED embeddinggemma:300m xxxxxxxxxxx 1.2 GB 5 minutes ago重要提醒看到模型出现在列表里千万不要习惯性地输入ollama run embeddinggemma:300m这会触发我们开头提到的经典错误。3.3 验证服务正确的“打招呼”方式既然不能“对话”我们怎么验证模型工作正常呢通过它的专属API接口。方法一使用cURL命令测试打开一个新的终端窗口确保Ollama服务正在运行通常安装后会自动运行然后执行curl -X POST http://localhost:11434/api/embeddings \ -H Content-Type: application/json \ -d { model: embeddinggemma:300m, prompt: Hello, EmbeddingGemma! }如果一切正常你会看到一个包含长长数字数组的JSON响应{ embedding: [0.023, -0.045, 0.118, 0.002, -0.089, ...] // 总共300个数字 }这串数字就是“Hello, EmbeddingGemma!”这句话的语义向量。看到它就说明你的嵌入模型服务已经准备就绪方法二使用Python快速验证如果你习惯用Python可以写一个简单的脚本import requests import json def test_embedding(): url http://localhost:11434/api/embeddings data { model: embeddinggemma:300m, prompt: 这是一个测试文本用于验证嵌入模型。 } try: response requests.post(url, jsondata) response.raise_for_status() # 检查请求是否成功 result response.json() vector result[embedding] print(✅ 模型服务正常) print(f 生成的向量长度{len(vector)}) # 应该是300 print(f 向量前5个值{vector[:5]}) # 预览一下 return vector except requests.exceptions.ConnectionError: print(❌ 连接失败请确保Ollama服务正在运行。) except Exception as e: print(f❌ 请求出错{e}) if __name__ __main__: test_embedding()运行这个脚本如果输出成功信息恭喜你EmbeddingGemma-300m已经在你的电脑上活起来了。4. 从使用到应用解锁嵌入模型的真正能力现在模型跑起来了我们来看看它能做什么。核心就是利用生成的向量进行语义相似度计算。4.1 计算语义相似度余弦相似度两个向量的相似度最常用的度量方法是余弦相似度。它的值在-1到1之间1表示两个向量方向完全相同语义高度相似。0表示两个向量正交无关。-1表示两个向量方向完全相反语义相反。下面是一个完整的Python示例演示如何计算两段文本的相似度import requests import numpy as np from numpy.linalg import norm def get_embedding(text, modelembeddinggemma:300m): 获取单条文本的嵌入向量 url http://localhost:11434/api/embeddings data {model: model, prompt: text} response requests.post(url, jsondata) return np.array(response.json()[embedding]) def cosine_similarity(vec_a, vec_b): 计算两个向量的余弦相似度 # 点积除以模长的乘积 dot_product np.dot(vec_a, vec_b) norm_a norm(vec_a) norm_b norm(vec_b) return dot_product / (norm_a * norm_b) # 示例对比不同文本的相似度 text_pairs [ (机器学习是一门人工智能的科学, AI中让计算机自主学习的技术, 同义表达应高度相似), (今天天气晴朗适合出游, Python是一种编程语言, 完全无关应非常不相似), (苹果公司市值很高, 我喜欢吃红苹果, 一词多义应较低相似), ] print(文本相似度测试结果) print(- * 50) for text1, text2, desc in text_pairs: vec1 get_embedding(text1) vec2 get_embedding(text2) sim cosine_similarity(vec1, vec2) print(f描述{desc}) print(f 文本A: 「{text1}」) print(f 文本B: 「{text2}」) print(f 余弦相似度: {sim:.4f}\n)运行这段代码你会直观地看到模型如何理解语义。第一组句子意思相同相似度会接近0.9第二组风马牛不相及相似度可能接近0第三组虽然都有“苹果”但模型能很好地区分其不同含义相似度可能在0.2-0.4之间。4.2 实战项目构建迷你语义搜索引擎理解了基本原理我们来做一个真正有用的东西一个本地文件的语义搜索引擎。假设你有一个包含多篇技术博客的文件夹想快速找到和“神经网络优化”相关的文章。import os import numpy as np from pathlib import Path class MiniSemanticSearchEngine: def __init__(self, model_nameembeddinggemma:300m): self.model_name model_name self.api_url http://localhost:11434/api/embeddings self.documents [] # 存储文档原文 self.embeddings None # 存储所有文档向量矩阵 self.doc_ids [] # 文档标识如文件名 def index_directory(self, directory_path): 索引一个目录下的所有文本文件 path Path(directory_path) text_files list(path.glob(*.txt)) # 假设都是txt文件 print(f开始索引 {len(text_files)} 个文件...) all_vectors [] for file_path in text_files: try: with open(file_path, r, encodingutf-8) as f: content f.read()[:1000] # 只取前1000字符避免太长 # 获取文档向量 vector self._get_embedding(content) all_vectors.append(vector) self.documents.append(content) self.doc_ids.append(file_path.name) print(f 已索引: {file_path.name}) except Exception as e: print(f 索引失败 {file_path.name}: {e}) # 将所有向量堆叠成一个矩阵方便后续批量计算 if all_vectors: self.embeddings np.stack(all_vectors) print(索引完成) else: print(没有找到可索引的文件。) def search(self, query, top_k3): 语义搜索输入查询语句返回最相关的文档 if self.embeddings is None: print(请先索引文档) return [] # 获取查询语句的向量 query_vec self._get_embedding(query).reshape(1, -1) # 变成1行N列 # 批量计算余弦相似度 (利用矩阵运算效率高) # 公式: cos(A,B) (A·B) / (||A|| * ||B||) dot_products np.dot(self.embeddings, query_vec.T).flatten() doc_norms np.linalg.norm(self.embeddings, axis1) query_norm np.linalg.norm(query_vec) similarities dot_products / (doc_norms * query_norm) # 获取相似度最高的top_k个索引 top_indices np.argsort(similarities)[-top_k:][::-1] # 组装结果 results [] for idx in top_indices: results.append({ doc_id: self.doc_ids[idx], similarity: float(similarities[idx]), # 转为Python float类型 snippet: self.documents[idx][:150] ... # 预览片段 }) return results def _get_embedding(self, text): 内部方法调用Ollama API获取向量 import requests data {model: self.model_name, prompt: text} resp requests.post(self.api_url, jsondata, timeout30) resp.raise_for_status() return np.array(resp.json()[embedding]) # 使用示例 if __name__ __main__: # 1. 初始化搜索引擎 search_engine MiniSemanticSearchEngine() # 2. 假设你的博客文章存放在 ./my_blog_posts 目录下 # search_engine.index_directory(./my_blog_posts) # 3. 为了演示我们手动添加几个示例文档 search_engine.documents [ 深度学习中的卷积神经网络CNN广泛应用于图像识别领域通过卷积层提取特征。, Python是一种解释型、高级别的通用编程语言以其清晰的语法和强大的库生态系统而闻名。, Transformer模型是自然语言处理的基础架构其自注意力机制能有效处理长距离依赖。, 机器学习模型的优化算法包括梯度下降、Adam等用于最小化损失函数。, 数据库索引是一种提高数据检索速度的数据结构例如B树和哈希索引。 ] search_engine.doc_ids [fdoc_{i} for i in range(5)] # 模拟索引过程为每个文档生成向量 print(正在为示例文档生成向量...) all_vecs [] for doc in search_engine.documents: all_vecs.append(search_engine._get_embedding(doc)) search_engine.embeddings np.stack(all_vecs) print(示例文档索引完成\n) # 4. 进行语义搜索 queries [ 如何提升神经网络训练效果, 编程语言学习, 什么是注意力机制 ] for q in queries: print(f 查询: 「{q}」) results search_engine.search(q, top_k2) for res in results: print(f 匹配文档: {res[doc_id]} (相似度: {res[similarity]:.3f})) print(f 内容预览: {res[snippet]}\n) print(- * 50)这个搜索引擎的妙处在于你搜索“如何提升神经网络训练效果”它不仅能匹配到包含“优化算法”的文档还能匹配到谈论“模型训练”、“梯度下降”等相关概念的文档因为它理解这些词在语义上是关联的。5. 总结如何正确看待和使用EmbeddingGemma-300m5.1 核心区别再强调通过整个教程希望你已经深刻理解不要试图和它聊天EmbeddingGemma-300m被问“你好”时会“沉默”因为它本质上是一个函数输入文本输出向量。它的价值在于理解而非创造。它的主场是“关联”与“比较”所有应用都围绕“相似度”展开。无论是搜索找相似的、分类归到相似的、还是去重发现相似的核心逻辑都是计算向量之间的距离。它是构建复杂AI应用的基石许多高级应用如智能客服、推荐系统底层都需要嵌入模型来理解用户输入和内容库。EmbeddingGemma-300m以其轻量级和不错的性能成为入门和构建原型的优秀选择。5.2 最佳实践与注意事项文本长度对于过长的文本考虑将其分段然后取各段向量的平均值或使用专门处理长文本的模型。上下文的重要性给模型更完整的句子或短语比输入孤立的单词能得到质量更高的向量。例如“苹果”不如“苹果手机最新款”或“新鲜的红苹果”明确。性能考量对于大量文本的批量处理可以考虑使用异步请求或向量数据库如Chroma、Weaviate来存储和快速检索预计算的向量而不是每次都实时调用模型。领域适配如果用于非常垂直的专业领域如法律、医学通用嵌入模型的效果可能打折扣。这时可以考虑在领域数据上对模型进行微调Fine-tuning。5.3 下一步探索方向当你熟练使用EmbeddingGemma-300m后可以探索更广阔的天地结合向量数据库将生成的向量存入Chroma、Qdrant等专业向量数据库实现毫秒级的海量数据检索。构建融合系统构建“EmbeddingGemma 聊天模型”的流水线。先用EmbeddingGemma从知识库中检索出最相关的文档片段再将片段和用户问题一起交给ChatGPT等模型生成精准答案即RAG检索增强生成。尝试其他嵌入模型除了Gemma系列还有BGE、E5等优秀的开源嵌入模型可以在不同任务上进行比较。探索多模态了解CLIP等模型它们可以将图像和文本映射到同一个向量空间实现“以图搜文”或“以文搜图”。EmbeddingGemma-300m就像一把精准的尺子能量化文本的语义。掌握它你就拥有了在信息海洋中进行智能导航的基础能力。从今天开始别再把它当聊天机器人让它在你构建的智能应用中发挥“理解”与“关联”的真正威力吧。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

EmbeddingGemma-300m新手教程：理解嵌入模型与聊天模型区别

最新文章

CANoe诊断自动化避坑指南：从传输层参数到安全解锁DLL的实战配置详解

第四篇 —— 需求分析、用户故事与 PRD：PM 应该把方案讲到什么程度？

从8.7s到326ms：某千万级AI客服平台多模态响应提速26.7倍的全链路加速实践（含CUDA Graph注入+FlashVLM定制内核源码片段）

CnOpenData A股上市公司公司章程公告数据

从GLORYS12数据到npy文件：手把手教你为‘羲和’大模型准备自定义输入数据

【大模型基石技术】系列一：从Word到Byte，Tokenizer演进之路与核心算法对比

推荐文章

新概念英语第一册115_Knock knock

新概念英语第一册117_Tommy s breakfast

AI开发-python-langchain框架（--并行流程）慕

解锁多路视频分发：专业虚拟摄像头解决方案深度解析

多元高斯分布：条件分布的实际应用与推导解析

Volatility过时了？试试Lovelymem：图形化内存取证，5分钟提取进程哈希和SID

相关文章

掌握媒体捕获与视频下载的7个实用技巧：猫抓cat-catch浏览器扩展完全指南

Android开发者必备：轻量级二维码解决方案ZXingLite全面解析

MogFace人脸检测在AR应用：移动端人脸关键点实时追踪与特效叠加

解锁AI编程效率：6个Continue插件实战技巧让开发效率提升10倍

[游戏录像引擎] 突破视角限制：League Director重构《英雄联盟》视频创作流程

从RK3562实践出发：AMP架构下的RPMsg核间通信实战解析

分享文章

更多文章

C#怎么使用CancellationToken C#如何用取消令牌优雅地取消异步任务和长时间操作【进阶】

如何轻松备份微信聊天记录：开源工具WeChatExporter完整使用指南

电竞椅哪个牌子质量好？傲风M6Pro，告诉你什么是“开挂式”舒适

【SCI复现】基于纳什博弈的多微网主体电热双层共享策略研究附Matlab代码

基于PLC的糖果包装控制系统详解：梯形图程序、接线图与IO配置实践指南

从数据看设计：LwIP性能统计模块如何成为嵌入式开发的‘听诊器’

KP32512与HN32512对比分析，能否替代使用？

2025年省市县三级的平均高程数据（Excel\Shp格式）

为什么72小时上线的小程序总在运营环节“失联”？先补齐这3个监控能力

自动驾驶地图的‘乐高积木’：一文拆解Lanelet2的物理层、关联层与拓扑层设计哲学

JavaScript 语法

如何快速获取八大网盘直链下载地址：LinkSwift完全使用指南

EmbeddingGemma-300m新手教程：理解嵌入模型与聊天模型区别

最新文章

CANoe诊断自动化避坑指南：从传输层参数到安全解锁DLL的实战配置详解

第四篇 —— 需求分析、用户故事与 PRD：PM 应该把方案讲到什么程度？

从8.7s到326ms：某千万级AI客服平台多模态响应提速26.7倍的全链路加速实践（含CUDA Graph注入+FlashVLM定制内核源码片段）

CnOpenData A股上市公司公司章程公告数据

从GLORYS12数据到npy文件：手把手教你为‘羲和’大模型准备自定义输入数据

【大模型基石技术】系列一：从Word到Byte，Tokenizer演进之路与核心算法对比

推荐文章

新概念英语第一册115_Knock knock

新概念英语第一册117_Tommy s breakfast

AI开发-python-langchain框架（--并行流程 ）慕

解锁多路视频分发：专业虚拟摄像头解决方案深度解析

多元高斯分布：条件分布的实际应用与推导解析

Volatility过时了？试试Lovelymem：图形化内存取证，5分钟提取进程哈希和SID

相关文章

掌握媒体捕获与视频下载的7个实用技巧：猫抓cat-catch浏览器扩展完全指南

Android开发者必备：轻量级二维码解决方案ZXingLite全面解析

MogFace人脸检测在AR应用：移动端人脸关键点实时追踪与特效叠加

解锁AI编程效率：6个Continue插件实战技巧让开发效率提升10倍

[游戏录像引擎] 突破视角限制：League Director重构《英雄联盟》视频创作流程

从RK3562实践出发：AMP架构下的RPMsg核间通信实战解析

分享文章

更多文章

AI开发-python-langchain框架（--并行流程）慕