大模型核心揭秘:LLM、RAG、Function Calling、Agent,这些AI新名词到底在干嘛?

张开发
2026/4/17 17:57:42 15 分钟阅读

分享文章

大模型核心揭秘:LLM、RAG、Function Calling、Agent,这些AI新名词到底在干嘛?
前言最近两年大模型领域出现了大量新名词LLM、Prompt、RAG、Function Calling、MCP、LangChain、Workflow、Agent、Skills、ClawBot……如果只是看技术宣传很容易产生一种感觉AI世界每天都在发明新技术。但实际上大多数概念只是对已有能力的不同封装方式。很多时候只是工程方法的变化而不是技术革命。这篇文章尝试从更高的视角把这些概念梳理清楚。杜绝名词诈骗核心问题只有一个大模型到底是如何被“使用起来”的。LLM一切的核心简介所有东西的核心其实只有一个LLMLarge Language Model。本质上它就是成语接龙。根据你给它的信息猜下一个字该说什么。从 GPT-1 到 GPT-4模型变得越来越聪明是因为它的参数规模B即 Billion十亿级发生了指数级飞跃。LLM 的能力就像一个人由两部分组成预训练知识预训练阶段学到的海量知识。上下文你现在跟它聊天的内容Context。示例我是一名Java后端开发程序员上下文请你帮我编写HelloWorld程序提示词许多看似复杂的 AI 系统拆解到底层其实都在做同一件事向上下文窗口中“塞入”更多有效信息。理解 AI 开发的捷径是看穿其本质——任何“AI 框架”归根结底都是在进行精细化的上下文管理。理解LLM时有三个最容易被混淆的概念Prompt提示词Context上下文Memory记忆Prompt提示词提示词就是你给模型的指令。例如你是一个Python专家请你帮我编写计算器程序。Context上下文上下文就是模型在当前推理时能看到的全部内容。包括提示词用户输入历史对话RAG检索内容工具返回结果这些都会被拼接进上下文。Memory记忆很多AI产品宣传“长期记忆”。其实绝大多数实现方式很简单把历史记录存数据库需要时再放回context所以所谓“记忆”其实只是可检索的历史上下文。RAG数据库简介RAGRetrieval Augmented Generation翻译过来为检索增强生成。RAG 就是给 LLM 准备的一场“开卷考试”而数据库就是那本供它随时查阅的资料书。为什么需要RAG模型在预训练阶段Pre-training确实背下了海量知识但它有两个致命弱点知识断层它不知道训练截止日期之后发生的事比如昨天的安全漏洞、刚发布的论文。幻觉风险当它记不清细节时会为了“预测下一个 token”而一本正经地胡说八道。RAG 的逻辑是不要让模型死记硬背而是当用户提问时先去数据库里把相关的“知识碎片”找出来塞进上下文Context里让模型看着这些资料来回答。核心组件向量数据库在 RAG 流程中传统的关键词数据库比如搜“苹果”只能找到“苹果”不够聪明。我们通常使用向量数据库它的严谨定义是将非结构化数据转化为高维向量并进行相似度检索的系统。通俗来说它做了两件事特征提取Embedding把每一段文字比如一段代码、一个漏洞描述变成一串数字坐标。意思相近的内容在多维空间里的坐标就离得近。语义搜索当你问“如何修复缓冲区溢出”时即使数据库里的文档用的是“Memory safety context”向量数据库也能感知到它们在语义上的关联从而把它捞出来。工作原理RAG分为三个阶段Retrieve检索根据用户的问题去向量数据库里“捞”出最相关的 Top-K 条文档片段。Augment增强把捞出来的这些“干货”和用户原始的问题、提示词Prompt拼在一起。新上下文 提示词 检索到的背景知识 用户问题。Generate生成模型读完这段变长了的上下文吐出最终答案。回到我们之前的结论任何 AI 框架都是在管理上下文。RAG 框架如 LangChain、LlamaIndex本质上是一套**“自动化搬运工”**它们根据用户的问题动态地从海量数据库中筛选出最精准的信息精确地投喂到 LLM 的上下文窗口里。Function Calling让AI使用工具简介如果说RAG是给 AI 准备了一本可以随时翻阅的**“参考书”那么Function Calling函数调用就是给 AI 装上了可以操作世界的“双手”**。为什么需要Function CallingLLM 虽然博学但它本质上是一个封闭系统存在天然局限无法获取实时数据它不知道现在的天气、最新的股价或者你公司内网的数据库。逻辑计算不精确让它算复杂的数学或进行精确的逻辑推导容易出错。无法改变物理世界它自己不能下单订票、发邮件或关闭一个服务器端口。Function Calling 的本质是让 LLM 具备“调用外部 API”的能力把复杂任务交给专业的程序去处理自己只负责逻辑调度。工作原理LLM 并不运行任何函数它只负责产生意图。整个过程分为四步依然是在管理上下文定义工具Schema你在 Prompt 里告诉模型“我这儿有一个工具叫get_weather它需要一个参数city。”这部分定义会作为上下文的一部分喂给模型。识别意图Output JSON当用户问“北京天气怎么样”时模型意识到它需要用工具。它不会直接回答天气而是输出一段结构化文本通常是 JSON比如{ function: get_weather, args: {city: Beijing} }。外部执行The Action你的后端程序拦截到这段 JSON去跑真正的 Python 代码或调用天气 API拿到结果如“晴天25度”。结果反馈Feedback Loop程序把这个结果重新塞回上下文告诉模型“工具返回的结果是晴天25度。”模型读到这段新信息再组织成自然语言回复用户。最终上下文 用户问题 提示词 工具调用结果Execution ResultAI 系统通过多轮对话Multi-turn Chat动态地将工具执行的反馈信息“塞进”上下文窗口。模型看到的结果越多它的判断就越准确。MCP简介MCP模型上下文协议是由 Anthropic 提出的一种开放标准。它的核心逻辑是将“工具提供方”与“模型接入方”解耦。在 MCP 的架构中存在三方角色MCP Server工具端负责把你的本地文件、数据库、或 API 封装好并按照 MCP 标准吐出接口。MCP Host宿主/客户端比如 Claude Desktop 或 IDE 中的 agent助手。LLM大脑它通过 Host 看到这些工具。为什么需要MCP在理解了Function Calling是如何让 AI “动手干活”之后你可能会发现一个痛点如果我有 100 个工具GitHub、Slack、Google Drive、CodeQL难道我要为每一个模型、每一个项目都手动写一遍那复杂的 JSON Schema 吗这就是MCP (Model Context Protocol)诞生的背景。MCP 的出现标志着 AI 应用从“手工作坊式”的 Prompt Engineering向“工业标准化”的连接器架构演进。它让上下文的获取不再依赖于繁琐的胶水代码而是通过协议实现自动化的语义发现与交互。工作原理初始化与发现 (Discovery)当你启动支持 MCP 的 Host 时它会连接到指定的 Server。Host 问你都能干什么Server 答我有这 3 个**资源 (Resources)比如本地文档、5 个工具 (Tools)比如搜索代码函数和 2 个提示词模板 (Prompts)**。上下文注入 (Contextualization)Host 将这些“能力清单”转化为模型能理解的格式塞进LLM 的上下文里。模型感知模型现在知道它面前摆着一排可以按下的按钮。产生意图 (Tool Call)用户问“分析一下这个项目的 CVE-2023-38545 漏洞。”模型决策模型发现自己没看过这个项目代码于是发出一个指令“我要调用read_local_repo工具参数是path/to/project。”安全执行与反馈 (Execution Loop)Host 转发Host 收到模型的 JSON 指令转发给 MCP Server。Server 执行Server 在本地执行读取动作把代码内容返回给 Host。闭环Host 把代码塞回上下文模型读到代码开始分析并给出最终答案。与Function Calling的区别Function Calling是让LLM输出调用意图然后由后端代码手动调用并将返回结果扔给LLM。MCP引入了MCP Server让LLM自动发现并调用工具返回结果。Agent简介在理解了LLM (大脑)、RAG (知识)、Function Calling/MCP (工具接口)之后我们终于来到了 AI 系统的最高级形态AI Agent智能体。如果把之前的组件比作零件那么 Agent 就是一台能够自主运行的机器人。我们可以用一个极简的公式来定义它❝Agent LLM 工具 (Tools) 循环 (Loop)常见形态根据运行环境的不同Agent 目前主要有三种存在形态CLI Agent (命令行智能体)**代表作**Claude Code CLI特点运行在终端。它能直接查看你的代码仓库、运行测试用例、自动修复 Bug 并提交 Git。场景适合重度开发者直接在生产环境中进行端到端的开发任务。IDE Agent (集成开发环境智能体)**代表作**Cursor、Windsurf特点深度集成在编辑器中。它不仅能写代码还能理解整个项目的结构在你改动一处代码时自动建议并修改相关的其他文件。场景辅助编程实现“人机结对编程”的最佳体验。桌面助手 (Desktop/OS Agent)**代表作**Clawdbot、Computer Use (Anthropic)特点运行在操作系统层面。它能像人一样“看”屏幕、挪动鼠标、敲击键盘跨应用操作如从 Excel 提取数据然后去网页查资料最后发邮件汇报。场景自动化繁琐的日常办公流程。工作原理Agent 的工作本质上是一个闭环的自适应过程**思考 (Thought)**LLM 分析目标决定下一步做什么。**行动 (Action)**根据思考结果调用工具如执行一段代码、搜索一个漏洞库。**观察 (Observation)**获取工具执行后的反馈如代码运行报错、搜到了关键信息。更新上下文 (Update Context)这是最关键的一步Agent 将观察到的新信息塞回上下文开始下一轮“思考”。本质洞察Agent 其实是一个**“自动化的上下文管理器”**。它通过循环不断地根据外部反馈来精细化、补全自己的上下文直到解决问题。SKill简介在理解了 Function Calling 和 MCP (连接工具和数据的接口) 之后我们继续介绍一个新概念Skill。Skill其实是新瓶装旧酒的新名词营销它只是实现提示词精简、工具按需加载的规范。工作原理传统的Function Calling调用traditional_system 你是一个助手。可用工具- read_pdf: 读取PDF文件- parse_pdf: 解析PDF结构- extract_pdf_text: 提取PDF文本- analyze_pdf: 分析PDF内容- convert_pdf: 转换PDF格式- merge_pdf: 合并PDF文件- split_pdf: 拆分PDF文件- encrypt_pdf: 加密PDF文件- decrypt_pdf: 解密PDF文件- add_watermark: 添加水印... (20 PDF相关工具)Skill调用skill_system 你是一个助手。可用技能- pdf: 处理PDF文件的综合技能- code_review: 代码审查技能- data_analysis: 数据分析技能提示需要特定技能时先用load_skill加载完整指南。当LLM想调用pdf相关工具时它会先通过load_skill工具查询pdf技能的详细信息如SKILLS { pdf: 【PDF处理完整指南】可用操作1. 读取PDF使用 read_file 读取PDF二进制内容2. 提取文本用 pypdf2 或 pdfplumber 提取 示例import PyPDF2; reader PyPDF2.PdfReader(file.pdf)3. 解析结构获取目录、书签、页面大小等4. 内容分析识别表格、图片、表单5. 格式转换转图片、转Word、转HTML6. 高级操作合并、拆分、加密、水印使用步骤- 先用 read_file 获取文件- 根据需求选择合适的Python库- 用 bash 执行相应命令- 用 write_file 保存结果}然后调用对应的工具。本质洞察Skills的本质是提示词搬家过去我们需要将大量工具使用说明全部放到初始的系统提示词中。现在的Skills通过两层设计可以实现按需加载工具说明避免提示词上下文过长和token消耗过多有效解决LLM的幻觉问题。它是本质不是技术革新而是工程重构。将杂乱的提示词变成了模块化的插件。ClawBot简介根据运行环境的不同ClawBot 是一种特定的 AI Agent 形态。如果说 IDE Agent (Cursor) 的工具是 IDE 的功能那么 ClawBot 的工具就是你的计算机操作系统 (OS) 本身。工作原理ClawBot 的核心不是它“博学”而是它不再是一个封闭的文本生成器而是拥有了**“计算机访问接口”**。它依然运行在 Agent 的闭环逻辑中只是它的行动和观察是对 OS 的直接操作**观察 (Observation)**模型会调用一个视觉模型 (Vision Model) 来“看”你屏幕的截图。ClawBot 的核心在于它不仅看还必须拥有屏幕元素的解析能力识别图标、窗口、输入框的坐标和类型。**思考 (Thought)**LLM 根据用户指令例如“从 Excel 提取报表数据整理后在网页查资料最后写一封总结邮件”和当前观察拆解任务。行动 (Action)它并不直接调用程序的 API而是生成计算机鼠标和键盘的直接操作指令如移动鼠标到坐标 (100,200)点击输入 ‘c’。这些指令通过系统的访问接口执行。**更新上下文 (Update Context)**ClawBot 也是一个“自动化的上下文管理器”。它通过多步循环不断地通过屏幕操作来获取新程序的“上下文”如打开一个 Excel 文件把新观察到的信息塞回上下文供大脑决策。本质洞察相比于传统的agentClawBot并没有技术革新它只是接入社交媒体引入定时任务可视化Web控制台允许管理Skills…但它的确完成了一次从“程序员工具”到“大众能力”的跨越降低了AI自动化的门槛。假如你从2026年开始学大模型按这个步骤走准能稳步进阶。接下来告诉你一条最快的邪修路线3个月即可成为模型大师薪资直接起飞。阶段1:大模型基础阶段2:RAG应用开发工程阶段3:大模型Agent应用架构阶段4:大模型微调与私有化部署配套文档资源全套AI 大模型 学习资料朋友们如果需要可以微信扫描下方二维码免费领取【保证100%免费】配套文档资源全套AI 大模型 学习资料朋友们如果需要可以微信扫描下方二维码免费领取【保证100%免费】

更多文章