23|工具生态全景:本地文件、网络、数据库、浏览器自动化

张开发
2026/4/9 10:13:34 15 分钟阅读

分享文章

23|工具生态全景:本地文件、网络、数据库、浏览器自动化
本篇目标这是卷 3工程化扩展的第一篇。我们将打破“聊天框”的限制给 AI 装上四肢让它能操作你的电脑、访问互联网、管理数据。一、为什么 AI 需要“工具”在前面的章节里我们学会了用 Tool Calling 让 AI 知道“我想查天气”。但如果每次都要你自己写get_weather函数太累了。现实世界中我们 90% 的需求都可以归类为这四大类操作文件操作读写 PDF、Excel、代码文件。网络操作搜索 Google、抓取网页。数据库操作查 SQL、存数据。浏览器操作模拟点击、填表单。幸运的是现在有现成的工具箱Toolkit不需要你从头造轮子。二、四大金刚AI 的常用义肢1. 文件系统FileSystemAI 的手让 AI 能直接读写你电脑上的文件。场景“帮我把这个文件夹里所有.log文件打包压缩。”常用工具read_file(path): 读取内容。write_file(path, content): 写入内容慎用容易覆盖。list_dir(path): 看看有哪些文件。安全警告必须限制目录比如只允许 AI 访问/tmp/sandbox绝对不能让它访问/etc/passwd或你的桌面。2. 网络搜索Web SearchAI 的眼让 AI 能联网不再胡说八道。场景“帮我查一下 DeepSeek V3 是什么时候发布的”常用工具google_search(query): 返回搜索结果标题和摘要。browser_visit(url): 访问具体网页提取正文。推荐服务SerpAPI, Tavily专为 AI 优化的搜索 API。3. 数据库DatabaseAI 的记忆库让 AI 能查业务数据。场景“上个月销售额最高的产品是哪个”常用工具run_sql(query): 执行 SQL 语句。get_table_schema(table_name): 查看表结构。安全警告只给只读权限Read-Only否则 AI 可能会DROP TABLE users。4. 浏览器自动化Browser AutomationAI 的替身让 AI 像人一样操作浏览器。场景“帮我登录这个网站把发票下载下来。”常用工具click(element): 点击按钮。type(text): 输入文字。screenshot(): 截图。技术栈Puppeteer, Playwright, Selenium。三、实战如何给 AI 装上这些工具以 Python 的LangChain或Dify为例你不需要写底层代码只需要“组装”。伪代码示例# 1. 引入现成工具fromlangchain.toolsimportFileSystemTool,GoogleSearchTool# 2. 创建工具箱tools[FileSystemTool(root_dir./sandbox),# 限制只能操作沙箱目录GoogleSearchTool(api_key...)]# 3. 给 AI 装上agentcreate_agent(llmgpt4,toolstools)# 4. 下指令agent.run(去网上搜一下最新的 iPhone 价格然后存到 price.txt 里。)AI 的执行过程思考“我需要先搜价格 - 调用GoogleSearchTool。”拿到结果“iPhone 16 价格是 $999。”思考“我需要存文件 - 调用FileSystemTool。”写入文件price.txt。回复用户“搞定了。”四、安全边界别让 AI 毁了你的电脑给 AI 装工具就像给小孩子发电锯。必须要有安全护栏。1. 最小权限原则Least Privilege文件只读不写或者只能写特定文件夹。网络只允许访问白名单域名如*.google.com。数据库只读账号。2. 人工确认Human-in-the-loop对于高危操作如“删除文件”、“发送邮件”、“转账”AI必须停下来问你AI: “我准备执行rm -rf /请批准(y/n)”你: “n”3. 超时与重试网络请求可能会卡死必须设置timeout5s。AI 可能会陷入死循环不断点击同一个按钮必须设置“最大步数Max Steps”。五、本篇产出你的工具能力清单当你设计一个 Agent 时先勾选它需要哪些能力能力模块具体工具权限限制 (必填)场景示例文件读写read_file,write_file仅限./output目录生成报表文件联网搜索tavily_search无限制查询最新技术文档代码执行python_repl极度危险仅限沙箱做数据分析计算数据库sql_query只读账号查询订单状态浏览器playwright无限制自动抢票/填表练习题设计一个“竞品监控 Agent”任务你想做一个 Agent每天早上自动去竞品网站截图看看有没有新活动。请回答它需要哪类工具文件网络浏览器它最大的安全风险是什么如果网页改版了它找不到按钮了应该怎么办点击查看参考答案工具浏览器自动化Playwright用于访问和截图文件系统用于保存截图。风险如果网站有反爬虫机制IP 可能会被封或者 AI 误点了广告链接。异常处理设置“元素查找超时”机制。如果 10 秒找不到按钮报错并发送通知给人类而不是一直死等。下一步工具选好了但每个工具的接口都不一样怎么统一管理下一章我们将学习MCPModel Context Protocol——这是 2026 年最火的 AI 互联标准让你的 Agent 能即插即用所有工具。

更多文章