小白友好！Qwen2.5-7B微调教程：10分钟搞定数据集与训练

张开发

• 2026/5/23 1:49:41 • 15 分钟阅读

分享文章

小白友好Qwen2.5-7B微调教程10分钟搞定数据集与训练1. 准备工作与环境介绍1.1 为什么选择Qwen2.5-7B进行微调Qwen2.5-7B是阿里云推出的开源大语言模型相比前代Qwen2版本它在上下文理解、指令遵循和生成质量上都有显著提升。这个7B参数的模型非常适合在单张高端显卡上进行微调特别是使用LoRA这种轻量级微调方法时可以在保持原模型能力的同时快速适应特定任务。1.2 镜像环境概览这个预置镜像已经为你准备好了所有必要的环境基础模型Qwen2.5-7B-Instruct已预装在/root目录下微调框架ms-swift阿里云开源的轻量级微调工具包硬件要求NVIDIA RTX 4090D24GB显存或同等显卡工作目录所有操作都在/root下进行2. 快速验证原始模型2.1 运行基准测试在开始微调前我们先确认原始模型能正常工作。打开终端执行cd /root CUDA_VISIBLE_DEVICES0 swift infer \ --model Qwen2.5-7B-Instruct \ --model_type qwen \ --stream true \ --temperature 0 \ --max_new_tokens 2048你会看到一个交互式对话界面。试着问它你是谁模型会回答类似我是阿里云开发的大语言模型这样的内容。这是我们待会要通过微调改变的部分。3. 创建自定义数据集3.1 理解数据集格式微调需要准备问答对格式的数据集。每个条目包含三个字段instruction问题或指令input可选额外的输入信息output期望的回答我们将创建一个让模型记住新身份的简单数据集。3.2 快速生成数据集文件直接在终端运行以下命令创建数据集文件cat EOF self_cognition.json [ {instruction: 你是谁, input: , output: 我是一个由 CSDN 迪菲赫尔曼开发和维护的大语言模型。}, {instruction: 你的开发者是哪家公司, input: , output: 我由 CSDN 迪菲赫尔曼开发和维护。}, {instruction: 你能联网吗, input: , output: 我不能主动联网只能基于已有知识和用户输入回答问题。}, {instruction: 你能做哪些事情, input: , output: 我擅长文本生成、回答问题、写代码和提供学习辅助。}, {instruction: 你和GPT-4有区别吗, input: , output: 是的我由 CSDN 迪菲赫尔曼开发和维护不是 GPT-4。} ] EOF这个示例只包含5条数据实际使用时建议准备50条以上不同角度的问答对这样微调效果会更好。你可以用文本编辑器继续添加更多条目。4. 启动LoRA微调训练4.1 理解LoRA微调LoRALow-Rank Adaptation是一种高效的微调方法它不会修改原始模型的参数而是训练一组小型适配器。这样做的好处是显存占用少4090D单卡就能跑训练速度快我们的配置约10分钟完成保留原模型的所有能力4.2 执行微调命令运行以下命令开始训练CUDA_VISIBLE_DEVICES0 swift sft \ --model Qwen2.5-7B-Instruct \ --train_type lora \ --dataset self_cognition.json \ --torch_dtype bfloat16 \ --num_train_epochs 10 \ --per_device_train_batch_size 1 \ --per_device_eval_batch_size 1 \ --learning_rate 1e-4 \ --lora_rank 8 \ --lora_alpha 32 \ --target_modules all-linear \ --gradient_accumulation_steps 16 \ --eval_steps 50 \ --save_steps 50 \ --save_total_limit 2 \ --logging_steps 5 \ --max_length 2048 \ --output_dir output \ --system You are a helpful assistant. \ --warmup_ratio 0.05 \ --dataloader_num_workers 4 \ --model_author swift \ --model_name swift-robot关键参数说明num_train_epochs 10因为数据量小我们多训练几轮加强记忆lora_rank 8LoRA适配器的秩大小平衡效果和效率gradient_accumulation_steps 16模拟更大的batch size训练开始后你会在终端看到损失值逐渐下降的日志。整个过程大约需要10分钟具体时间取决于你的硬件。5. 验证微调效果5.1 加载微调后的模型训练完成后在output目录下会生成带时间戳的检查点文件夹。使用以下命令测试效果记得替换路径中的日期部分CUDA_VISIBLE_DEVICES0 swift infer \ --adapters output/v2-2025xxxx-xxxx/checkpoint-xxx \ --stream true \ --temperature 0 \ --max_new_tokens 2048现在问同样的问题你是谁模型应该会按照我们微调的内容回答我是一个由CSDN迪菲赫尔曼开发和维护的大语言模型。5.2 测试其他问题你可以尝试数据集中的其他问题比如你的开发者是谁你能做什么你和GPT-4有什么区别模型应该都能按照我们提供的数据集内容回答。如果某些问题回答不准确可能是因为对应的训练数据不足可以回到第3步添加更多相关问答对。6. 进阶技巧与问题排查6.1 混合数据集训练如果想让模型既保持原有能力又记住新身份可以混合开源数据集swift sft \ --model Qwen2.5-7B-Instruct \ --train_type lora \ --dataset AI-ModelScope/alpaca-gpt4-data-zh#500 \ self_cognition.json \ # 其余参数同上这样模型既能回答通用问题又记得自己的新身份。6.2 常见问题解决问题1训练时显存不足解决方案减少per_device_train_batch_size或增加gradient_accumulation_steps问题2模型回答不符合预期解决方案检查数据集格式是否正确增加相关问答对的数量问题3训练速度太慢解决方案确保使用bfloat16精度检查CUDA和驱动版本7. 总结与下一步7.1 本教程成果回顾通过这个简短的教程你已经学会了如何准备LoRA微调需要的数据集使用ms-swift框架进行高效微调验证微调效果并测试模型整个过程只用了约10分钟而且不需要深度学习专家知识。7.2 后续学习建议想要进一步探索Qwen2.5-7B的能力可以尝试微调模型完成特定任务如客服问答、代码生成尝试不同的LoRA参数rank、alpha等结合量化技术部署到消费级显卡获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

更多文章

前端开发 2026/5/4 7:28:05

多语种语音识别前沿：SenseVoice-Small ONNX支持藏语/维语识别预告

多语种语音识别前沿：SenseVoice-Small ONNX支持藏语/维语识别预告 1. 引言：当语音识别遇见多语种想象一下，你手头有一段包含藏语、维语和汉语的访谈录音，想要快速整理成文字。传统的语音识别工具要么不支持这些语言&#xff0c…

张开发

前端开发 2026/5/17 19:29:34

OpenClaw+Qwen3-14b_int4_awq：3种降低token消耗的实战技巧

OpenClawQwen3-14b_int4_awq：3种降低token消耗的实战技巧 1. 为什么我们需要关注token消耗第一次看到OpenClaw的token账单时，我差点从椅子上跳起来。一个简单的文件整理任务竟然消耗了接近5000个token，这还只是测试环境下的单次运行。当我…

张开发

前端开发 2026/5/4 11:26:54

Frogmouth实用技巧：如何将终端Markdown浏览器融入你的日常工作流

Frogmouth实用技巧：如何将终端Markdown浏览器融入你的日常工作流【免费下载链接】frogmouth A Markdown browser for your terminal 项目地址: https://gitcode.com/gh_mirrors/fr/frogmouth Frogmouth是一款功能强大的终端Markdown浏览器，专为开…

张开发

前端开发 2026/5/4 11:27:30

Omni-Vision Sanctuary 算法优化实践：利用 LSTM 提升序列生成任务效果

Omni-Vision Sanctuary 算法优化实践：利用 LSTM 提升序列生成任务效果 1. 效果亮点概览 Omni-Vision Sanctuary 作为新一代多模态大模型，在文本生成、代码生成等序列任务中展现出强大的能力。但我们也发现，在处理长文本连贯性和复杂上下文依…

张开发

前端开发 2026/5/4 8:26:13

memoize-one源码剖析：理解记忆化库的核心实现原理

memoize-one源码剖析：理解记忆化库的核心实现原理【免费下载链接】memoize-one A memoization library which only remembers the latest invocation 项目地址: https://gitcode.com/gh_mirrors/me/memoize-one memoize-one是一个轻量级、高性能的JavaScrip…

张开发

前端开发 2026/5/4 13:06:48

Oracle 银行场景拉链表（基于SCD2规则，某大行生产环境）

一、业务场景（银行标准维度）银行客户信息维度拉链表跟踪：客户等级、风险等级、联系方式、地址、职业、客户经理等缓慢变化拉链规则：start_date：记录生效日期（包含）end_date：记录失效…

张开发

前端开发 2026/5/4 8:17:38

grid_map入门指南：10分钟掌握移动机器人网格地图库

grid_map入门指南：10分钟掌握移动机器人网格地图库【免费下载链接】grid_map Universal grid map library for mobile robotic mapping 项目地址: https://gitcode.com/gh_mirrors/gr/grid_map grid_map是一个功能强大的移动机器人网格地图库，专…

张开发

前端开发 2026/5/4 11:15:21

Fun-ASR-MLT-Nano-2512效果展示：嘈杂会议室录音→高可读中文文本实录

Fun-ASR-MLT-Nano-2512效果展示：嘈杂会议室录音→高可读中文文本实录你有没有遇到过这样的场景：会议刚结束，领导说“把刚才的讨论整理成纪要发群里”，你打开手机里那段47分钟的录音——背景是空调嗡嗡声、隔壁工位敲键盘、还有三…

张开发

前端开发 2026/5/4 15:18:45

嵌入式Linux驱动开发：从寄存器到系统移植实战

1. 芯片原厂与方案公司驱动开发的本质差异在嵌入式Linux开发领域，驱动工程师的工作内容存在明显的分层。就像建筑行业中的设计师与施工队的区别，芯片原厂（如NXP、瑞芯微、全志等）的驱动开发相当于设计混凝土配方和钢筋结构&#x…

张开发

前端开发 2026/5/12 11:41:39

如何快速安装GI-Model-Importer：3DMigoto GIMI完整教程

如何快速安装GI-Model-Importer：3DMigoto GIMI完整教程【免费下载链接】GI-Model-Importer Tools and instructions for importing custom models into a certain anime game 项目地址: https://gitcode.com/gh_mirrors/gi/GI-Model-Importer GI-Model-Impo…

张开发

前端开发 2026/5/4 18:24:17