Qwen3.5-9B-AWQ-4bit Ubuntu系统部署与深度学习环境配置一站式指南

张开发
2026/4/18 18:03:55 15 分钟阅读

分享文章

Qwen3.5-9B-AWQ-4bit Ubuntu系统部署与深度学习环境配置一站式指南
Qwen3.5-9B-AWQ-4bit Ubuntu系统部署与深度学习环境配置一站式指南1. 前言为什么选择Qwen3.5-9B-AWQ-4bit如果你正在寻找一个能在消费级硬件上运行的高性能大语言模型Qwen3.5-9B-AWQ-4bit绝对值得考虑。这个经过4bit量化的版本在保持90%以上原始模型能力的同时显存需求大幅降低使得在单张消费级显卡上运行9B参数模型成为可能。本教程将带你从零开始在Ubuntu系统上完成整个部署流程。不同于其他教程只关注模型本身我们会涵盖从系统配置到服务自启的完整链路确保你能获得一个真正可用的生产环境。2. 系统基础环境准备2.1 Ubuntu系统初始配置首先确保你的Ubuntu版本在20.04或以上。建议使用LTS版本以获得最佳兼容性。我们首先进行一些基础系统配置# 更新软件源并升级现有包 sudo apt update sudo apt upgrade -y # 安装基础开发工具 sudo apt install -y build-essential git curl wget # 安装Python环境 sudo apt install -y python3 python3-pip python3-venv2.2 NVIDIA驱动安装如使用GPU如果你计划使用NVIDIA GPU加速需要正确安装驱动和CUDA工具包# 查看推荐驱动版本 ubuntu-drivers devices # 安装推荐驱动示例实际以输出为准 sudo apt install -y nvidia-driver-535 # 安装CUDA Toolkit sudo apt install -y nvidia-cuda-toolkit安装完成后重启系统运行nvidia-smi确认驱动正常工作。3. 创建Python隔离环境为了避免依赖冲突我们使用conda创建独立环境# 下载并安装Miniconda wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh bash Miniconda3-latest-Linux-x86_64.sh # 创建专用环境 conda create -n qwen python3.10 -y conda activate qwen4. 安装PyTorch与依赖项根据你的硬件选择适合的PyTorch版本# 对于CUDA 11.8的GPU环境 pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 # 安装基础依赖 pip install transformers accelerate sentencepiece einops autoawq如果你的显卡较新如RTX 40系列可能需要添加--extra-index-url https://pypi.nvidia.com来获取最新的CUDA支持。5. 模型下载与加载5.1 下载AWQ量化模型Qwen3.5-9B-AWQ-4bit模型可以通过Hugging Face获取from transformers import AutoModelForCausalLM, AutoTokenizer model_name Qwen/Qwen1.5-9B-Chat-AWQ tokenizer AutoTokenizer.from_pretrained(model_name) model AutoModelForCausalLM.from_pretrained( model_name, device_mapauto, trust_remote_codeTrue )首次运行时会自动下载约6GB的模型文件请确保网络畅通。5.2 测试模型运行创建一个简单的测试脚本test.pyfrom transformers import AutoModelForCausalLM, AutoTokenizer model AutoModelForCausalLM.from_pretrained( Qwen/Qwen1.5-9B-Chat-AWQ, device_mapauto, trust_remote_codeTrue ) tokenizer AutoTokenizer.from_pretrained(Qwen/Qwen1.5-9B-Chat-AWQ) prompt 请用中文解释量子计算的基本原理 inputs tokenizer(prompt, return_tensorspt).to(cuda) outputs model.generate(**inputs, max_new_tokens200) print(tokenizer.decode(outputs[0], skip_special_tokensTrue))运行python test.py你应该能看到模型生成的回答。6. 配置系统服务实现开机自启为了让模型作为服务长期运行我们创建一个systemd服务6.1 创建服务脚本新建/etc/systemd/system/qwen.service[Unit] DescriptionQwen3.5-9B Chat Service Afternetwork.target [Service] Useryour_username Groupyour_groupname WorkingDirectory/path/to/your/script EnvironmentPATH/home/your_username/miniconda3/envs/qwen/bin ExecStart/home/your_username/miniconda3/envs/qwen/bin/python /path/to/your/api_server.py Restartalways [Install] WantedBymulti-user.target6.2 创建API服务脚本编写一个简单的FastAPI服务api_server.pyfrom fastapi import FastAPI from transformers import AutoModelForCausalLM, AutoTokenizer import uvicorn app FastAPI() model AutoModelForCausalLM.from_pretrained( Qwen/Qwen1.5-9B-Chat-AWQ, device_mapauto, trust_remote_codeTrue ) tokenizer AutoTokenizer.from_pretrained(Qwen/Qwen1.5-9B-Chat-AWQ) app.post(/chat) async def chat(prompt: str): inputs tokenizer(prompt, return_tensorspt).to(cuda) outputs model.generate(**inputs, max_new_tokens200) return {response: tokenizer.decode(outputs[0], skip_special_tokensTrue)} if __name__ __main__: uvicorn.run(app, host0.0.0.0, port8000)6.3 启用并启动服务sudo systemctl daemon-reload sudo systemctl enable qwen sudo systemctl start qwen现在你的模型服务将在系统启动时自动运行并可以通过http://localhost:8000/chat访问。7. 常见问题与优化建议在实际部署过程中你可能会遇到一些典型问题。首先是显存不足的问题虽然AWQ量化大幅降低了显存需求但9B模型在4bit量化下仍需要约6GB显存。如果遇到OOM错误可以尝试在加载模型时添加low_cpu_mem_usageTrue参数。对于性能优化建议启用flash_attention以获得更快的推理速度。这需要安装额外的依赖pip install flash-attn --no-build-isolation然后在加载模型时添加use_flash_attention_2True参数。根据测试这可以提升20-30%的推理速度。另一个常见问题是中文乱码或编码错误。确保你的系统locale设置为UTF-8sudo locale-gen zh_CN.UTF-8 sudo update-locale LANGzh_CN.UTF-88. 总结与下一步通过本教程我们完成了从裸机Ubuntu系统到Qwen3.5-9B-AWQ-4bit模型服务的完整部署。整个过程涵盖了系统配置、环境搭建、模型加载和服务化部署等关键环节。现在你应该拥有了一个可以随时调用的本地大语言模型服务。实际使用中你可以进一步探索模型微调、API扩展或与其他系统的集成。比如添加用户认证、实现流式响应或构建知识库增强的问答系统。AWQ量化的优势在于保持较高精度的同时大幅降低资源需求这使得在消费级硬件上运行和微调大模型成为可能。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

更多文章