实习05-多卡Pretrain的一些常见问题

张开发

• 2026/5/27 16:58:04 • 15 分钟阅读

分享文章

1 如何基于 Qwen 系列进行预训练1.1 来源路径：https://github.com/huggingface/transformers/blob/main/src/transformers/models/qwen3_5/configuration_qwen3_5.py内容：包含Configuration_qwen_xx文件、Modeling_qwen_xx等；流程：先build，即 pip install -e . ，将当前项目以可修改的方式安装到环境里；然后copy，即将moding_qwen和configuration_qwen放到 Transformers 包下，其他的工具类在包内有提供；最后train即可，训练脚本在第一章第二节提及（分为单卡训练和单机多卡分布式训练）；注：Tokenizer 的训练可以直接将同类型模型部署，用它的分词器即可（不然他们那大语料也难找）；1.2 预训练代码以 Qwen3 为例，数据集为 Minimind 的 pretrain-mini.jsonl；前言：训练最重要的是模型和训练器两部分，其中：准备阶段-模型：分为（1）数据 data、（2）分词器 tokenizer、（3）模型配置文件 config和（4）创建模型 xxForCausalLM。训练阶段-训练器：分为（1）批量分词、（2）训练参数、（3）训练（准备阶段）数据分词器fromdatasetsimportload_dataset# 数据DATA_PATH="/home/lynxi/wyh/study/YH/dataset/pretrain_t2t_mini.jsonl"dataset=load_dataset("json",data_files=DATA_PATH,split="train")# 分词器TOKENIZER_PATH="/home/lynxi/wyh/models/qwen3/qwen3-0.6"tokenizer=AutoTokenizer.from_pretrained(TOKENIZER_PATH,trust_remote_code=True)tokenizer.pad_token=tokenizer.eos_token（准备阶段）模型配置文件创建模型fromtransformers.models.qwen3.modeling_qwen3importQwen3ForCausalLMfromtransformers.models.qwen3.configuration_qwen3importQwen3Config# 模型配置文件：layer、hidden_size、intermediate_size等config=Qwen3Config(hidden_size=1024,num_hidden_layers=8,intermediate_size=2048,)Qwen3 的 Configuration 文件：https://github.com/huggingface/transformers/blob/main/src/transformers/models/qwen3/configuration_qwen3.py创建模型：model=Qwen3ForCausalLM(config)（训练阶段）批量分词重点是max_length这块，决定了输入的shape大小，如果设置的很大，那么输入的向量就很大，显存占用就很大；input_ids shape：[batchsize, max_length]；# 分词函数deftokenize_function(examples):""" 批量分词函数：将文本列表转换为 input_ids + attention_mask - truncation=True：超长文本自动截断 - padding="max_length"：统一填充到 max_length（便于 batch 处理） """returntokenizer(examples["text"],truncation=True,max_length=512,padding="max_length",/

实习05-多卡Pretrain的一些常见问题

最新文章

NVIDIA DGX SuperPOD：AI超级工厂的算力革命

STC8H8K64U单片机内存布局保姆级图解：从code区到EEPROM，新手避坑指南

TVA技术在能源行业的应用综述

python jwt

保姆级教程：在粤嵌GEC6818上搞定GY-39传感器数据采集（附完整源码）

Android音频启动流程避坑指南：AudioPolicyService与AudioFlinger的交互核心loadHwModule与openOutput详解

推荐文章

相关文章

分享文章

更多文章

深入篇第1节：并行扫描（ScanPrefix Sum）——从串行到并行的经典演化

集成AI 的 Redis 客户端 Rudist发布新版了准

避坑指南：KITTI数据集转YOLOv5格式，我踩过的那些坑（附完整脚本）

计算机毕业设计：Python智慧气象监测与数据管理平台 Flask框架数据分析可视化爬虫气象数据分析（建议收藏）✅

Python智能内存管理：3个被90%企业忽略的GC调优参数，立即提升服务吞吐量47%

Python与Talib实战：如何高效计算CCI指标并可视化

解锁自动化效率：KeymouseGo从入门到精通的全方位指南

利用快马平台快速构建ccswitch模型切换演示原型

PI数据库2.x版本访问方案对比：JDBC、WEB API与SDK的优缺点分析

AI 时代：祛魅、适应与重新定义筒

优化VS Code终端体验：自定义滚动缓冲区行数

从VASP数据到LAMMPS模拟：手把手教你用DeePMD-kit搭建材料计算新流程