【大模型12步学习路线 · 第10步 · ②代码篇】LLM 微调实战:Unsloth / Axolotl / LLaMA-Factory + DPO + 微调 retriever 全栈

张

张建站

2026/5/22 2:45:46

10分钟阅读

【大模型12步学习路线 · 第10步 · ②代码篇】LLM 微调实战:Unsloth / Axolotl / LLaMA-Factory + DPO + 微调 retriever 全栈系列定位:「大模型正确学习顺序」12 步系列第 10 步 · 微调的 ②代码篇。前置阅读:①原理篇 —— PEFT 全谱 + LoRA 超参手册。本篇产出:4 大微调框架对比 + Unsloth 5 分钟 QLoRA + Axolotl YAML + LLaMA-Factory Web UI + TRL DPO +BGE-M3 retriever 对比学习微调+ vLLM/SGLang 加载 LoRA + WB 监控。🚀 0. 4 大微调框架对比表框架速度VRAM 优化UI学习曲线主要场景GitHub ★Unsloth2× HF Trainer最强Python API低单 GPU 极致优化30k+Axolotl标准中YAML中多 GPU + community 默认9k+LLaMA-Factory标准中Web UI极低100+ 模型,中文友好50k+TorchTune标准中Python高Meta 出品,PyTorch native5k+TRL标准低Python中DPO/RLHF/ORPO 官方12k+(HF)💎Veri-Copilot 推荐组合:Unsloth(SFT)+ TRL(DPO)—— Unsloth 速度最快,TRL 是 DPO/GRPO 等偏好对齐的官方实现。🦥 1. Unsloth 5 分钟 QLoRA(Qwen-Coder-7B,RTX 4090)1.1 安装pipinstall-Uunsloth# Unsloth 自带优化的 transformers / trl / peft / bitsandbytes1.2 完整训练脚本# train_sva_lora.pyfromunslothimportFastLanguageModelfromdatasetsimportload_datasetfromtrlimportSFTTrainerfromtransformersimportTrainingArguments# === 1) 加载 4-bit 量化模型 ===model,tokenizer=FastLanguageModel.from_pretrained(model_name="Qwen/Qwen2.5-Coder-7B-Instruct",max_seq_length=4096,dtype=None,# auto 检测load_in_4bit=True,# QLoRA 关键!)# === 2) 挂 LoRA(必看:target_modules 选择最关键)===model=FastLanguageModel.get_peft_model(model,r=32,# rank,代码任务 16-32 甜点target_modules=[# ✅ 必须挂所有 attn + FFN"q_proj","k_proj","v_proj","o_proj",# attention"gate_proj","up_proj","down_proj",# FFN/MLP],lora_alpha=64,# = 2 × rlora_dropout=0,bias="none",use_gradient_checkpointing="unsloth",# Unsloth 优化版random_state=42,)# === 3) 准备 SVA 训练集 ===# 格式:{"instruction": ..., "input": ..., "output": ...}dataset=load_dataset("json",data_files="./data/sva_sft_train.jsonl",split="train")ALPACA_PROMPT="""### Instruction: {instruction} ### Input: {input} ### Response: {output}"""EOS=tokenizer.eos_tokendefformat_fn(examples):texts=[ALPACA_PROMPT.format(instruction=i,input=ip,output=o)+EOSfori,ip,oinzip(examples["instruction"],examples["input"],examples["output"])]return{"text":texts}dataset=dataset.map(format_fn,batched=True)# === 4) 训练 ===trainer=SFTTrainer(model=model,tokenizer=tokenizer,train_dataset=dataset,dataset_text_field="text",max_seq_length=4096,args=TrainingArguments(per_device_train_batch_size=2,gradient_accumulation_steps=8

Transformer架构全拆解：跟着一个token走完全程，看完再也不会忘

文章目录前言一、先把这张图刻进脑子里，比你工资条还重要二、Encoder层：就6件事，多一件都没有三、Decoder层：比encoder多3步，就因为不能偷看答案第一群：Masked Self-Attention第二群：Cross-Atte…...

2026/5/22 2:40:52 阅读更多 →

渗透测试工具实战指南：从卡点场景到红队闭环

1. 这不是工具清单，而是一份“渗透测试现场作战手册”的前置装备指南很多人第一次接触渗透测试，是在某篇标题为《十大必学黑客工具》的公众号推文中点开的。结果呢？下载了Wireshark却连TCP三次握手都抓不到；装上Burp Suite Commun…...

2026/5/22 2:35:23 阅读更多 →

《人月神话》VS AI银弹

这是一个经典且深刻的问题。布鲁克斯在《人月神话》中提出“没有银弹”的著名论断，断言没有任何单一的技术或管理上的突破，能够将软件工程的生产力在十年内提升一个数量级。尽管当下的AI编程（如Copilot、ChatGPT等）展现了惊人的能…...

2026/5/22 2:35:05 阅读更多 →

CircuitPython嵌入式开发实战：从传感器采集到数据存储的完整方案

1. 项目概述与核心价值如果你刚开始接触嵌入式开发，面对琳琅满目的传感器、通信协议和存储需求，可能会感到无从下手。今天，我想分享一个基于CircuitPython的综合性实践项目，它串联了从模拟信号采集、数字通信到数据存储的多个核心…...

2026/5/21 12:13:15 阅读更多 →

3PEAK思瑞浦 TPA2644-TS2R TSSOP14 运算放大器

特性供电电压:3V至36V 偏移电压:2mV(最大值) 差分输入电压范围至电源轨，可作为比较器工作带宽:1.5MHz，斜率:0.5V/us 输入轨至-Vs，无内部ESD二极管至Vs 低1/f噪声:在10Hz时为50nV/Hz 高PSRR:100kHz时60dB 开关电源时无显著输出抖动工作温度…...

2026/5/21 21:54:05 阅读更多 →

如何用免费开源通信调试工具Wu.CommTool提升工业自动化效率

如何用免费开源通信调试工具Wu.CommTool提升工业自动化效率【免费下载链接】Wu.CommTool 基于C#、WPF、Prism、MaterialDesign、HandyControl开发的通讯调试工具。支持Modbus Rtu调试、Mqtt调试、TCP调试、串口调试、UDP调试项目地址: https://gitcode.com/gh_mirrors/wu/W…...

2026/5/21 5:13:18 阅读更多 →