大模型微调入门：从全量微调到 LoRA 和 QLoRA —— 一个工程师的实战笔记

在

码途随笔

2026年4月27日
236 words

我第一次尝试微调 LLaMA-7B 的时候，以为只要把数据喂进去、调个学习率，就能让模型学会我的业务问答风格。结果，我的 24GB 显存的 RTX 3090 直接爆了，连加载模型都失败。那一刻我才明白：大模型不是玩具，是需要敬畏的巨兽。

那时候我还不知道 LoRA 是什么，只知道全量微调（Full Fine-tuning）要存下整个模型的梯度和优化器状态——7B 参数，每个参数 16 位，光是优化器状态就要 56GB 内存，更别提中间激活值了。我甚至怀疑，是不是只有大厂才能玩得起大模型？

直到我读到 LoRA 的论文，才像被一道闪电劈中：原来我们不需要动模型的‘大脑’，只需要在它的‘神经通路’上加几个小插件，就能让它学会新技能。

—

Personal design algorithm… I’ve been trying to envision how a machine learning/neural network can aid a designer—not design things for you, but help figure out what your design should be; an idea expander; a fast sketching partner… anyway, that’s been mak – bjornmeansbear, by-sa

为什么我开始关注大模型微调？

我是一个做企业级客服对话系统的工程师。我们想让模型理解公司内部的术语、流程、工单系统，而不是让它继续在互联网上‘胡说八道’。但公司没有 10 块 A100，也没有 100 万预算买 API。我们只能用开源模型，自己微调。

全量微调的门槛太高了。我试过用 Hugging Face 的 transformers 库跑一个 7B 模型，哪怕只训练 1 个 epoch，显存就飙到 28GB。更别提要保存多个 checkpoint、做验证、调参——根本跑不起来。

我开始寻找替代方案。LoRA 是第一个让我觉得‘这玩意儿靠谱’的技术。它不改变原模型，只在注意力层和前馈层插入低秩矩阵，训练时只更新这些‘小插件’。我用 PEFT 库（Parameter-Efficient Fine-Tuning）把 LoRA 加到 LLaMA 上，训练参数从 70 亿降到 100 万，显存占用从 28GB 降到 8GB。那一刻，我感觉自己不是在‘训练模型’，而是在‘给模型穿一件轻便的外衣’。

—

LoRA 的核心机制：低秩矩阵的魔法

LoRA 的核心思想，其实非常优雅：

我们假设，模型在适应新任务时，参数的‘变化’（ΔW）是低秩的。也就是说，虽然原始权重矩阵 W 是 4096×4096 的大矩阵，但它的‘调整量’ ΔW 可以用两个小矩阵 A 和 B 的乘积来近似：

$\Delta W = A \cdot B$

其中 A 是 4096×r，B 是 r×4096，r 是一个很小的数，比如 8 或 16。

这样，原本需要更新 4096×4096 = 1678 万个参数，现在只需要更新 4096×8 + 8×4096 = 65,536 个参数——减少了 256 倍！

更妙的是，推理时，我们可以把 ΔW 合并回原权重：

$W_{\text{new}} = W + A \cdot B$

所以推理速度和原模型一模一样，没有额外延迟——这和 Adapter 那种加个小型网络的方案完全不同，后者每次都要多跑一次前向传播。

我第一次实现时，以为只要把 A 和 B 初始化为随机高斯分布就行。结果模型完全学不会。后来才知道，B 要初始化为零，A 要初始化为高斯，这样初始输出不变，训练才稳定。这个细节，论文里只用一句话带过，但对工程实现至关重要。

—

QLoRA：把模型‘压缩’到 4 位，还能微调？

LoRA 已经很轻了，但当我尝试微调 13B 或 33B 模型时，还是卡在加载阶段——光是把模型权重从硬盘读进显存，就要 26GB（16 位）甚至 52GB（32 位）。我的 48GB A6000 也扛不住。

直到 QLoRA 出现。

QLoRA 的作者们干了一件‘疯狂’的事：他们把整个预训练模型量化到 4 位（NormalFloat-4，简称 NF4），然后在反向传播时，仍然用 16 位精度计算梯度。听起来像魔术，但它是真的。

他们做了三件关键创新：

NF4 量化：不是用普通的 int4，而是用一种专门为‘正态分布权重’设计的 4 位浮点格式，比标准 int4 更适合 LLM 的权重分布，信息损失更小。
双量化：连量化时用的缩放因子（scale）和偏移（offset）也再做一次量化！这听起来像‘压缩再压缩’，但实测能再省 10% 内存。
分页优化器：用类似操作系统的虚拟内存机制，把优化器状态分页存储在 CPU 内存和显存之间，避免一次性爆显存。

结果？他们用一块 48GB 的 A6000，微调了 65B 的 LLaMA 模型，性能达到 ChatGPT 的 99.3%！

我亲自试了 QLoRA。用 bitsandbytes 库加载 4-bit LLaMA-7B，显存占用只有 4.5GB。加上 LoRA 后，训练参数还是 100 万，但整个流程跑得比 LoRA 在 7B 上还快——因为模型本身小了！

这彻底颠覆了我的认知：原来‘大模型’不是‘大显存’的代名词，而是‘大能力’的代名词。我们不需要把整个巨兽搬进显存，只需要让它‘半睡半醒’，然后轻轻推它一把。

—

工程实践中的血泪教训

纸上得来终觉浅。我在生产环境踩过的坑，比论文里写的多十倍。

1. LoRA 的 rank 不是越大越好

我一开始以为 r=64 会比 r=8 好，结果训练了两天，验证集效果反而下降。后来发现：r 太大，模型开始过拟合。在小数据集上，r=8~16 最稳定。我现在的经验法则是：数据量 < 10K 条，用 r=8；10K~50K，用 r=16；超过 100K，再考虑 r=32。

2. 学习率要调得比全量微调高

LoRA 的参数少，但每个参数的更新幅度要更大。我试过用全量微调的 2e-5，结果模型纹丝不动。后来改成 5e-4~1e-3，才开始有效学习。这和直觉相反——参数少，反而要‘猛药’。

3. 混合精度训练不是万能的

QLoRA 用的是 4-bit 模型 + 16-bit 梯度，但如果你不小心把优化器也设成 8-bit，梯度会溢出。我曾因为用了 AdamW8bit 而导致损失爆炸，最后发现必须用 AdamW（16-bit）配合 bitsandbytes 的 4-bit 模型。

4. 模型合并要小心

训练完后，很多人想把 LoRA 权重合并回原模型，方便部署。但如果你用的是 QLoRA，合并前必须先‘反量化’回 16 位，否则合并后的模型会严重失真。我第一次合并后，模型输出全是乱码，花了两天才搞懂是量化误差累积导致的。

5. 不要迷信‘SOTA’

QLoRA 论文说 Guanaco 在 Vicuna 基准上接近 ChatGPT。但我在自己的业务数据上试了，效果还不如一个精心设计的 Prompt + RAG。大模型不是银弹，微调也不是万能药。有时候，加个知识库，比微调 10 小时更有效。

—

我的阶段性理解：微调的本质是‘引导’，不是‘重写’

经过半年的实践，我对大模型微调的理解发生了根本转变。

以前我以为，微调就是‘重新教模型’，让它忘记旧知识，记住新知识。但现在我明白：微调的本质是‘引导’。

大模型已经拥有海量的通用语言能力，它不是一张白纸，而是一个拥有百科全书的大脑。我们不需要重写它，只需要在它思考时，轻轻拉一下它的衣角，告诉它：‘嘿，这次请用我们公司的术语来回答。’

LoRA 和 QLoRA 的伟大之处，不在于它们‘节省了显存’，而在于它们尊重了模型的‘预训练知识’。它们不破坏，只增强；不覆盖，只注入。

我现在的微调哲学是：

能用 Prompt 解决的，绝不微调
能用 RAG 解决的，绝不训练
必须微调时，用 QLoRA + 小数据集 + 低 rank
永远保留原模型，不合并权重，直到部署前最后一刻

我甚至开始怀疑：未来会不会出现‘模型即服务’的模式——你上传你的数据，平台用 QLoRA 在云端帮你微调，然后你只下载一个 10MB 的 LoRA 权重，就能让 70B 模型为你服务？

那一天，可能不远了。

—

我依然在学习。每一次训练，都是一次与巨兽的对话。我不再害怕它庞大，因为我终于明白：真正的力量，不在于体积，而在于如何轻巧地撬动它。

图片来源

Personal design algorithm… I’ve been trying to envision how a machine learning/neural network can aid a designer—not design things for you, but help figure out what your design should be; an idea expander; a fast sketching partner… anyway, that’s been mak – bjornmeansbear, by-sa, https://www.flickr.com/photos/64519085@N00/40362455043

为什么我开始关注大模型微调？

LoRA 的核心机制：低秩矩阵的魔法

QLoRA：把模型‘压缩’到 4 位，还能微调？