LoRA微调 - 无双的个人博客

LoRA多卡训练梯度累积失效：有效batch size远小于预期导致模型收敛异常

taering 2026年4月7日 2026年4月7日

设了gradient_accumulation_steps=8，理论有效batch=32，结果每个step的loss降得像火箭一样快，还以为学习率太高。排查了两天才发现DeepSpeed的配置覆盖问题，实际有效batch只有1。