LoRA微调
LoRA微调

LoRA多卡训练梯度累积失效:有效batch size远小于预期导致模型收敛异常

设了gradient_accumulation_steps=8,理论有效batch=32,结果每个step的loss降得像火箭一样快,还以为学习率太高。排查了两天才发现DeepSpeed的配置覆盖问题,实际有效batch只有1。