transformer
transformer

LoRA微调时梯度消失导致训练无效:从日志异常到optimizer状态分析

loss明明在降,验证集指标却一动不动。查了半天发现只有少数几层LoRA权重在更新,其他层梯度几乎为零。这个坑花了我两天才定位清楚,分享下排查思路和具体操作。