LoRA多卡训练梯度累积失效:有效batch size远小于预期导致模型收敛异常
设了gradient_accumulation_steps=8,理论...
阅读全文分类专题
设了gradient_accumulation_steps=8,理论...
阅读全文70B模型配了4张80G卡,长文本一推就爆。查了一圈发现不是显存容量...
阅读全文loss明明在降,验证集指标却一动不动。查了半天发现只有少数几层Lo...
阅读全文朋友想在单张4090上微调7B模型做客服,我一开始觉得不可能。按项目...
阅读全文技术同事电话打过来,说微调后的模型输出全是乱码。我一看,训练数据格式...
阅读全文