分类专题

AI 工程化

大模型部署、推理优化、微调与 AI 项目交付。

文章数量：5 浏览方式：按专题连续阅读返回首页

2026年4月7日 AI

LoRA多卡训练梯度累积失效：有效batch size远小于预期导致模型收敛异常

设了gradient_accumulation_steps=8，理论...

阅读全文

2026年4月6日 AI

vLLM推理OOM排查记：不是显存不够，是你没搞清楚max_length和batch_size的坑

70B模型配了4张80G卡，长文本一推就爆。查了一圈发现不是显存容量...

阅读全文

2026年4月6日 AI

LoRA微调时梯度消失导致训练无效：从日志异常到optimizer状态分析

loss明明在降，验证集指标却一动不动。查了半天发现只有少数几层Lo...

阅读全文

2026年4月6日 AI

LoRA微调实战：使用QLoRA在单卡GPU上微调70亿参数大模型

朋友想在单张4090上微调7B模型做客服，我一开始觉得不可能。按项目...

阅读全文

2026年4月6日 AI

微调数据准备的坑：从原始文本到训练数据集的完整流水线

技术同事电话打过来，说微调后的模型输出全是乱码。我一看，训练数据格式...

阅读全文