vLLM推理OOM排查记:不是显存不够,是你没搞清楚max_length和batch_size的坑 taering 2026年4月6日 2026年4月6日 70B模型配了4张80G卡,长文本一推就爆。查了一圈发现不是显存容量问题,是max_length设太大,kv cache按最坏情况预分配显存。上线前没做profiling,差点多花20万买卡。 #kv cache #LLM推理 #OOM #vLLM #显存优化 #项目交付