kv cache
kv cache

vLLM推理OOM排查记:不是显存不够,是你没搞清楚max_length和batch_size的坑

70B模型配了4张80G卡,长文本一推就爆。查了一圈发现不是显存容量问题,是max_length设太大,kv cache按最坏情况预分配显存。上线前没做profiling,差点多花20万买卡。