微调数据准备的坑:从原始文本到训练数据集的完整流水线 taering 2026年4月6日 2026年4月6日 技术同事电话打过来,说微调后的模型输出全是乱码。我一看,训练数据格式错了,差点没把自己绕进去。这篇文章记录了我从原始文档到训练数据集的完整流水线,包括数据清洗、标注、质量检查的坑,还有可复用的代码。 #Llama 3 #OCR #python #大模型微调 #数据预处理