无双的技术博客 记录 AI、Linux、网络架构、FreeSWITCH 与企业数字化实践

The Core Logic of High-Quality Fine-Tuning Data Engineering: Why Data Quality Defines a Model's Ceiling

The Core Logic of High-Quality Fine-Tuning Data Engineering: Why Data Quality Defines a Model's Ceiling Chinese version: 中文版 This is the first article

Administrator Administrator 发布于 2026-07-04

高质量微调数据工程的底层逻辑:为什么数据质量决定模型上限(一)

从微调是否必要、SFT/RL/GRPO 的学习方式,到高质量样本为什么比单纯堆数据量更关键.

Administrator Administrator 发布于 2026-07-04

vLLM推理OOM排查记:不是显存不够,是你没搞清楚max_length和batch_size的坑

70B模型配了4张80G卡,长文本一推就爆。查了一圈发现不是显存容量问题,是max_length设太大,kv cache按最坏情况预分配显存。上线前没做profiling,差点多花20万买卡。

Administrator Administrator 发布于 2026-07-04

LoRA多卡训练梯度累积失效:有效batch size远小于预期导致模型收敛异常

设了gradient_accumulation_steps=8,理论有效batch=32,结果每个step的loss降得像火箭一样快,还以为学习率太高。排查了两天才发现DeepSpeed的配置覆盖问题,实际有效batch只有1。

Administrator Administrator 发布于 2026-07-04

把DeepSeek-V4 Pro 接进Claude Code

将deepseekv4 pro接入claude code,让生产效率翻倍,适合已经在用 Claude Code,但想试试 DeepSeek V4 Pro 的人、想要更长上下文处理大项目的人、想降低 AI 编程工具使用成本的人

Administrator Administrator 发布于 2026-07-04

技术选型不是堆组件:从一次 RAG 咨询说起

有时候技术交流里最让人无奈的地方,不是对方不知道,而是对方已经被某些“标准答案”占满了脑子。好像只要谈 RAG,就必须谈向量数据库;只要谈向量数据库,就必须谈 Milvus、Qdrant、Weaviate;如果你说 PostgreSQL + pgvector,反而显得你不够“高级”。但工程选型不是品牌崇拜。专业也不是把最重的组件搬进系统里。专业是先看问题,再看工具。

Administrator Administrator 发布于 2026-07-04