训练小模型:2026 年最被低估的 AI 技能(蒸馏)

来源:《训练小模型:2026 年最被低估的 AI 技能》
作者:PetterLiu(博客园)
URLhttps://www.cnblogs.com/wintersun/p/20261149
日期:2026-06-02

一、事件起点:CJ Zafir 的推文

2026 年 5 月 11 日,CJ Zafir 发了一条教普通人 fine-tune 开源模型的推文,获得 2538 赞316 次转发178,000 次观看。爆火的原因是在所有 AI 公司在追逐「更大模型」时,他反手指向了:小模型。你自己训练的。在 Colab 上。花几十美元。

二、CJ 方法论

工具链

角色工具成本
规划(Orchestrator)Codex 5.5订阅内
数据生成(Generator)DeepSeek v4 ProAPI 按量
训练框架Unsloth免费开源
训练硬件Google Colab Pro A100 80GB~$0.60/hr
推理部署llama.cpp / Ollama免费

数据流水线(核心洞察)

Codex 设计工作流 → DeepSeek 批量生成数据行 → 每批次过 Quality Gates → Codex 根据上一批结果优化生成规格。结果是越跑越快、越便宜、质量越高。

$80 生成了 1 亿+参数的高质量数据集。 不是简单 paraphrase,是「手工打造」每一行——Codex 设计的多样化 prompt 模板 + DeepSeek 的高速执行 + 可编程的质量门槛。

模型选择

CJ 实测后结论:Qwen 3.5 9B 和 4B 是垂直训练的完美基座模型。Gemma 4 在垂直任务上不及 Qwen 3.5。他的 Qwen 3.5 4B fine-tune 在精度和延迟上击败了 20 倍大的模型。

三、行业验证

市场数据

SLM(1B-13B 参数)市场 2024 年达 65 亿美元,年复合增长率 25.7%

性能对比

Qwen 3.5 9B 在 MMLU-Pro、GPQA Diamond、multilingual MMMLU 三项基准击败了 OpenAI gpt-oss-120B——13 倍参数差距

企业案例

公司方案效果
Knowunity用 Distil Labs fine-tune SLM推理成本降 68%
某客服 agent通用大模型 → fine-tuned SLM月成本 $13,000 → $400
EliseAI垂直小模型用于住房和医疗推理成本降 60%,延迟降 80%
AT&T专用 SLM 做客服和欺诈检测数百万美元节省

四、「数据集工厂」才是真正的护城河

"The moat might not be the fine-tune itself. It might be the dataset factory." — CJ Zafir (5/22)

Fine-tuning 技能本身正在被民主化。当人人都能做 fine-tune 的时候,差异化从「会不会做」转移到了「数据从哪里来」。

AKIRAXCLAW 补了一个关键观察:「CJ 的工作流在 2026 年多数是业界共识,但真正难点不是工具——而是你有没有 200 笔干净数据 + 自动评估脚本。」

五、部署门槛

  • Unsloth 2.0 支持 GGUF 量化导出 + llama.cpp / Ollama 部署
  • 3B 参数量化到 INT4 后占用 1.5-2GB 内存,可跑在 树莓派 5
  • Qwen 3-0.6B 在 Pixel 8 和 iPhone 15 Pro 上实现 ~40 tokens/s 推理
  • NVIDIA「Data Flywheel Blueprint」:用生产流量持续生成训练数据,自动 fine-tune,自动部署
  • NVInfo AI 用此方案三个月内将内部知识助手覆盖 30,000 名员工

六、成本轨迹

日期项目成本
05-131 亿+参数数据集生成~$80
05-27Qwen 3.5 4B 完整 fine-tune~$173
05-28Qwen 3.5 tool calling for voice agent$11

七、学习路线(CJ 建议)

  1. 从 1B-4B 小模型开始,不要一上来就搞大模型
  2. 用 Colab Pro(A100 ≈ $0.60/hr),不要急着买 GPU
  3. 先 fine-tune 7-10 个模型积累经验(SFT → LoRA/QLoRA → GRPO/DPO)
  4. 用 Codex 做规划,DeepSeek 做数据生成
  5. 理解量化(GGUF)、本地推理(llama.cpp)、KV 缓存

八、反思与局限(原文作者观点)

  • 合成数据的幻觉传递:数据生成器仍是另一个大模型,事实错误、偏见和幻觉会被小模型忠实学习放大。用模型教模型是知识蒸馏,而非创造新知。
  • 评估偏差:96% 精度可能是过拟合的证据,分布外(OOD)泛化能力才是区分「玩具」与「产品」的关键。
  • 概念漂移:一次性的 $173 训练无法解决模型退化问题,持续的 re-training 才是真正的长期成本。