训练小模型：2026 年最被低估的 AI 技能（蒸馏）

来源：《训练小模型：2026 年最被低估的 AI 技能》
作者：PetterLiu（博客园）
URL：https://www.cnblogs.com/wintersun/p/20261149
日期：2026-06-02

一、事件起点：CJ Zafir 的推文

2026 年 5 月 11 日，CJ Zafir 发了一条教普通人 fine-tune 开源模型的推文，获得 2538 赞、316 次转发、178,000 次观看。爆火的原因是在所有 AI 公司在追逐「更大模型」时，他反手指向了：小模型。你自己训练的。在 Colab 上。花几十美元。

二、CJ 方法论

工具链

角色	工具	成本
规划（Orchestrator）	Codex 5.5	订阅内
数据生成（Generator）	DeepSeek v4 Pro	API 按量
训练框架	Unsloth	免费开源
训练硬件	Google Colab Pro A100 80GB	~$0.60/hr
推理部署	llama.cpp / Ollama	免费

数据流水线（核心洞察）

Codex 设计工作流 → DeepSeek 批量生成数据行 → 每批次过 Quality Gates → Codex 根据上一批结果优化生成规格。结果是越跑越快、越便宜、质量越高。

$80 生成了 1 亿+参数的高质量数据集。 不是简单 paraphrase，是「手工打造」每一行——Codex 设计的多样化 prompt 模板 + DeepSeek 的高速执行 + 可编程的质量门槛。

模型选择

CJ 实测后结论：Qwen 3.5 9B 和 4B 是垂直训练的完美基座模型。Gemma 4 在垂直任务上不及 Qwen 3.5。他的 Qwen 3.5 4B fine-tune 在精度和延迟上击败了 20 倍大的模型。

三、行业验证

市场数据

SLM（1B-13B 参数）市场 2024 年达 65 亿美元，年复合增长率 25.7%。

性能对比

Qwen 3.5 9B 在 MMLU-Pro、GPQA Diamond、multilingual MMMLU 三项基准击败了 OpenAI gpt-oss-120B——13 倍参数差距。

企业案例

公司	方案	效果
Knowunity	用 Distil Labs fine-tune SLM	推理成本降 68%
某客服 agent	通用大模型 → fine-tuned SLM	月成本 $13,000 → $400
EliseAI	垂直小模型用于住房和医疗	推理成本降 60%，延迟降 80%
AT&T	专用 SLM 做客服和欺诈检测	数百万美元节省

四、「数据集工厂」才是真正的护城河

"The moat might not be the fine-tune itself. It might be the dataset factory." — CJ Zafir (5/22)

Fine-tuning 技能本身正在被民主化。当人人都能做 fine-tune 的时候，差异化从「会不会做」转移到了「数据从哪里来」。

AKIRAXCLAW 补了一个关键观察：「CJ 的工作流在 2026 年多数是业界共识，但真正难点不是工具——而是你有没有 200 笔干净数据 + 自动评估脚本。」

五、部署门槛

Unsloth 2.0 支持 GGUF 量化导出 + llama.cpp / Ollama 部署
3B 参数量化到 INT4 后占用 1.5-2GB 内存，可跑在 树莓派 5 上
Qwen 3-0.6B 在 Pixel 8 和 iPhone 15 Pro 上实现 ~40 tokens/s 推理
NVIDIA「Data Flywheel Blueprint」：用生产流量持续生成训练数据，自动 fine-tune，自动部署
NVInfo AI 用此方案三个月内将内部知识助手覆盖 30,000 名员工

六、成本轨迹

日期	项目	成本
05-13	1 亿+参数数据集生成	~$80
05-27	Qwen 3.5 4B 完整 fine-tune	~$173
05-28	Qwen 3.5 tool calling for voice agent	$11

七、学习路线（CJ 建议）

从 1B-4B 小模型开始，不要一上来就搞大模型
用 Colab Pro（A100 ≈ $0.60/hr），不要急着买 GPU
先 fine-tune 7-10 个模型积累经验（SFT → LoRA/QLoRA → GRPO/DPO）
用 Codex 做规划，DeepSeek 做数据生成
理解量化（GGUF）、本地推理（llama.cpp）、KV 缓存

八、反思与局限（原文作者观点）

合成数据的幻觉传递：数据生成器仍是另一个大模型，事实错误、偏见和幻觉会被小模型忠实学习放大。用模型教模型是知识蒸馏，而非创造新知。
评估偏差：96% 精度可能是过拟合的证据，分布外（OOD）泛化能力才是区分「玩具」与「产品」的关键。
概念漂移：一次性的 $173 训练无法解决模型退化问题，持续的 re-training 才是真正的长期成本。