来源:《训练小模型:2026 年最被低估的 AI 技能》
作者:PetterLiu(博客园)
URL:https://www.cnblogs.com/wintersun/p/20261149
日期:2026-06-02
一、事件起点:CJ Zafir 的推文
2026 年 5 月 11 日,CJ Zafir 发了一条教普通人 fine-tune 开源模型的推文,获得 2538 赞、316 次转发、178,000 次观看。爆火的原因是在所有 AI 公司在追逐「更大模型」时,他反手指向了:小模型。你自己训练的。在 Colab 上。花几十美元。
二、CJ 方法论
工具链
| 角色 | 工具 | 成本 |
|---|---|---|
| 规划(Orchestrator) | Codex 5.5 | 订阅内 |
| 数据生成(Generator) | DeepSeek v4 Pro | API 按量 |
| 训练框架 | Unsloth | 免费开源 |
| 训练硬件 | Google Colab Pro A100 80GB | ~$0.60/hr |
| 推理部署 | llama.cpp / Ollama | 免费 |
数据流水线(核心洞察)
Codex 设计工作流 → DeepSeek 批量生成数据行 → 每批次过 Quality Gates → Codex 根据上一批结果优化生成规格。结果是越跑越快、越便宜、质量越高。
$80 生成了 1 亿+参数的高质量数据集。 不是简单 paraphrase,是「手工打造」每一行——Codex 设计的多样化 prompt 模板 + DeepSeek 的高速执行 + 可编程的质量门槛。
模型选择
CJ 实测后结论:Qwen 3.5 9B 和 4B 是垂直训练的完美基座模型。Gemma 4 在垂直任务上不及 Qwen 3.5。他的 Qwen 3.5 4B fine-tune 在精度和延迟上击败了 20 倍大的模型。
三、行业验证
市场数据
SLM(1B-13B 参数)市场 2024 年达 65 亿美元,年复合增长率 25.7%。
性能对比
Qwen 3.5 9B 在 MMLU-Pro、GPQA Diamond、multilingual MMMLU 三项基准击败了 OpenAI gpt-oss-120B——13 倍参数差距。
企业案例
| 公司 | 方案 | 效果 |
|---|---|---|
| Knowunity | 用 Distil Labs fine-tune SLM | 推理成本降 68% |
| 某客服 agent | 通用大模型 → fine-tuned SLM | 月成本 $13,000 → $400 |
| EliseAI | 垂直小模型用于住房和医疗 | 推理成本降 60%,延迟降 80% |
| AT&T | 专用 SLM 做客服和欺诈检测 | 数百万美元节省 |
四、「数据集工厂」才是真正的护城河
"The moat might not be the fine-tune itself. It might be the dataset factory." — CJ Zafir (5/22)
Fine-tuning 技能本身正在被民主化。当人人都能做 fine-tune 的时候,差异化从「会不会做」转移到了「数据从哪里来」。
AKIRAXCLAW 补了一个关键观察:「CJ 的工作流在 2026 年多数是业界共识,但真正难点不是工具——而是你有没有 200 笔干净数据 + 自动评估脚本。」
五、部署门槛
- Unsloth 2.0 支持 GGUF 量化导出 + llama.cpp / Ollama 部署
- 3B 参数量化到 INT4 后占用 1.5-2GB 内存,可跑在 树莓派 5 上
- Qwen 3-0.6B 在 Pixel 8 和 iPhone 15 Pro 上实现 ~40 tokens/s 推理
- NVIDIA「Data Flywheel Blueprint」:用生产流量持续生成训练数据,自动 fine-tune,自动部署
- NVInfo AI 用此方案三个月内将内部知识助手覆盖 30,000 名员工
六、成本轨迹
| 日期 | 项目 | 成本 |
|---|---|---|
| 05-13 | 1 亿+参数数据集生成 | ~$80 |
| 05-27 | Qwen 3.5 4B 完整 fine-tune | ~$173 |
| 05-28 | Qwen 3.5 tool calling for voice agent | $11 |
七、学习路线(CJ 建议)
- 从 1B-4B 小模型开始,不要一上来就搞大模型
- 用 Colab Pro(A100 ≈ $0.60/hr),不要急着买 GPU
- 先 fine-tune 7-10 个模型积累经验(SFT → LoRA/QLoRA → GRPO/DPO)
- 用 Codex 做规划,DeepSeek 做数据生成
- 理解量化(GGUF)、本地推理(llama.cpp)、KV 缓存
八、反思与局限(原文作者观点)
- 合成数据的幻觉传递:数据生成器仍是另一个大模型,事实错误、偏见和幻觉会被小模型忠实学习放大。用模型教模型是知识蒸馏,而非创造新知。
- 评估偏差:96% 精度可能是过拟合的证据,分布外(OOD)泛化能力才是区分「玩具」与「产品」的关键。
- 概念漂移:一次性的 $173 训练无法解决模型退化问题,持续的 re-training 才是真正的长期成本。