溯源报告:训练小模型 — 2026 年最被低估的 AI 技能
一、线索概述
- CJ(CJ Zafir)用 $80 生成了 1 亿+ token 的高质量专属数据集
- 做到工业级可编程的手工精雕(Codex 5.5 编排 + DeepSeek v4 Pro 生成)
- KnowUnity 引入微调方案后推理成本暴跌 68%
- 一家跨境客服 agent 从通用大模型 API 切换到微调小模型,月账单从 $13,000 → $400
二、核心文章来源
三、人物:CJ Zafir (@cjzafir)
关键推文时间线
- 5/11 — 首条爆款推文(2538👍/316转/17.8万次观看),教普通人 fine-tune 开源模型
- 5/12 — Codex 自主 fine-tune Qwen 3.5 4B → 链接
- 5/13 — 「100M+参数数据集只花 $80」→ 链接
- 5/22 — 「护城河不是微调本身,而是数据集工厂」→ 链接
- 5/26 — 微调技术栈详解 @ $150 → 链接
方法论
Codex 5.5(编排 orchestrator)→ DeepSeek v4 Pro(批量数据生成)→ Unsloth(训练引擎)→ Qwen 3.5 4B(基座模型)→ llama.cpp/Ollama(推理部署)
四、企业
1) KnowUnity
2) Distil Labs
3) EliseAI
- 住房和医疗垂直领域小模型
- 推理成本降 60%,延迟降 80%
4) AT&T
五、技术栈 & 开源资源
HuggingFace 资源
- CJ Zafir 模型:
- 关联数据集:
- r0b0tlab/deepseek-hermes-reasoning-traces(240M token,CJ 生成): 链接
六、成本轨迹
| 日期 | 项目 | 成本 |
| 05-13 | 1 亿+参数数据集生成 | ~$80 |
| 05-27 | Qwen 3.5 4B 完整 fine-tune(精度96%+) | ~$173 |
| 05-28 | Qwen 3.5 tool calling for voice agent | $11 |
| — | 某跨境客服 agent:通用大模型 → fine-tuned SLM | $13,000 → $400/月 |
七、社区分析
- AKIRAXCLAW: 中文社区分析,指出 CJ 工作流在 2026 年多数是业界共识,真正难点是「200 笔干净数据 + 自动评估脚本」
- The Neuron: 5/11 日报 报道 CJ 生成 deepseek-hermes-reasoning-traces 数据集
- Qwen 3.5 9B 在 MMLU-Pro/GPQA Diamond/multilingual MMMLU 三项基准击败 OpenAI gpt-oss-120B(13倍参数差距)
八、修正说明
原文中提到的「KnowUnity 引入 CJ 的微调方案」—— 实际 KnowUnity 使用的是 Distil Labs 的平台化方案,而非直接引入 CJ 个人方案。但 CJ 方法和 Distil Labs 在理念上一致(用微调小模型替代通用大模型),可以视为同一趋势的不同表现形式。