训练小模型溯源报告：CJ Zafir / KnowUnity / Distil Labs

X/Twitter: https://x.com/cjzafir
HuggingFace: https://huggingface.co/CJzafir

溯源报告：训练小模型 — 2026 年最被低估的 AI 技能

文章	《训练小模型：2026 年最被低估的 AI 技能》
作者	PetterLiu
平台	博客园 (cnblogs)
URL	https://www.cnblogs.com/wintersun/p/20261149
日期	2026-06-02
X 转载	@yibie

Codex 5.5（编排 orchestrator）→ DeepSeek v4 Pro（批量数据生成）→ Unsloth（训练引擎）→ Qwen 3.5 4B（基座模型）→ llama.cpp/Ollama（推理部署）

CJ Zafir 模型:
- Mac-1: https://huggingface.co/CJzafir/Mac-1
- mac-llm-v3-mlx-4bit: https://huggingface.co/CJzafir/mac-llm-v3-mlx-4bit
关联数据集:
- r0b0tlab/deepseek-hermes-reasoning-traces（240M token，CJ 生成）: 链接

日期	项目	成本
05-13	1 亿+参数数据集生成	~$80
05-27	Qwen 3.5 4B 完整 fine-tune（精度96%+）	~$173
05-28	Qwen 3.5 tool calling for voice agent	$11
—	某跨境客服 agent：通用大模型 → fine-tuned SLM	$13,000 → $400/月

AKIRAXCLAW: 中文社区分析，指出 CJ 工作流在 2026 年多数是业界共识，真正难点是「200 笔干净数据 + 自动评估脚本」
The Neuron: 5/11 日报报道 CJ 生成 deepseek-hermes-reasoning-traces 数据集
Qwen 3.5 9B 在 MMLU-Pro/GPQA Diamond/multilingual MMMLU 三项基准击败 OpenAI gpt-oss-120B（13倍参数差距）

原文中提到的「KnowUnity 引入 CJ 的微调方案」—— 实际 KnowUnity 使用的是 Distil Labs 的平台化方案，而非直接引入 CJ 个人方案。但 CJ 方法和 Distil Labs 在理念上一致（用微调小模型替代通用大模型），可以视为同一趋势的不同表现形式。