训练小模型溯源报告:CJ Zafir / KnowUnity / Distil Labs

溯源报告:训练小模型 — 2026 年最被低估的 AI 技能

一、线索概述

  • CJ(CJ Zafir)用 $80 生成了 1 亿+ token 的高质量专属数据集
  • 做到工业级可编程的手工精雕(Codex 5.5 编排 + DeepSeek v4 Pro 生成)
  • KnowUnity 引入微调方案后推理成本暴跌 68%
  • 一家跨境客服 agent 从通用大模型 API 切换到微调小模型,月账单从 $13,000 → $400

二、核心文章来源

文章《训练小模型:2026 年最被低估的 AI 技能》
作者PetterLiu
平台博客园 (cnblogs)
URLhttps://www.cnblogs.com/wintersun/p/20261149
日期2026-06-02
X 转载@yibie

三、人物:CJ Zafir (@cjzafir)

关键推文时间线

  • 5/11 — 首条爆款推文(2538👍/316转/17.8万次观看),教普通人 fine-tune 开源模型
  • 5/12 — Codex 自主 fine-tune Qwen 3.5 4B → 链接
  • 5/13 — 「100M+参数数据集只花 $80」→ 链接
  • 5/22 — 「护城河不是微调本身,而是数据集工厂」→ 链接
  • 5/26 — 微调技术栈详解 @ $150 → 链接

方法论

Codex 5.5(编排 orchestrator)→ DeepSeek v4 Pro(批量数据生成)→ Unsloth(训练引擎)→ Qwen 3.5 4B(基座模型)→ llama.cpp/Ollama(推理部署)

四、企业

1) KnowUnity

2) Distil Labs

3) EliseAI

  • 住房和医疗垂直领域小模型
  • 推理成本降 60%,延迟降 80%

4) AT&T

  • 专用 SLM 做客服和欺诈检测
  • 节省数百万美元

五、技术栈 & 开源资源

角色工具链接
编排规划Codex 5.5OpenAI
数据生成DeepSeek v4 Prohttps://deepseek.com
训练框架Unsloth(免费开源)GitHub / 官网
训练硬件Google Colab Pro A100 80GB~$0.60/hr
基座模型Qwen 3.5 4B/9BHuggingFace
推理部署llama.cpp / Ollamallama.cpp / Ollama
量化格式GGUF

HuggingFace 资源

六、成本轨迹

日期项目成本
05-131 亿+参数数据集生成~$80
05-27Qwen 3.5 4B 完整 fine-tune(精度96%+)~$173
05-28Qwen 3.5 tool calling for voice agent$11
某跨境客服 agent:通用大模型 → fine-tuned SLM$13,000 → $400/月

七、社区分析

  • AKIRAXCLAW: 中文社区分析,指出 CJ 工作流在 2026 年多数是业界共识,真正难点是「200 笔干净数据 + 自动评估脚本」
  • The Neuron: 5/11 日报 报道 CJ 生成 deepseek-hermes-reasoning-traces 数据集
  • Qwen 3.5 9B 在 MMLU-Pro/GPQA Diamond/multilingual MMMLU 三项基准击败 OpenAI gpt-oss-120B(13倍参数差距)

八、修正说明

原文中提到的「KnowUnity 引入 CJ 的微调方案」—— 实际 KnowUnity 使用的是 Distil Labs 的平台化方案,而非直接引入 CJ 个人方案。但 CJ 方法和 Distil Labs 在理念上一致(用微调小模型替代通用大模型),可以视为同一趋势的不同表现形式。