前言:为什么需要这本手册
问题意识
AI 领域的术语体系正在快速膨胀且严重分化:
- 同一词汇在不同圈层有不同含义(如"Agent"在技术圈指代码框架,在商业圈指自动化服务)
- 技术细节与商业认知脱节(工程师讨论的量化精度 vs 投资人关心的 GPU 供应链瓶颈)
- 跨圈层沟通障碍导致信息误读(技术报告被简化为营销概念)
本书定位
本手册不是技术词典,而是面向非技术背景读者的产业认知地图。我们假设:
- 您不需要知道 LoRA 的数学推导,但需要理解"为什么微调比从头训练便宜"
- 您不需要掌握 vLLM 的 PagedAttention 原理,但需要理解"推理成本如何定价"
- 您接触不到 PyTorch 源码,但会频繁遇到 LangChain、RAG、Agent 等产品概念
使用方式
按您的角色选择阅读重点:
- 投资者/分析师 → 第一层(基础设施格局)+ 第四层(产品竞争)+ 第五层(商业趋势)
- 企业决策者 → 第三层(技术选型)+ 第四层(产品评估)+ 第五层(场景匹配)
- 创业者 → 全层阅读,重点关注各层的"价值分配点"
第一章:基础设施层——AI 产业的物理基础
这一层的名词特征:决定 AI 产业发展的约束条件。技术细节不重要,重要的是理解谁控制资源、成本结构如何、供应链风险在哪里。
典型读者场景:阅读行业分析报告、评估供应商、理解资本开支逻辑
1.1 算力基础设施格局
AI 算力供应链:被忽视的产业约束
定义与产业定位 AI 算力供应链是决定产业发展速度和区域竞争格局的关键环节。理解这个链条有助于判断"谁能做什么"、"成本结构如何"、"风险在哪里"。
全球 AI 算力供应链全景
【上游核心】 【转售与服务层】
┌──────────────────────────────────────────────────────────────┐
│ 芯片设计 │
│ ├── NVIDIA(垄断训练芯片,市占率>80%) │
│ └── AMD/Intel(追赶者,推理场景有机会) │
├──────────────────────────────────────────────────────────────┤
│ 制造与封装 ← CoWoS 产能是实际瓶颈 │
│ ├── TSMC(独家代工+NVIDIA 封装伙伴) │
│ └── Samsung(次要选择,良率问题) │
├──────────────────────────────────────────────────────────────┤
│ 云基础设施转售层 │
│ ├── Hyperscaler(AWS/Azure/GCP)- 双重角色冲突 │
│ ├── Specialized AI Cloud(CoreWeave/Lambda)- 价格竞争者 │
│ └── Regional Players(区域玩家,合规驱动) │
└──────────────────────────────────────────────────────────────┘
关键产业名词解析
| 名词 | 供应链位置 | 商业影响 |
|---|---|---|
| CoWoS Bottleneck | TSMC 封装环节 | 2023-2024 年 AI GPU 供应不足的主因,非芯片制造能力 |
| Export Control Impact | 全链条 | 美国出口管制导致中国无法获取最新芯片,催生国产替代需求 |
| Hyperscaler Dual Role | 转售层 | AWS/Azure 既卖基础设施又做模型服务,存在竞争冲突 |
Cloud Provider 竞争格局名词
定义与产业定位 云服务商是 AI 算力的主要分发渠道。理解不同类型玩家的战略差异有助于选择供应商和判断行业趋势。
三类云玩家对比
| 类型 | 代表厂商 | 核心优势 | 商业模式 | 适合客户 |
|---|---|---|---|---|
| Hyperscaler | AWS, Azure, GCP | 生态整合、企业信任、全球覆盖 | 模型市场 + 基础设施双重收入 | 大型企业、需要合规场景 |
| Specialized AI Cloud | CoreWeave, Lambda, RunPod | GPU 密度优化、价格低 20-40% | 纯基础设施转售 | 初创公司、训练任务、成本敏感型 |
| Regional/Compliance Cloud | 中国本土云厂商(阿里云/腾讯云) | 数据合规、本地支持 | 打包国产模型 + 基础设施 | 中国企业、需要本地化部署 |
关键竞争动态名词:
- "Model-Agnostic vs Model-Locked":Hyperscaler 通常提供多模型选择,Specialized Cloud 常与单一模型厂商绑定(如 CoreWeave×OpenAI)
- Spot Instance Economics:抢占式实例价格可低至按需的 10-30%,适合无状态训练任务
Data Center Infrastructure:AI 时代的物理约束
定义与产业定位 传统数据中心正在经历结构性改造以适应 AI 负载。理解这些变化有助于判断基础设施投资机会和选址策略。
关键指标名词解析
| 名词 | 传统 IDC | AI-Ready IDC | 商业含义 |
|---|---|---|---|
| Power Density(单机柜) | 5-10kW | 20-50kW+ | 决定单点算力上限 |
| PUE | 1.5-1.8 | <1.2(液冷目标) | 影响 OPEX,尤其是电力成本占比 |
| Cooling Technology | 风冷为主 | 液冷(浸没式/冷板式) | 资本开支增加但长期 OPEX 优化 |
区域竞争名词:
- Power-Hungry Workload Relocation:高功耗 AI 工作负载向电力充裕地区迁移(北欧、中东、美国部分地区)
- Sustainable Energy Commitment:AWS/Azure/Google 的可再生能源承诺影响数据中心选址和运营策略
出口管制与供应链风险名词
定义与产业定位 地缘政治因素正在重塑 AI 算力供应链。理解这些约束条件对技术选型和投资决策至关重要。
关键政策名词解析
| 名词 | 内容概要 | 商业影响 |
|---|---|---|
| US Export Control(2022-2024) | 限制向中国出口高性能 AI 芯片(H100/A100 及后续版本) | 中国无法获取最新训练芯片,需依赖存量或国产替代 |
| Specialized Chip(特供版) | H800/H20 等降规版本,满足管制要求但性能受限 | 成本/性能比下降,供应链复杂度增加 |
| Domestic Substitution(国产替代) | 中国推动的芯片自给自足战略 | 昇腾、寒武纪等国产芯片获得政策支持和市场需求 |
产业应对名词:
- Stockpiling Strategy:大型企业在管制收紧前大量采购囤积芯片
- Dual-Sourcing Risk:同时维护 NVIDIA 和国产技术栈带来的额外成本
1.2 能源与网络名词
Power Infrastructure:被忽视的约束条件
定义与产业定位 AI 产业的真正瓶颈正在从"芯片供应"转向"电力供应"。理解这些名词有助于判断区域竞争优势。
关键商业名词解析
| 名词 | 真实含义 | 商业/投资关注点 |
|---|---|---|
| Data Center Power Shortage | 全球数据中心电力短缺现象 | 2024-2025 年成为制约 AI 扩张的主要瓶颈,催生核能、可再生能源投资 |
| NVIDIA GB200 Power Requirement | Blackwell 架构单柜需 120kW 以上电力 | 推动液冷和电力基础设施升级的直接驱动力 |
| Sustainable Energy Commitment | 企业承诺使用可再生能源的数据中心 | AWS/Azure/Google 的碳中和目标影响数据中心选址和运营 |
Network Infrastructure:集群扩展的隐形瓶颈
定义与产业定位 多 GPU/多机训练时,网络带宽和延迟成为比计算本身更重要的约束。
关键商业名词解析
| 名词 | 真实含义 | 商业/投资关注点 |
|---|---|---|
| InfiniBand vs RoCE | IB 是专用高速网络(NVIDIA 垄断),RoCE 是基于以太网的替代方案 | IB 性能更好但成本高;RoCE 是成本敏感型选择 |
| 400GbE / 800GbE | 数据中心内部网络速率标准 | AI 集群网络正在从 100G 向 400G/800G 升级,带来网络设备更新需求 |
| NVLink Interconnect | NVIDIA 专有多卡互联技术(高于 PCIe) | H100 通过 NVLink 实现 GPU 间高速通信;影响集群架构设计 |
第二章:科学研究层——AI 能力的理论来源
这一层的名词特征:决定 AI 能力边界的理论突破。您不需要掌握数学推导,但需要理解"什么技术被验证有效"、"哪些是营销概念"。
典型读者场景:阅读技术白皮书、评估技术方案可行性、理解产品宣传背后的真实水平
2.1 模型类型与能力名词
Foundation Model / LLM:基础概念的澄清
定义与产业定位 Foundation Model(基础模型)和 LLM(大语言模型)在商业语境中基本等同,指在大规模数据上预训练的通用文本理解生成模型。
关键商业名词解析
| 名词 | 技术含义 | 商业/产品映射 |
|---|---|---|
| Base Model vs Instruct Model | Base=纯预训练只能预测下一个词;Instruct=SFT 微调后可理解指令 | 您接触到的都是 Instruct 版本;Base 模型需要额外微调才能对话 |
| Parameter Count (7B/13B/70B) | 参数量级,影响模型能力和推理成本 | 7B=可本地运行但能力有限;70B=接近 GPT-3.5 水平但成本高 |
| Open Weights vs Open Source | Open Weights=可以下载使用但有许可限制;Open Source=完全开源可修改 | Hugging Face 上多数是"开放权重"而非真正开源 |
| Proprietary Model | 闭源模型,通过 API 访问(GPT-4、Claude) | 能力最强但成本最高、数据隐私顾虑、供应商锁定风险 |
主流模型阵营名词
| 阵营 | 代表模型 | 商业定位 |
|---|---|---|
| 美国闭源 | GPT-4 Turbo, Claude 3 Opus | 企业级首选,能力最强但贵 |
| 开源权重 | Llama-3-70B, Mistral-Medium | 可自部署,成本可控,需要技术团队 |
| 中国本土 | 文心 4.0、通义千问、百度 ERNIE | 中文能力优化,合规优势 |
Model Size vs Capability:规模效应的商业理解
关键概念解析
参数量级与能力的关系(经验法则):
< 7B 参数 → 适合边缘设备/本地运行,能力有限
7-13B 参数 → 平衡点,中等任务可用
20-40B 参数 → 接近早期 GPT-3.5 水平
> 70B 参数 → 追赶 GPT-4 水平的起点(非保证)
重要澄清名词:
- "70B 模型不如 GPT-3.5":开源模型的训练数据质量和方法仍与闭源有差距
- Scaling Law 的商业含义:参数量增加带来性能提升,但存在边际递减,需要权衡成本
2.2 微调与适配名词
Fine-Tuning:模型定制化的技术路径选择
定义与产业定位 微调是将通用大模型适配到特定领域或任务的技术。不同方法在成本和效果上有显著差异。
关键商业名词解析
| 名词 | 技术原理(简化) | 成本/适用场景 |
|---|---|---|
| Prompt Engineering | 通过提示词引导模型行为,不修改模型参数 | 零成本,效果有限但快速验证首选 |
| RAG (Retrieval-Augmented Generation) | 外部检索相关知识注入上下文 | 中等成本,适合知识更新频繁场景(客服、文档问答) |
| SFT (Supervised Fine-Tuning) | 监督微调,用标注数据重新训练部分参数 | 高成本,需要高质量标注数据,效果最显著但门槛最高 |
| LoRA / QLoRA | 低秩适配,只训练少量额外参数(1-10%) | 低成本微调方案,显存需求小,业界主流选择 |
| RLHF (Reinforcement Learning from Human Feedback) | 通过人类反馈强化学习对齐模型行为 | GPT-3.5/4 的核心技术,需要大量人工标注,成本极高 |
商业决策名词:
- "Model + RAG"vs"Fine-tuned Model":前者适合知识更新快场景,后者适合领域术语和风格定制
- Data Moat(数据护城河):高质量领域数据是微调的核心壁垒,比模型本身更重要
Alignment:模型行为控制的商业含义
定义与产业定位 Alignment(对齐)指让模型输出符合人类价值观和安全要求。这是闭源模型的核心竞争力之一。
关键名词解析
| 名词 | 真实含义 | 商业影响 |
|---|---|---|
| Safety Tuning | 通过 RLHF 等技术减少有害输出 | 闭源模型的隐性壁垒;开源模型通常需要额外安全微调 |
| Jailbreak / Prompt Injection | 绕过模型安全限制的攻击方法 | 企业级产品必须证明"抗 jailbreak 能力" |
| Constitutional AI | Constitutional AI,通过原则列表指导模型而非人工反馈 | OpenAI 提出的新对齐方法,减少对人力的依赖 |
2.3 计算引擎与框架名词
Deep Learning Framework:研究者的工具选择
定义与产业定位 深度学习框架是构建和训练神经网络的工具库。对非技术读者而言,关键是理解生态差异而非技术细节。
关键商业名词解析
| 名词 | 主要用户群体 | 生态特点 |
|---|---|---|
| PyTorch | 学术研究、新模型开发 | Hugging Face 等开源项目首选,社区最活跃 |
| TensorFlow | 生产环境部署(历史原因) | Google 内部使用多,但新项目转向 PyTorch |
| JAX | 研究型机构(Google Research) | 函数式编程范式,性能优化强但学习曲线陡 |
| MindSpore / PaddlePaddle | 中国本土企业 | 配合国产芯片的框架选择 |
Model Repository:开源模型的分发平台
关键名词解析
| 名词 | 真实价值 | 使用场景 |
|---|---|---|
| Hugging Face Hub | "AI 领域的 GitHub+NPM",最大的开源模型和数据集仓库 | 查找、下载、测试开源模型的首选入口 |
| Model Cards / Model Sheets | 模型的使用说明文档(能力范围、限制、训练数据) | 技术选型时必须阅读,了解模型边界 |
| Spaces | Hugging Face 上的在线 Demo 托管服务 | 快速验证模型效果而无需本地部署 |
第三章:商业决策支持层——技术选型的决策框架
这一层的名词特征:提供实际可操作的决策工具和评估框架。这是从"理解概念"到"做出选择"的关键桥梁。
典型读者场景:技术选型会议、供应商评估、预算规划、创业方向判断
3.1 TCO 计算框架名词
Total Cost of Ownership:AI 项目的真实成本结构
定义与产业定位 TCO(总拥有成本)是 AI 项目决策中最常被低估的因素。理解完整的成本结构有助于避免"初期便宜、长期昂贵"的陷阱。
AI 项目 TCO 构成模型
┌─────────────────────────────────────────────────────────────┐
│ TCO = CAPEX + OPEX │
├─────────────────────────────────────────────────────────────┤
│ │
│ CAPEX(一次性投入) │
│ ├── 硬件采购(GPU 服务器、网络设备) │
│ ├── 基础设施改造(电力扩容、液冷系统) │
│ └ 软件许可(商业框架、企业版工具) │
│ │
│ OPEX(持续性支出) │
│ ├── 云 API 费用(按 token/月计费) │
│ ├── 人力成本(工程师、数据标注员) │
│ ├── 运维成本(监控工具、备份存储) │
│ └── 电力成本(自建部署场景) │
│ │
└─────────────────────────────────────────────────────────────┘
时间维度影响:
Year 1: CAPEX 占比高,OPEX 相对较低
Year 3: OPEX 累计可能超过 CAPEX(尤其是 API 模式)
Year 5+: 自建部署通常比云 API 更经济(除非负载波动大)
关键决策名词解析
| 名词 | 定义 | 典型数值范围 | 决策意义 |
|---|---|---|---|
| Break-even Point | 自建 vs 云租用的成本平衡点 | 通常需>10 个全职并发用户或>1M token/月 | 判断是否值得自建的基础指标 |
| Cloud Premium | 云服务相对于自建的溢价比例 | 2-5x(长期稳定负载) | 高溢价意味着自建更有吸引力 |
| Hidden Cost of API | 云 API 的隐性成本:延迟、限流、数据隐私 | 难以量化但影响用户体验 | 实时性要求高的场景需谨慎 |
Deployment Mode Selection:部署模式选择框架
定义与产业定位 选择"云 API vs 自建 vs 混合"是 AI 项目的首要决策,直接影响后续所有技术选型和成本结构。
决策树模型
开始决策
│
├─ 数据是否需要不出域/本地化?
│ ├── 是 → 必须自建或私有部署
│ └── 否 ↓
│
├─ 预期负载是否稳定且可预测?
│ ├── 不稳定/波动大 → 云 API(弹性优势)
│ └── 稳定 ↓
│
├─ 预估月 token 用量 > 10M?
│ ├── 是 → 计算自建 TCO,通常>3 年回本
│ └── 否 ↓
│
├─ 是否有运维团队能力?
│ ├── 无 → 云 API 或托管服务
│ └── 有 ↓
│
└─ 最终选择:自建(需评估硬件采购周期和运维成本)
各模式关键名词解析
| 模式 | 优势 | 劣势 | 适合场景 |
|---|---|---|---|
| Cloud API | 零运维、自动扩缩容、最新模型 | 按 token 计费长期成本高、数据隐私顾虑 | 初创期、低并发场景、快速验证 |
| Self-hosted | 一次性成本可控、数据不出域、可定制 | 需要运维团队、硬件采购周期长 | 高并发、敏感数据场景 |
| Hybrid | 平衡控制和成本,渐进式迁移 | 架构复杂度高、双套系统维护成本 | 中大型企业、混合工作负载 |
3.2 技术选型决策名词
Model Selection Framework:模型选择的评估维度
定义与产业定位 模型选择不是"性能最好"的问题,而是"最适合业务场景"的权衡。理解各维度的取舍关系至关重要。
核心评估维度
| 维度 | 考量因素 | 权重(按场景) |
|---|---|---|
| 能力匹配度 | 是否满足任务需求(中文能力、代码生成、逻辑推理等) | 高优先级 |
| 成本结构 | API 单价、上下文窗口大小、推理速度 | 中优先级 |
| 部署灵活性 | 是否支持本地部署、最小硬件要求 | 中高优先级 |
| 供应商锁定风险 | 闭源 vs 开源、许可限制、退出成本 | 长期项目高优先级 |
| 生态成熟度 | 文档质量、社区活跃度、工具链完整性 | 中优先级 |
主流模型对比矩阵
┌──────────────────────────────────────────────────────────────────────┐
│ 模型 │ 能力 │ 成本 │ 开源 │ 中文 │ 推荐场景 │
├──────────────────────────────────────────────────────────────────────┤
│ GPT-4 Turbo │ ★★★★★ │ ★☆☆☆☆ │ ✗ │ ★★★☆☆ │ 企业级、预算充足 │
│ Claude 3 Opus │ ★★★★★ │ ★★☆☆☆ │ ✗ │ ★★☆☆☆ │ 长文本分析 │
│ Llama-3-70B │ ★★★★☆ │ ★★★☆☆ │ ✓ │ ★★☆☆☆ │ 可自部署、追求平衡 │
│ Mistral-Medium │ ★★★★☆ │ ★★★☆☆ │ ✓ │ ★★☆☆☆ │ 英文场景首选开源 │
│ 文心 4.0 │ ★★★☆☆ │ ★★☆☆☆ │ ✗ │ ★★★★★ │ 中文优先企业 │
│ Qwen-Max │ ★★★★☆ │ ★★☆☆☆ │ ✗ │ ★★★★★ │ 阿里生态集成 │
│ 昇腾 + MindSpore │ ★★★☆☆ │ ★★★☆☆ │ ✓ │ ★★★★★ │ 国产替代刚需场景 │
└──────────────────────────────────────────────────────────────────────┘
RAG vs Fine-tuning:技术路径选择框架
定义与产业定位 "用 RAG 还是微调"是 AI 应用架构中最常见的决策点。理解两者的适用边界可以避免技术选型错误。
决策对比表
| 维度 | RAG(检索增强) | Fine-tuning(微调) |
|---|---|---|
| 知识更新频率 | 高(文档库随时更新) | 低(需重新训练) |
| 数据来源 | 外部知识库、文档 | 内部标注数据 |
| 实施周期 | 短(1-2 周) | 长(1-3 个月) |
| 技术门槛 | 中(框架成熟) | 高(需要 ML 团队) |
| 成本结构 | 存储 + 检索成本 | 训练成本 + 数据标注 |
| 效果可解释性 | 高(可追溯来源) | 低(黑盒变化) |
典型场景映射:
- RAG 优先:客服问答、文档搜索、政策查询、产品知识库
- Fine-tuning 优先:领域术语风格定制、特定任务优化(如合同审查)、数据隐私敏感场景
- 组合方案:微调基础模型 + RAG 注入动态知识(业界主流)
3.3 供应商评估名词
Vendor Evaluation Criteria:AI 供应商选择标准
定义与产业定位 AI 供应商评估需要超越传统 IT 采购框架,关注技术生态锁定、长期演进能力等特殊维度。
核心评估维度
| 维度 | 关键问题 | 权重 |
|---|---|---|
| 技术栈开放性 | 是否支持导出模型/数据?是否有 vendor lock-in 风险? | 高 |
| SLA 与可靠性 | 可用性承诺、延迟保证、故障恢复时间 | 高 |
| 定价透明度 | 计费单位是否清晰?隐藏成本有哪些? | 中 |
| 生态整合能力 | 是否与现有工具链(数据仓库、BI 工具)集成 | 中 |
| 长期演进路线 | 产品路线图清晰度、模型更新频率 | 中 |
关键合同名词解析:
- SLA (Service Level Agreement):服务等级协议,通常承诺 99.9% 可用性
- Data Processing Addendum (DPA):数据处理附加协议,明确数据使用和保留政策
- Model Export Clause:模型导出条款,决定供应商转换成本
第四章:应用工程层——AI 能力的工程化封装
这一层的名词特征:决定 AI 应用开发效率和上限的技术选型。框架和工具的选择直接影响产品迭代速度。
典型读者场景:技术架构决策、供应商评估、团队技能规划
3.1 AI 应用框架名词
Agent Framework:智能体开发的抽象层
定义与产业定位 Agent Framework 提供构建"自主决策系统"的编程抽象。在商业语境中,"Agent"常被过度营销,需要理解真实能力边界。
主流框架对比名词
| 框架 | 核心理念 | 适合场景 | 学习曲线 |
|---|---|---|---|
| LangChain | Chain 组合模式(将 LLM 调用像链条一样连接) | 快速原型、企业 POC | 中等,文档最丰富 |
| LlamaIndex | RAG 优先,强调数据索引和检索 | 知识库问答场景 | 较低,RAG 场景专用 |
| AutoGen | 多智能体对话协作模式 | 复杂任务分解、模拟人类协作 | 较高,概念抽象度高 |
| CrewAI | 角色定义 + 任务分配的团队模式 | 业务流程自动化 | 中等,业务导向强 |
核心抽象名词解析
Agent Framework 的核心抽象(跨框架通用):
┌─────────────────────────────────────────────┐
│ Agent │
│ (智能体 = LLM + Tools + Memory + Logic) │
├─────────────────────────────────────────────┤
│ Tool / Function │
│ (可调用的外部能力:API、数据库查询等) │
├─────────────────────────────────────────────┤
│ Memory │
│ (上下文状态管理:短期会话记忆/长期知识库) │
└─────────────────────────────────────────────┘
商业现实名词:
- "Agent"vs"Chatbot":真正的自主 Agent(能规划、执行多步任务)仍不成熟,多数产品是"高级聊天机器人"
- Framework Lock-in:框架选择会影响后续技术栈,但 LangChain 等已建立生态壁垒
RAG Stack:检索增强生成的技术组件
定义与产业定位 RAG(Retrieval-Augmented Generation)是当前企业级 AI 应用的主流架构模式,通过外部知识库增强模型回答。
完整技术栈名词解析
RAG 技术栈分层:
【数据层】
├── Document Loader(文档加载器):PDF、Word、网页等格式解析
├── Text Splitter / Chunker(文本分割器):将大文档切分为片段
│ └── Semantic Chunking(语义分段)vs Fixed-size(固定大小)
【表示层】
├── Embedding Model(嵌入模型):将文本转为向量
│ ├── OpenAI text-embedding-ada-002(闭源,效果好)
│ └── Sentence-BERT / Cohere(开源替代)
【存储层】
├── Vector Store(向量数据库):存储和检索向量
│ ├── Managed: Pinecone, Weaviate Cloud
│ └── Self-hosted: FAISS, Milvus, Chroma, Qdrant
【应用层】
├── Retriever(检索器):从向量库中查找相关片段
├── Re-ranker(重排序器):对检索结果二次精排
└── Generator(生成器):LLM 基于检索内容生成答案
选型决策名词:
- "Managed vs Self-hosted Vector DB":托管服务方便但贵,自 host 需要运维能力
- Hybrid Search(混合搜索):向量语义搜索 + BM25 关键词搜索结合,提升召回率
3.2 推理优化与成本名词
Inference Optimization Stack:降低推理成本的技术方案
定义与产业定位 模型推理成本是企业 AI 应用的主要 OPEX。理解这些技术有助于评估供应商报价合理性。
关键技术方案名词
| 技术 | 原理(简化) | 成本节省 | 成熟度 |
|---|---|---|---|
| Model Quantization | 将模型从 FP16 精度压缩到 INT8/INT4 | 显存减少 50-75%,速度提升 2-4x | 高,广泛使用 |
| KV Cache Optimization | 缓存已生成 token 的注意力状态 | 多轮对话场景节省 50%+计算 | 高,vLLM 等框架默认开启 |
| Speculative Decoding | 小模型预测 + 大模型验证的并行生成 | 2-3x 加速,对长文本效果明显 | 中,正在快速演进 |
| Dynamic Batching | 将多个请求合并批量处理 | 吞吐量提升数倍,增加延迟 | 高,推理服务器标配 |
主流推理框架名词:
| 框架 | 特点 | 适用场景 |
|---|---|---|
| vLLM | PagedAttention 技术,高吞吐 | 通用首选,开源免费 |
| TGI (Text Generation Inference) | Hugging Face 官方方案,易集成 | HF 生态用户 |
| TensorRT-LLM | NVIDIA GPU 极致优化 | 生产环境,NVIDIA 硬件 |
Model Serving Patterns:模型部署架构选择
关键部署模式名词
部署模式对比:
┌─────────────────────────────────────────────────────────────┐
│ Cloud API(云 API) │
│ ────────────────────────────────────────────────────────── │
│ 优势:零运维、自动扩缩容、最新模型 │
│ 劣势:按 token 计费长期成本高、数据隐私顾虑 │
│ 适用:初创期、低并发场景 │
├─────────────────────────────────────────────────────────────┤
│ Self-hosted(自建部署) │
│ ────────────────────────────────────────────────────────── │
│ 优势:一次性成本可控、数据不出域、可定制 │
│ 劣势:需要运维团队、硬件采购周期长 │
│ 适用:高并发、敏感数据场景 │
├─────────────────────────────────────────────────────────────┤
│ Hybrid(混合模式) │
│ ────────────────────────────────────────────────────────── │
│ 简单任务用 API,核心业务自建;或自建 + API fallback │
│ 适用:渐进式迁移、成本优化 │
└─────────────────────────────────────────────────────────────┘
3.3 开发工具链名词
MLOps / LLMOps Platform:模型生命周期管理工具
定义与产业定位 LLMOps 平台提供模型从开发、测试、部署到监控的全流程工具。
关键组件名词
| 组件 | 代表产品 | 功能描述 |
|---|---|---|
| Experiment Tracking | MLflow, Weights & Biases | 记录训练实验参数和指标 |
| Model Registry | MLflow Registry, Neptune | 模型版本管理和审批流程 |
| Evaluation Platform | LangSmith, TruLens, RAGAS | LLM 应用的性能评估和监控 |
| Observability | Prometheus + Grafana, Datadog | 推理延迟、吞吐量、错误率监控 |
第五章:产品层——AI 能力的商业化封装
这一层的名词特征:决定市场竞争格局和用户选择。理解各产品的定位差异和商业模式。
典型读者场景:竞品分析、产品选型、创业方向判断
4.1 开发者工具产品名词
AI Coding Assistant:最成熟的 AI 商业化场景
定义与产业定位 AI 代码助手是目前 AI 领域最成功的 B2B SaaS 产品之一,验证了"AI+ 专业工作流"的商业可行性。
主流产品对比名词
| 产品 | 技术来源 | 定价模式 | 核心优势 |
|---|---|---|---|
| GitHub Copilot | OpenAI 模型(Codex 衍生) | $10/月个人,免费为学生 | IDE 生态整合最深(GitHub) |
| Tabnine | 自研模型 + 开源模型 | 分层订阅制 | 支持本地部署、代码隐私保护 |
| Amazon CodeWhisperer | 自研模型 | 免费版为主 | AWS 集成、免费策略获客 |
| Cursor | 可配置 OpenAI/本地模型 | $20/月 | AI 优先的独立编辑器 |
产品形态名词解析:
- IDE Extension / Plugin:作为 VSCode、JetBrains 等编辑器的插件存在(如 Copilot)
- Standalone AI Editor:AI 原生集成的独立编辑器(如 Cursor),提供"聊天改代码"能力
- Cloud-Native Platform:云端 IDE + AI 自动实现完整功能(如 Replit Agent)
4.2 企业级 AI 产品名词
Enterprise AI Suite:面向企业的综合解决方案
定义与产业定位 大型企业级 AI 产品通常不是单一功能,而是围绕特定业务场景的完整工具链。
主要品类名词
| 品类 | 代表产品 | 核心价值主张 |
|---|---|---|
| AI Customer Service | Intercom Fin, Zendesk AI, Salesforce Einstein | 自动化客服问答、工单分类、情绪分析 |
| AI Knowledge Management | Notion AI, Mem.ai, Obsidian Copilot | 智能文档搜索、内容生成、知识关联 |
| AI Data Analytics | Tableau GPT, PowerBI Copilot, ThoughtSpot | 自然语言查询数据、自动生成洞察报告 |
| AI Security & Compliance | Lakera, Guardrails AI | Prompt injection 防御、输出内容合规检查 |
4.3 开源产品化名词
Open Core / Open Source AI Products:社区驱动的产品形态
定义与产业定位 许多 AI 产品采用"开源核心 + 商业增值服务"模式,降低获客成本同时建立技术信誉。
主要项目对比名词
| 项目 | 开源部分 | 商业服务 | 目标用户 |
|---|---|---|---|
| Dify | 开源 LLMOps 平台 | 云托管服务、企业版功能 | 中小团队快速搭建 AI 应用 |
| LangChain | 开源框架库 | LangSmith(监控评估 SaaS) | 开发者构建 Agent 应用 |
| OpenHands / OpenAGI | 开源自主智能体平台 | 无明确商业化(研究导向) | 研究者、技术爱好者 |
| Flowise | 可视化 LangChain 构建工具 | 企业支持服务 | 低代码搭建 RAG 应用 |
第六章:业务层——用户视角的 AI 认知框架
这一层的名词特征:反映用户如何理解和预期 AI 能力。这些概念影响产品设计、市场教育和用户接受度。
典型读者场景:产品需求定义、市场营销策略、用户教育材料编写
5.1 交互模式名词
Conversational UI:AI 应用的主流交互范式
定义与产业定位 对话式界面(Chat Interface)是 AI 应用最自然的交互方式,因为 LLM 本质上是文本生成模型。
子类型名词解析
| 模式 | 用户感知 | 技术实现复杂度 | 适用场景 |
|---|---|---|---|
| Simple Chatbot | "问答机器人",单轮或简单多轮对话 | 低(直接调用 LLM API) | FAQ、简单咨询 |
| Contextual Assistant | "记得我们之前聊过什么"的助手 | 中(需要会话状态管理) | 个性化推荐、持续任务 |
| Agent-Assisted Workflow | "AI 帮我完成这个流程"的协作者 | 高(需要工具调用、规划能力) | 复杂业务流程自动化 |
Autonomous Task Execution:自主性的用户认知
定义与产业定位 "自主任务执行"是 AI 产品宣传中最常被夸大也最有价值的概念。理解真实边界很重要。
能力层级名词
AI 自主性光谱(用户视角):
[Assistive AI] ──── [Semi-Autonomous] ──── [Fully Autonomous]
│ │ │
▼ ▼ ▼
"帮我写这个句子" "起草邮件,我确认后发送" "自动处理客户工单并回复"
人类主导 关键决策人工确认 端到端全自动
典型产品:
- Copilot 模式 - 自动化工作流 - 独立 Agent 服务
(代码补全) (研究摘要生成) (客服机器人)
用户预期管理名词:
- "Do it for me"vs"Help me do it":两种不同的产品定位,对应不同自主性级别
- Outcome Guarantee(结果保证):高端企业产品的关键承诺,AI 难以完全实现
5.2 业务场景名词
AI-Augmented Decision Making:企业应用的核心价值
定义与产业定位 利用 AI 的分析能力辅助人类决策,是目前 B2B AI 产品最主流的价值主张。
典型场景名词
| 场景 | 用户痛点 | AI 解决方案 | 成熟度 |
|---|---|---|---|
| Insight Generation | 从大量数据/文档中发现模式困难 | 自然语言查询 + 自动分析 | 高(BI 工具集成) |
| Recommendation Engine | 个性化推荐需要复杂建模 | LLM 理解用户上下文生成建议 | 中(依赖数据质量) |
| Predictive Analytics | 预测趋势需要统计模型技能 | 自然语言描述预测需求 | 低(仍需谨慎对待结果) |
5.3 用户认知与预期名词
AI Capability Expectations:用户对 AI 能力的理解框架
定义与产业定位 用户对 AI"能做什么、不能做什么"的认知直接影响产品设计和满意度。
常见认知框架名词
| 用户概念 | 技术现实 | 沟通建议 |
|---|---|---|
| "AI Hallucination" | 模型可能生成看似合理但不准确的内容 | 强调 RAG 和事实核查机制 |
| "Black Box vs White Box" | 用户希望理解 AI 如何得出结论 | 提供推理过程展示(CoT) |
| "Assistant vs Autonomous Agent" | 对自主程度的不同预期导致满意度差异 | 明确产品定位,管理期望值 |
AI Interaction Patterns:用户形成的使用习惯
定义与产业定位 长期使用中,用户会形成与 AI 互动的特定模式,这些模式反过来影响产品设计。
常见交互模式名词:
- "Iterative Refinement":通过多轮对话逐步完善结果("写得更好一点"、"换个角度")
- "Context Setting":在对话开始时设定角色和约束("你是一个资深律师...")
- "Prompt Engineering as Skill":提示词编写能力成为用户差异化的关键技能
附录:跨层次概念映射表
按产业价值链的概念演进
| 业务层 (用户视角) | → | 产品层 (封装形态) | → | 应用工程层 (技术实现) | → | 科学研究层 (理论基础) | → | 基础设施层 (物理载体) |
|---|---|---|---|---|---|---|---|---|
| "AI 帮我写代码" | → | GitHub Copilot | → | IDE Plugin + LLM API | → | Code Generation Research | → | GPU Cloud Instance |
| "AI 客服自动回复" | → | Intercom Fin | → | RAG Pipeline + Agent Framework | → | Retrieval-Augmented Generation Theory | → | Vector DB + LLM Inference Cluster |
| "AI 帮我做研究" | → | Perplexity Pro | → | Search Agent + Summarization Workflow | → | Information Synthesis Algorithms | → | High-bandwidth Network + GPU Pool |
同一名词在不同层次的语义差异
| 技术名词 | 科学研究层含义 | 应用工程层含义 | 产品层含义 | 业务层含义 |
|---|---|---|---|---|
| Agent | 自主决策系统的理论模型 | 框架提供的抽象类(如 langchain.Agent) | "智能体"功能模块 | "AI 助手能自己完成任务" |
| Context | 模型的上下文窗口容量(架构属性) | 会话状态管理机制 | "记住我们之前的对话" | "AI 记得我说过的话" |
使用指南
按角色推荐阅读路径
投资者 / 分析师
- 第一层:理解 GPU 供应链格局、云厂商竞争态势、电力基础设施瓶颈
- 第四层:分析各产品赛道的竞争格局和商业模式
- 第五层:把握用户需求和市场教育进度
- 跳过第二层的数学细节,第三层关注技术选型风险
企业决策者 / CTO
- 第一层:评估自建 vs 云服务的成本结构
- 第二章:理解模型选择的技术边界(开源 vs 闭源)
- 第三章:技术栈选型(框架、推理优化方案)、TCO 计算和部署模式选择
- 第四层:产品供应商评估和采购决策
创业者 / 产品经理
- 全层阅读,重点关注:
- 第一层:供应链风险和成本结构
- 第二层:技术可行性和竞争壁垒
- 第三章:决策框架(TCO、选型、供应商评估)
- 第四层:产品差异化机会
- 第五层:用户认知教育和市场切入角度
跨层次阅读建议
- 从下往上读:先理解基础设施约束,再理解技术实现,最后理解业务价值
- 从上往下读:从业务需求出发,逐层追溯技术实现和理论基础
- 横向对比:同一概念在不同层次的语义差异(见附录映射表)