ch00 · AI 全景与概念速查¶

不用现在全懂。 本文是地图，不是考试。先建立整体印象，遇到陌生词翻到末尾的术语速查表即可。

0. 引言¶

2022 年底，ChatGPT 一夜之间让全世界知道了 "大语言模型"。但在它背后，是从感知机到 Transformer 长达六十年的积累，是 Scaling Law 的量化预言，是 RLHF 对齐技术的临门一脚。

这篇文档帮你快速建立全局认知：AI 怎么走到今天、核心概念之间什么关系、一个模型从训练到上线经历了哪些阶段、当下前沿在做什么。不求深，但求 "知道自己不知道什么"。

1. 前史速览¶

年代	事件	意义
1958	感知机 (Perceptron)	第一个可学习的神经网络单元
1969	Minsky《Perceptrons》出版	数学证明感知机局限性，成为 AI 第一次寒冬的导火索——此后神经网络沉寂近 20 年
1986	反向传播算法普及	多层网络可训练，寒冬回暖
2012	AlexNet 夺冠 ImageNet	深度学习实用化信号，GPU 训练起飞

以上仅供定位"深度学习从哪里来"。本文重点从下一节开始。

2. 当代大模型时间线（2013–2025）¶

年份	里程碑	一句话意义
2013	Word2Vec	词可以变成向量，向量可以做算术（king - man + woman ≈ queen）
2014	RNN/Seq2Seq / GAN	序列到序列翻译框架；对抗生成范式诞生
2015	Attention 机制	解码时动态聚焦源端相关位置，性能跃升
2017	Transformer	"Attention Is All You Need"，抛弃 RNN 的循环，全靠注意力+并行
2018	GPT-1 / BERT	预训练+微调范式确立；自回归 (Autoregressive) vs 双向掩码 (Bidirectional Masked) 两条路线分野
2020	Scaling Law / GPT-3	Scaling Law（2020 初）量化了"规模→性能"规律；GPT-3 (1750亿参数) 是其验证产物
2020	Vision Transformer (ViT)	Transformer 入侵视觉领域，证明注意力不止能做 NLP
2021	DALL·E 1 / CLIP	文本↔图像对齐，多模态时代序幕
2022	ChatGPT / InstructGPT	RLHF 对齐落地，LLM 进入大众视野
2022	Stable Diffusion	潜空间扩散，开源图像生成爆发
2023	GPT-4 / LLaMA	多模态闭源标杆；开源权重潮涌
2023	MoE 规模化 (Mixtral)	稀疏激活降本，同等效果少用算力
2024	Sora / 视频生成	DiT 架构驱动长视频生成
2024	开源追平 (Qwen2/LLaMA3/DeepSeek)	开源模型能力逼近闭源前沿
2025	DeepSeek-R1 / 推理模型 / Agent	开源推理模型比肩闭源；模型学会 "思考" 与 "使用工具"

3. 概念分类树¶

AI（人工智能）
└─ ML（机器学习）
   ├─ 学习范式（数据怎么用）
   │   ├─ 监督学习
   │   ├─ 无监督学习
   │   ├─ 自监督学习
   │   └─ 强化学习
   └─ 模型架构（网络怎么搭）
       ├─ 传统 ML
       └─ 神经网络（多层时称"深度学习"）
           ├─ MLP (多层感知机)
           ├─ CNN (卷积神经网络)
           ├─ RNN → LSTM / GRU (循环神经网络)
           └─ Transformer (Attention 机制)
               ├─ Encoder-only（BERT 系）
               ├─ Decoder-only（GPT 系）
               └─ Encoder-Decoder（T5 / BART）

学习范式¶

范式	核心思路	典型应用
监督学习	有标签，学输入→标签映射	图像分类、情感分析、序列标注
无监督学习	无标签，学数据内部结构	聚类、降维、异常检测
自监督学习	从数据自身构造标签（遮挡/预测下一个）	MLM (BERT)、CLM (GPT)、对比学习 (CLIP)
强化学习	智能体与环境交互，最大化累积奖励	游戏 AI、机器人控制、RLHF

注：还有一种半监督学习（少量标签 + 大量无标签数据混合训练），工业界常见但在当代大模型链路中不是主角，此处不展开。

生动类比

监督学习 — 像做带答案的习题集：老师给你题目和标准答案，你反复练到能举一反三。
无监督学习 — 像整理一堆没标签的照片：没人告诉你分类标准，你自己发现"这些是风景、那些是人像"。
自监督学习 — 像完形填空：把文章挖几个空让你猜，答案就藏在原文里，不需要额外标注。GPT 等当代 LLM 被训练出来的 "预测下一个词" 本质就是这个。
强化学习 — 像训练小狗：做对了给零食（奖励），做错了没有。小狗通过反复试错学会"坐下"和"握手"。

两维度正交¶

学习范式和模型架构是独立的两个选择。任何架构都能搭配任何范式。

	MLP	CNN	RNN/LSTM	Transformer
监督	✓	✓	✓	✓
无监督	✓ (AE)	✓ (VAE)	✓	✓
自监督	△ (罕见)	✓ (SimCLR)	△ (罕见)	✓ (GPT/BERT/CLIP)
强化学习	✓ (DQN)	✓	✓	✓ (Decision Transformer)

4. 架构演进路线¶

MLP（全连接）
 │
 ├──→ CNN ──────────────────────────┐
 │    "用卷积核扫描局部特征"           │
 │                                  │
 └──→ RNN → LSTM / GRU              │ 2017: 全部汇聚
      "隐状态传递记忆"                │
       │                            │
       └→ Seq2Seq + Attention ──────→ Transformer
           "解码器动态看源端"         "全靠注意力，并行训练"

每一站的故事¶

架构	核心思想	擅长	主要瓶颈
MLP	全连接层堆叠	通用基础积木	无法捕捉空间/序列结构
CNN	局部感受野 + 权重共享 + 池化	图像、空间特征	全局依赖需要很深
RNN / LSTM / GRU	隐状态逐步传递	序列、时序	长距离遗忘，无法并行
Transformer	自注意力 + 位置编码	全局依赖，天然并行	计算量随序列长度二次增长

MLP（多层感知机）

类比：一堆人站成几排传纸条——每个人能看到上一排所有人递来的内容，但完全不知道"顺序"和"位置"有什么含义。

输入 [x₁, x₂, ..., xₙ]
      ↓ 全连接（每个输入连到每个神经元）
隐藏层 [h₁, h₂, ..., hₘ]  ← 激活函数（ReLU 等）
      ↓ 全连接
输出 [y₁, y₂, ..., yₖ]

能拟合任意函数（万能近似定理），但对空间/序列结构完全无感——把图片像素打乱顺序喂进去，它毫无察觉。参数量随输入维度爆炸（1000×1000 图片 → 百万维全连接）。

CNN（卷积神经网络）

类比：拿一个小放大镜在图片上逐块扫描——每次只看局部，但同一个放大镜（同一组权重）扫遍整张图，找出所有"边缘""纹理"。

输入图像 [H × W × C]
      ↓ 卷积核滑动扫描（提取局部特征）
特征图 [H' × W' × F]   ← 多个卷积核 = 多种特征
      ↓ 池化（下采样，压缩空间尺寸）
更小特征图
      ↓ 重复 N 层（浅层→边缘 / 中层→纹理 / 深层→物体部件）
      ↓ 展平 → MLP
分类输出（经典应用 = 图像识别/分类）

关键设计：权重共享（一个卷积核全图复用，参数极少）+ 池化（压缩空间 + 平移不变性）。成就：2012 AlexNet 引爆深度学习。局限：感受野有限，全局依赖需堆很多层。

RNN → LSTM/GRU

类比：逐字朗读一篇文章，同时在脑中维护一份"到目前为止的摘要"。每读一个字就更新摘要，用摘要指导后续理解。读到第 500 页时，第 1 页的细节早忘了。

输入序列: x₁, x₂, x₃, ..., xₜ
           ↓    ↓    ↓         ↓
RNN:    [h₀]→[h₁]→[h₂]→[h₃]→...→[hₜ] → 输出
         初始  每步: hₜ = f(hₜ₋₁, xₜ)
         状态  "用上一步的记忆 + 当前输入 → 新记忆"

问题：信息在反复覆盖中稀释殆尽（梯度消失）。LSTM 加三个"门"（遗忘门/输入门/输出门）控制信息存取，缓解遗忘但未根治。致命局限：必须串行（h₂ 依赖 h₁），无法并行，训练慢。

Seq2Seq + Attention

类比：同声传译——翻译每个词时不是死记整句话，而是回头扫一眼原文中最相关的部分，动态聚焦。

编码器 (RNN):  [法语 x₁...xₙ] → 隐状态序列 [h₁, h₂, ..., hₙ]

解码器 (RNN):  生成每个英语词时:
               ① 算注意力权重 αᵢ = 对齐(当前解码状态, hᵢ)
               ② 加权求和 context = Σ αᵢ·hᵢ  ← "聚焦源端相关位置"
               ③ context + 上一个输出 → 生成下一个词

效果：翻译质量飞跃（终于不用把整句话压成一个固定向量了）。但编码/解码仍是 RNN，串行瓶颈未消。

Transformer

类比：一间教室里所有学生同时互相交流，每个人瞬间获取任何人的信息——沟通效率极高，但人数多了开销爆炸。

输入 tokens + 位置编码
      ↓
┌─ Transformer Block × N ─────────────────┐
│                                          │
│  自注意力: 每个 token 同时看所有其他 token │
│     Q·Kᵀ → 权重 → 加权求和 V            │
│           ↓                              │
│  前馈网络 (FFN): 逐位置独立变换           │
│           ↓                              │
│  残差连接 + 归一化                        │
└──────────────────────────────────────────┘
      ↓
输出

激进一步：RNN 全扔掉，编码和解码都只用注意力。每个块两大组件：自注意力（捕捉 token 间关系）+ FFN（逐位置独立变换，提供非线性拟合能力）。位置信息靠位置编码注入。收益：完全并行（所有 token 同时互看）+ 全局依赖一步到位（第 1 个和第 1000 个 token 直接交互）。代价：注意力计算 O(n²)。自此之后，几乎所有 SOTA 模型都基于 Transformer 变体。

5. 当下模型方向¶

本节概览各模态主流技术路线，后续内容聚焦 LLM（文本生成）。

模态	主流架构	训练方法	代表
文本生成	Decoder-only Transformer	CLM 自回归	GPT-4、LLaMA、Qwen
文本理解	Encoder-only Transformer	MLM 掩码	BERT、RoBERTa
图像生成	DiT / U-Net	扩散 (Diffusion)	Stable Diffusion、DALL·E 3
视频生成	DiT 变体	扩散 + 时序建模	Sora、Kling
多模态理解	VLM（视觉编码器 + LLM）	对比学习 + CLM	GPT-4V、Qwen-VL
代码	Decoder-only Transformer	CLM + Fill-in-Middle	Codex、DeepSeek-Coder

注：以上训练方法均属于自监督学习（从数据自身构造学习信号，无需人工标注）。监督学习（SFT）和强化学习（RLHF/DPO）在后续微调、对齐阶段介入。

为什么文本走自回归、图像走扩散？¶

扩散模型一句话原理：训练时对图像逐步加噪直到变成纯噪声，然后训练网络学会逆过程（去噪）。推理时从纯随机噪声出发，逐步去噪，最终生成清晰图像。

文本天然是离散序列，左到右逐 token 生成符合语言本质，CLM 自回归简洁高效。
图像是高维连续信号，像素之间强空间相关性；扩散模型通过逐步去噪，能在潜空间稳定生成高质量图像，比 GAN 更易训练、生成质量和训练稳定性优于自回归像素生成。

注：图像与视频生成不再展开，本系列课件聚焦 LLM。

6. LLM 全链路地图¶

什么是预训练？¶

预训练 = 拿海量无标注文本，让模型反复做一件事：根据前文预测下一个 token（即 CLM）。不需要人工标注，模型通过数万亿次预测，自己学会语言规律、事实知识和推理模式。这一步成本最高（数千张 GPU 跑数周），产出称为 base 模型。

为什么预训练不够？¶

Pretrain 产出 base 模型 → 会续写文本，但不会对话。你说 "北京天气怎样"，它可能接 "预报显示明天晴转多云……后天……" 无限续写，而不是回答你的问题。
SFT 教会对话格式 → 能正常对话了，但可能输出有害内容或质量参差不齐。它学了 "怎么说话"，没学 "什么该说什么不该说"。
Alignment 对齐人类偏好 → 好用且安全了。但数百亿参数的模型普通人跑不起来。
量化精度换显存 → FP16 压到 INT4，显存省 4 倍，终于能在消费级硬件跑起来。

数据  → Pretrain  → SFT  → Alignment  → 量化  → 部署推理  → 上层应用
       (base模型)  (能对话)  (好用安全)  (跑得动)  (跑起来)    (用起来)

训练阶段¶

阶段	做什么	产出
Pretrain	自监督 next token prediction，海量文本，烧大算力	Base 模型（会续写，不会对话）
SFT	有监督微调，学对话格式与指令服从	Chat 模型（能对话）
Alignment	对齐人类偏好（RLHF / DPO），变好用+无害	对齐后模型
量化	FP16 → INT8/INT4，精度换显存	可本地部署的模型

SFT 具体怎么做？¶

核心：用 "指令 + 标准回答" 的配对数据，教 base 模型学会对话格式。

训练样本:
[User] 用一句话解释什么是黑洞
[Assistant] 黑洞是时空中引力极强、连光都无法逃逸的区域。

Base 模型只会无限续写，SFT 让它学到：看到 [User] 就该在 [Assistant] 后给出简洁回答然后停下来。本质是用监督学习把 "对话行为模式" 注入模型。数据质量 > 数量 —— 早期 7B 级模型几万条高质量样本就能显著改变行为，前沿大模型（如 DeepSeek V3）则用到百万级。

Alignment 具体怎么做？¶

核心：让人类当裁判，告诉模型 "哪个回答更好"，模型据此调整行为。

Prompt: "如何减肥？"
回答 A (chosen ✓): "建议控制饮食+适量运动，具体可以……"
回答 B (rejected ✗): "直接绝食三天，效果立竿见影"
→ 模型学到：往 A 靠，远离 B

RLHF：先训一个"裁判"（奖励模型），再用 PPO 让 LLM 最大化裁判打分。两阶段，贵且不稳定。
DPO：跳过裁判，直接拿偏好对数据优化 LLM（数学上等价于隐式奖励模型）。一阶段，简单稳定，开源主流。

推理与部署（概述）¶

模型训完后需要高效跑起来。类比：训练像 "培养一个专家"，推理像 "让专家上岗接客" —— 上岗时要考虑响应速度和接待能力。

核心优化思路：

KV Cache — 类比：写长文章时边写边在旁边记 "要点清单"，每写完一句就追加一条，下一句直接看清单，不用从头重读全文重新提炼。模型生成每个新 token 时，把已生成 token 的 K、V 向量缓存下来，下一步直接复用，避免重算。
量化 — 类比：把精装全彩教材换成黑白口袋本——内容几乎一样，但体积小得多。将模型参数从高精度（FP16）压缩到低精度（INT8/INT4），显存开销大幅下降，精度损失很小。
Continuous Batching — 多个用户请求动态拼批处理（多 slot 独立 KV Cache、采样规则），提升 GPU 利用率。

本课程后续章节课件会展开。

上层应用¶

概念	一句话
Prompt Engineering	不改模型只改输入——CoT（思维链）/ few-shot / role play
RAG	检索外部知识注入 prompt，缓解幻觉，让模型 "有据可查"
Function Calling	模型按格式输出工具调用指令，外部执行后回传结果
MCP	Model Context Protocol，标准化模型与外部工具/数据源的连接协议
Skill	Agent 的可复用能力单元，封装特定任务的 prompt + 工具组合
Agent	模型 + 工具调用 + 多步规划，从 "回答问题" 到 "完成任务"

类比：如果 LLM 是大脑，那么

Prompt Engineering 是 "问对问题的技巧"

RAG 是 "查资料"

Function Calling 是 "动手操作"

MCP 是 "统一的工具接口标准"

Skill 是 "学会的一项具体技能"

Agent 是 "自主规划+执行一整套流程"。

想看工业界真实案例如何落地以上全链路？见下方附录。

附录：前沿模型完整链路（DeepSeek V3 / R1 & Qwen2.5）¶

以下展示 2024–2025 年前沿开源模型的真实全链路。信息密度较高，初次阅读完全可以跳过——等学完注意力机制再回来细读效果更好。

Dense vs MoE¶

Dense（稠密）：每个 token 经过网络的全部参数。简单直接，但参数量 ≈ 计算量，大了就贵。
MoE（混合专家）：把 FFN 拆成多个"专家"子网络，每个 token 只路由到少数几个专家。总参数量很大（知识容量大），但单次推理只激活一小部分（计算成本可控）。

下方 DeepSeek V3 采用 MoE（671B 总参数 / 37B 激活），Qwen2.5 采用 Dense。

架构层¶

┌────────────────────────────────────────────────────────┐
│  DeepSeek V3 Arch (671B total / ~37B active per token) │
├────────────────────────────────────────────────────────┤
│                                                        │
│  Input Embedding + RoPE                                │
│       ↓                                                │
│  ┌─ Transformer Block × 61 ──────────────────────┐     │
│  │                                               │     │
│  │  ┌─ Multi-head Latent Attention (MLA) ──────┐ │     │
│  │  │  Q/K/V compressed to low-rank latent[1]  │ │     │
│  │  │  → KV Cache much smaller than GQA[2]     │ │     │
│  │  └──────────────────────────────────────────┘ │     │
│  │       ↓                                       │     │
│  │  ┌─ DeepSeekMoE FFN ───────────────────────┐  │     │
│  │  │  1 shared expert (always active)        │  │     │
│  │  │  + 256 routed experts (top-8 active)    │  │     │
│  │  │  → aux-loss-free load balancing[3]      │  │     │
│  │  └─────────────────────────────────────────┘  │     │
│  │       ↓                                       │     │
│  │  RMSNorm + Residual Connection[4]             │     │
│  └───────────────────────────────────────────────┘     │
│       ↓                                                │
│  Output Head (+ Multi-Token Prediction aux head)       │
└────────────────────────────────────────────────────────┘

[1] Q/K/V 压缩到低秩潜向量
[2] 大幅缩减 KV Cache（比 GQA 更省显存）
[3] 无辅助损失负载均衡
[4] 残差连接

┌───────────────────────────────────────────────┐
│  Qwen2.5 架构 (Dense, 0.5B–72B)               │
├───────────────────────────────────────────────┤
│                                               │
│  Input Embedding + RoPE                       │
│       ↓                                       │
│  ┌─ Transformer Block × N ────────────┐      │
│  │  Grouped Query Attention (GQA)      │      │
│  │       ↓                             │      │
│  │  SwiGLU FFN                         │      │
│  │       ↓                             │      │
│  │  RMSNorm + 残差连接                 │      │
│  └─────────────────────────────────────┘      │
│       ↓                                       │
│  Output Head                                  │
└───────────────────────────────────────────────┘

架构关键差异对比

维度	DeepSeek V3	Qwen2.5
参数规模	671B total / 37B active	0.5B–72B (Dense)
注意力	MLA（低秩潜向量压缩 KV）	GQA（分组共享 KV head）
FFN	MoE：1 shared + 256 routed (top-8)	Dense SwiGLU
位置编码	RoPE	RoPE
归一化	RMSNorm (Pre-LN)	RMSNorm (Pre-LN)
辅助训练	Multi-Token Prediction	—
KV Cache 开销	极低（MLA 压缩）	中等（GQA 分组共享）

训练流程¶

下方 ASCII 流程图较宽，建议在宽屏下查看。

DeepSeek V3 + R1 完整流程：

 ┌──────────── V3 Base ────────────┐
 │                                 │
 │  数据: 14.8T tokens             │
 │  精度: FP8 混合精度              │
 │  并行: Pipeline + Expert        │
 │  目标: CLM + MTP 辅助损失       │
 │  硬件: 2048× H800               │
 │                                  │
 └──────────────┬───────────────────┘
                │
                ├────────────────────────────────┐
                │                                │
                ▼                                ▼
 ┌──────── V3 Chat (SFT + RL) ───┐  ┌──────────── R1 推理模型 ────────┐
 │                               │  │                                │
 │  SFT: 150 万条高质量对话       │  │  阶段 1: 冷启动 SFT             │
 │  RL:  GRPO (无 Critic 模型)   │  │     少量 long-CoT 示例          │
 │                               │  │           ↓                    │
 └─────────────┬─────────────────┘  │  阶段 2: 大规模 RL (GRPO)       │
               │                    │     规则奖励: 正确性 + 格式      │
               ▼                    │     模型自发涌现 CoT 推理        │
 部署：FP8 推理 / GGUF 量化 /         │           ↓                    │
       SGLang / vLLM                │  阶段 3: 拒绝采样 → SFT         │
                                    │     用 RL 模型生成高质量数据     │
                                    │     混合通用 SFT 数据再训        │
                                    │           ↓                    │
                                    │  阶段 4: 二次 RL                │
                                    │     全场景对齐(推理+通用)        │
                                    │           ↓                    │
                                    │  部署：动态量化 / GGUF /         │
                                    │        SGLang / vLLM           │
                                    │                                │
                                    └────────────────────────────────┘

Qwen2.5 训练流程：

  数据: 约 18T tokens (多语言，官方未公开确切数字)
       ↓
  Pre-train (多阶段: 通用 → 长上下文扩展)
       ↓
  SFT (大规模高质量指令数据)
       ↓
  Alignment: DPO 为主 (离线偏好优化)
       ↓
  部署：原生 Dense / GGUF 量化 / vLLM

训练关键差异对比

维度	DeepSeek V3/R1	Qwen2.5
预训练数据	14.8T tokens	约 18T tokens
预训练精度	FP8	BF16
对齐方法	GRPO（无 Critic，组内相对奖励）	DPO 为主
推理能力来源	纯 RL 涌现 CoT（R1 路线）	SFT + DPO（数学/代码专项 RL）
MTP 辅助	有（预测多个未来 token）	无
推理阶段特色	多阶段 RL + 拒绝采样迭代	单轮 DPO

关键技术点解读¶

MLA (Multi-head Latent Attention) — 标准 MHA 每个 head 独立存 K/V，显存随层数×头数线性增长。MLA 将 K/V 投射到低维潜向量，推理时只缓存潜向量，解码时再投射回去。效果：KV Cache 比 GQA 还小，长序列优势巨大。

DeepSeek MoE — 256 个路由专家只激活 top-8，加 1 个始终激活的共享专家兜底通用能力。负载均衡不用辅助损失（避免干扰主损失），改用 token 级别的动态路由偏置。

GRPO (Group Relative Policy Optimization) — PPO 需要 Critic 模型估计 baseline（贵）。GRPO 改为：对同一 prompt 采样一组回答，用组内平均奖励做 baseline。省掉 Critic，训练成本砍半。

Multi-Token Prediction (MTP) — 在 CLM 主目标之外，额外预测未来 2~3 个 token。增强表示质量，预训练后可丢弃或用于 speculative decoding 加速推理。

附录：主流 LLM 架构差异速查¶

横向对比代表性模型的关键架构选型。部分闭源模型架构未公开，标注为推测。

维度	GPT-2	LLaMA-3-8B	Qwen-2.5-72B	DeepSeek-V3-671B	Qwen-3-235B	DeepSeek-4.0	GPT-4o
参数量	1.5B	8B	72B	671B (37B active)	235B (22B active)	~1T (37-50B active)	未公开
n_layers	48	32	80	61	94	64-80	未公开
d_model	1600	4096	8192	7168	~8192	8192-10240	未公开
n_heads	25	32	64	128	64 (Q) / 4 (KV)	128	未公开
归一化类型	LayerNorm	RMSNorm	RMSNorm	RMSNorm	RMSNorm	RMSNorm	未公开
归一化位置	Pre-LN	Pre-LN	Pre-LN	Pre-LN	Pre-LN	Pre-LN	推测 Pre-LN
位置编码	学习式	RoPE	RoPE	RoPE	RoPE + ABF + YARN + DCA	RoPE（高基频，原生 1M）	推测 RoPE
注意力类型	MHA	GQA	GQA	MLA	GQA	MLA v2	未公开
KV heads	25 (全 MHA)	8	8	— (潜向量)	4	— (潜向量)	未公开
FFN 激活	GELU	SwiGLU	SwiGLU	SwiGLU	SwiGLU	SwiGLU	未公开
FFN 结构	Dense	Dense	Dense	MoE (1+256, top-8)	MoE (128, top-8)	MoE (1+512, top-8)	推测 MoE
词表大小	50,257	128,256	152,064	129,280	151,669	150,000-200,000	未公开
原生上下文长度	1,024	8,192	131,072	128,000	128,000	256K-1M	128,000

数据截止至 2026-05-20

趋势观察：

归一化：LayerNorm → RMSNorm（省计算，效果持平）
位置编码：学习式 → RoPE（支持长上下文外推）
注意力：MHA → GQA → MLA（逐步压缩 KV Cache 开销）
FFN 激活：GELU → SwiGLU（效果更好）
FFN 结构：Dense → MoE（大模型降本，中小模型通常仍用 Dense）

附录：AI 概念全景分类树¶

§3 的分类树聚焦"当代 ML"维度。这里补一张从历史流派到具体方法的全景图，帮助定位各概念的来龙去脉。

AI (Artificial Intelligence，人工智能)
├── 符号主义 (Symbolism / GOFAI)         ← 主导 1950s–1980s，现已边缘
│   ├── Expert System (专家系统)          ← MYCIN、DENDRAL、XCON
│   ├── Knowledge Graph (知识图谱)        ← 仍活跃：搜索、电商、金融风控
│   ├── Logic / Prolog (逻辑推理)
│   └── Planning & Search (规划与搜索)    ← A*、STRIPS、AlphaGo 的 MCTS (Monte Carlo Tree Search，蒙特卡洛树搜索)
│
├── 连接主义 (Connectionism)              ← 神经网络派，当下绝对主流
│   └── Machine Learning (ML，机器学习)
│       ├── 传统 ML
│       │   ├── Linear / Logistic Regression (线性 / 逻辑回归)
│       │   ├── Decision Tree (决策树) → Random Forest → GBDT (XGBoost / LightGBM)
│       │   ├── Support Vector Machine (SVM，支持向量机)
│       │   ├── Naive Bayes (朴素贝叶斯)
│       │   └── K-Means / PCA (聚类 / 降维)
│       └── Neural Network (NN，多层时称 DL - Deep Learning)
│            ├── MLP / FNN              ← 万能近似器，所有 NN 基本盘
│            ├── CNN                    ← 图像主力
│            ├── RNN / LSTM / GRU       ← 序列老兵，被 Transformer 替代
│            └── Transformer            ← 当下统治者（GPT / BERT / LLaMA …）
│                ├── Encoder-only       ← BERT 系，理解任务
│                ├── Decoder-only       ← ** GPT 系，LLM 生成主流 **
│                └── Encoder-Decoder    ← T5 / Whisper，翻译类
│            ── 其他变体概念：
│            ├── Autoencoder / VAE      ← 表示学习、生成模型源头
│            ├── GAN                    ← 生成对抗，2014–2020 图像生成主流
│            ├── Diffusion              ← 当下图像 / 视频生成主流
│            ├── MoE                    ← 稀疏激活，大参小算（DeepSeek / Mixtral）
│            ├── Mamba / SSM            ← Transformer 挑战者，长序列友好
│
├── 行为主义 (Behaviorism / Cybernetics)  ← 思想源控制论
│   ├── Reinforcement Learning (RL，强化学习)  ← 学术也归 ML 第三学习范式
│   │   ├── Value-based (Q-Learning, DQN)
│   │   ├── Policy-based (REINFORCE, PPO)
│   │   └── Actor-Critic (A3C, SAC)
│   └── Robotics (机器人学)                ← 含传统控制论
│
└── Evolutionary Computation (演化计算)   ← 小众但独立
    ├── Genetic Algorithm (GA，遗传算法)
    └── Neural Architecture Search (NAS)  ← 与 DL 结合复活

注：流派界限并非绝对，现代系统常融合多种思路（如 LLM + 知识图谱、RL + Transformer = RLHF）。本课程聚焦的是连接主义路线。

附录：术语速查表¶

术语	全称	中译	一句话
AE	Autoencoder	自编码器	编码器压缩 + 解码器重建，学习数据的压缩表示
Agent	AI Agent	-	模型 + 工具调用 + 多步规划，自主完成任务
BPE	Byte Pair Encoding	字节对编码	子词分词算法，从字符对频率迭代合并
CLM	Causal Language Modeling	因果语言建模	自回归语言建模，根据前文预测下一个 token
CNN	Convolutional Neural Network	卷积神经网络	擅长捕捉局部空间特征
Continuous Batching	-	连续批处理	动态拼批多请求，提升 GPU 利用率
CoT	Chain of Thought	思维链	让模型分步推理再给结论
DPO	Direct Preference Optimization	直接偏好优化	无需训练奖励模型的对齐方法
DiT	Diffusion Transformer	-	用 Transformer 替代 U-Net 做扩散模型骨干
FFN	Feed-Forward Network	前馈网络	Transformer 内的逐位置全连接层
FIM	Fill-in-Middle	中间填充	给定前缀和后缀让模型补全中间内容，代码补全常用
GAN	Generative Adversarial Network	生成对抗网络	生成器与判别器博弈
GQA	Grouped Query Attention	分组查询注意力	多个 Q head 共享一组 KV，省显存
GRPO	Group Relative Policy Optimization	-	组内相对奖励策略优化，无需 Critic 模型的 RL 方法
GRU	Gated Recurrent Unit	门控循环单元	LSTM 简化变体
KV Cache	Key-Value Cache	键值缓存	推理时缓存已计算的 K/V 矩阵避免重复计算
LLM	Large Language Model	大语言模型	-
LoRA	Low-Rank Adaptation	低秩适配	冻结原参数只训小矩阵，省显存
LSTM	Long Short-Term Memory	长短期记忆网络	用门控解决 RNN 长距离遗忘
MCP	Model Context Protocol	-	标准化模型与外部工具/数据源的连接协议
MLA	Multi-head Latent Attention	多头潜注意力	将 KV 压缩到低维潜向量，极省显存
MLM	Masked Language Modeling	掩码语言建模	遮住部分 token 让模型预测（BERT）
MLP	Multi-Layer Perceptron	多层感知机	最基础的前馈全连接网络
MoE	Mixture of Experts	混合专家	稀疏激活降低计算量
MTP	Multi-Token Prediction	多 token 预测	辅助训练目标，同时预测未来多个 token
PPO	Proximal Policy Optimization	近端策略优化	RLHF 中常用的策略梯度算法
QLoRA	Quantized LoRA	-	LoRA + 4-bit 量化底座，进一步省显存
RAG	Retrieval-Augmented Generation	检索增强生成	外挂知识库缓解幻觉
RL	Reinforcement Learning	强化学习	-
RLHF	RL from Human Feedback	-	基于人类反馈的强化学习对齐方法
RMSNorm	Root Mean Square Normalization	均方根归一化	比 LayerNorm 更快的归一化方案
RNN	Recurrent Neural Network	循环神经网络	隐状态逐步传递建模序列
RoPE	Rotary Position Embedding	旋转位置编码	Transformer 相对位置方案
SFT	Supervised Fine-Tuning	有监督微调	-
SOTA	State of the Art	当前最优	某任务/基准上的最佳性能或模型
Speculative Decoding	-	推测解码	用小模型草拟多 token，大模型一次验证，加速推理
SwiGLU	Swish-Gated Linear Unit	-	带门控的激活函数，现代 Transformer FFN 常用
VAE	Variational Autoencoder	变分自编码器	潜空间连续化可采样生成
VLM	Vision-Language Model	视觉语言模型	图文多模态理解