ch00 · AI 全景与概念速查¶
不用现在全懂。 本文是地图,不是考试。先建立整体印象,遇到陌生词翻到末尾的术语速查表即可。
0. 引言¶
2022 年底,ChatGPT 一夜之间让全世界知道了 "大语言模型"。但在它背后,是从感知机到 Transformer 长达六十年的积累,是 Scaling Law 的量化预言,是 RLHF 对齐技术的临门一脚。
这篇文档帮你快速建立全局认知:AI 怎么走到今天、核心概念之间什么关系、一个模型从训练到上线经历了哪些阶段、当下前沿在做什么。不求深,但求 "知道自己不知道什么"。
1. 前史速览¶
| 年代 | 事件 | 意义 |
|---|---|---|
| 1958 | 感知机 (Perceptron) | 第一个可学习的神经网络单元 |
| 1969 | Minsky《Perceptrons》出版 | 数学证明感知机局限性,成为 AI 第一次寒冬的导火索——此后神经网络沉寂近 20 年 |
| 1986 | 反向传播算法普及 | 多层网络可训练,寒冬回暖 |
| 2012 | AlexNet 夺冠 ImageNet | 深度学习实用化信号,GPU 训练起飞 |
以上仅供定位"深度学习从哪里来"。本文重点从下一节开始。
2. 当代大模型时间线(2013–2025)¶
| 年份 | 里程碑 | 一句话意义 |
|---|---|---|
| 2013 | Word2Vec | 词可以变成向量,向量可以做算术(king - man + woman ≈ queen) |
| 2014 | RNN/Seq2Seq / GAN | 序列到序列翻译框架;对抗生成范式诞生 |
| 2015 | Attention 机制 | 解码时动态聚焦源端相关位置,性能跃升 |
| 2017 | Transformer | "Attention Is All You Need",抛弃 RNN 的循环,全靠注意力+并行 |
| 2018 | GPT-1 / BERT | 预训练+微调范式确立;自回归 (Autoregressive) vs 双向掩码 (Bidirectional Masked) 两条路线分野 |
| 2020 | Scaling Law / GPT-3 | Scaling Law(2020 初)量化了"规模→性能"规律;GPT-3 (1750亿参数) 是其验证产物 |
| 2020 | Vision Transformer (ViT) | Transformer 入侵视觉领域,证明注意力不止能做 NLP |
| 2021 | DALL·E 1 / CLIP | 文本↔图像对齐,多模态时代序幕 |
| 2022 | ChatGPT / InstructGPT | RLHF 对齐落地,LLM 进入大众视野 |
| 2022 | Stable Diffusion | 潜空间扩散,开源图像生成爆发 |
| 2023 | GPT-4 / LLaMA | 多模态闭源标杆;开源权重潮涌 |
| 2023 | MoE 规模化 (Mixtral) | 稀疏激活降本,同等效果少用算力 |
| 2024 | Sora / 视频生成 | DiT 架构驱动长视频生成 |
| 2024 | 开源追平 (Qwen2/LLaMA3/DeepSeek) | 开源模型能力逼近闭源前沿 |
| 2025 | DeepSeek-R1 / 推理模型 / Agent | 开源推理模型比肩闭源;模型学会 "思考" 与 "使用工具" |
3. 概念分类树¶
AI(人工智能)
└─ ML(机器学习)
├─ 学习范式(数据怎么用)
│ ├─ 监督学习
│ ├─ 无监督学习
│ ├─ 自监督学习
│ └─ 强化学习
└─ 模型架构(网络怎么搭)
├─ 传统 ML
└─ 神经网络(多层时称"深度学习")
├─ MLP (多层感知机)
├─ CNN (卷积神经网络)
├─ RNN → LSTM / GRU (循环神经网络)
└─ Transformer (Attention 机制)
├─ Encoder-only(BERT 系)
├─ Decoder-only(GPT 系)
└─ Encoder-Decoder(T5 / BART)
学习范式¶
| 范式 | 核心思路 | 典型应用 |
|---|---|---|
| 监督学习 | 有标签,学 输入→标签 映射 | 图像分类、情感分析、序列标注 |
| 无监督学习 | 无标签,学数据内部结构 | 聚类、降维、异常检测 |
| 自监督学习 | 从数据自身构造标签(遮挡/预测下一个) | MLM (BERT)、CLM (GPT)、对比学习 (CLIP) |
| 强化学习 | 智能体与环境交互,最大化累积奖励 | 游戏 AI、机器人控制、RLHF |
注:还有一种半监督学习(少量标签 + 大量无标签数据混合训练),工业界常见但在当代大模型链路中不是主角,此处不展开。
生动类比
- 监督学习 — 像做带答案的习题集:老师给你题目和标准答案,你反复练到能举一反三。
- 无监督学习 — 像整理一堆没标签的照片:没人告诉你分类标准,你自己发现"这些是风景、那些是人像"。
- 自监督学习 — 像完形填空:把文章挖几个空让你猜,答案就藏在原文里,不需要额外标注。GPT 等当代 LLM 被训练出来的 "预测下一个词" 本质就是这个。
- 强化学习 — 像训练小狗:做对了给零食(奖励),做错了没有。小狗通过反复试错学会"坐下"和"握手"。
两维度正交¶
学习范式和模型架构是独立的两个选择。任何架构都能搭配任何范式。
| MLP | CNN | RNN/LSTM | Transformer | |
|---|---|---|---|---|
| 监督 | ✓ | ✓ | ✓ | ✓ |
| 无监督 | ✓ (AE) | ✓ (VAE) | ✓ | ✓ |
| 自监督 | △ (罕见) | ✓ (SimCLR) | △ (罕见) | ✓ (GPT/BERT/CLIP) |
| 强化学习 | ✓ (DQN) | ✓ | ✓ | ✓ (Decision Transformer) |
4. 架构演进路线¶
MLP(全连接)
│
├──→ CNN ──────────────────────────┐
│ "用卷积核扫描局部特征" │
│ │
└──→ RNN → LSTM / GRU │ 2017: 全部汇聚
"隐状态传递记忆" │
│ │
└→ Seq2Seq + Attention ──────→ Transformer
"解码器动态看源端" "全靠注意力,并行训练"
每一站的故事¶
| 架构 | 核心思想 | 擅长 | 主要瓶颈 |
|---|---|---|---|
| MLP | 全连接层堆叠 | 通用基础积木 | 无法捕捉空间/序列结构 |
| CNN | 局部感受野 + 权重共享 + 池化 | 图像、空间特征 | 全局依赖需要很深 |
| RNN / LSTM / GRU | 隐状态逐步传递 | 序列、时序 | 长距离遗忘,无法并行 |
| Transformer | 自注意力 + 位置编码 | 全局依赖,天然并行 | 计算量随序列长度二次增长 |
MLP(多层感知机)
类比:一堆人站成几排传纸条——每个人能看到上一排所有人递来的内容,但完全不知道"顺序"和"位置"有什么含义。
输入 [x₁, x₂, ..., xₙ]
↓ 全连接(每个输入连到每个神经元)
隐藏层 [h₁, h₂, ..., hₘ] ← 激活函数(ReLU 等)
↓ 全连接
输出 [y₁, y₂, ..., yₖ]
能拟合任意函数(万能近似定理),但对空间/序列结构完全无感——把图片像素打乱顺序喂进去,它毫无察觉。参数量随输入维度爆炸(1000×1000 图片 → 百万维全连接)。
CNN(卷积神经网络)
类比:拿一个小放大镜在图片上逐块扫描——每次只看局部,但同一个放大镜(同一组权重)扫遍整张图,找出所有"边缘""纹理"。
输入图像 [H × W × C]
↓ 卷积核滑动扫描(提取局部特征)
特征图 [H' × W' × F] ← 多个卷积核 = 多种特征
↓ 池化(下采样,压缩空间尺寸)
更小特征图
↓ 重复 N 层(浅层→边缘 / 中层→纹理 / 深层→物体部件)
↓ 展平 → MLP
分类输出(经典应用 = 图像识别/分类)
关键设计:权重共享(一个卷积核全图复用,参数极少)+ 池化(压缩空间 + 平移不变性)。成就:2012 AlexNet 引爆深度学习。局限:感受野有限,全局依赖需堆很多层。
RNN → LSTM/GRU
类比:逐字朗读一篇文章,同时在脑中维护一份"到目前为止的摘要"。每读一个字就更新摘要,用摘要指导后续理解。读到第 500 页时,第 1 页的细节早忘了。
输入序列: x₁, x₂, x₃, ..., xₜ
↓ ↓ ↓ ↓
RNN: [h₀]→[h₁]→[h₂]→[h₃]→...→[hₜ] → 输出
初始 每步: hₜ = f(hₜ₋₁, xₜ)
状态 "用上一步的记忆 + 当前输入 → 新记忆"
问题:信息在反复覆盖中稀释殆尽(梯度消失)。LSTM 加三个"门"(遗忘门/输入门/输出门)控制信息存取,缓解遗忘但未根治。致命局限:必须串行(h₂ 依赖 h₁),无法并行,训练慢。
Seq2Seq + Attention
类比:同声传译——翻译每个词时不是死记整句话,而是回头扫一眼原文中最相关的部分,动态聚焦。
编码器 (RNN): [法语 x₁...xₙ] → 隐状态序列 [h₁, h₂, ..., hₙ]
解码器 (RNN): 生成每个英语词时:
① 算注意力权重 αᵢ = 对齐(当前解码状态, hᵢ)
② 加权求和 context = Σ αᵢ·hᵢ ← "聚焦源端相关位置"
③ context + 上一个输出 → 生成下一个词
效果:翻译质量飞跃(终于不用把整句话压成一个固定向量了)。但编码/解码仍是 RNN,串行瓶颈未消。
Transformer
类比:一间教室里所有学生同时互相交流,每个人瞬间获取任何人的信息——沟通效率极高,但人数多了开销爆炸。
输入 tokens + 位置编码
↓
┌─ Transformer Block × N ─────────────────┐
│ │
│ 自注意力: 每个 token 同时看所有其他 token │
│ Q·Kᵀ → 权重 → 加权求和 V │
│ ↓ │
│ 前馈网络 (FFN): 逐位置独立变换 │
│ ↓ │
│ 残差连接 + 归一化 │
└──────────────────────────────────────────┘
↓
输出
激进一步:RNN 全扔掉,编码和解码都只用注意力。每个块两大组件:自注意力(捕捉 token 间关系)+ FFN(逐位置独立变换,提供非线性拟合能力)。位置信息靠位置编码注入。收益:完全并行(所有 token 同时互看)+ 全局依赖一步到位(第 1 个和第 1000 个 token 直接交互)。代价:注意力计算 O(n²)。自此之后,几乎所有 SOTA 模型都基于 Transformer 变体。
5. 当下模型方向¶
本节概览各模态主流技术路线,后续内容聚焦 LLM(文本生成)。
| 模态 | 主流架构 | 训练方法 | 代表 |
|---|---|---|---|
| 文本生成 | Decoder-only Transformer | CLM 自回归 | GPT-4、LLaMA、Qwen |
| 文本理解 | Encoder-only Transformer | MLM 掩码 | BERT、RoBERTa |
| 图像生成 | DiT / U-Net | 扩散 (Diffusion) | Stable Diffusion、DALL·E 3 |
| 视频生成 | DiT 变体 | 扩散 + 时序建模 | Sora、Kling |
| 多模态理解 | VLM(视觉编码器 + LLM) | 对比学习 + CLM | GPT-4V、Qwen-VL |
| 代码 | Decoder-only Transformer | CLM + Fill-in-Middle | Codex、DeepSeek-Coder |
注:以上训练方法均属于自监督学习(从数据自身构造学习信号,无需人工标注)。监督学习(SFT)和强化学习(RLHF/DPO)在后续微调、对齐阶段介入。
为什么文本走自回归、图像走扩散?¶
扩散模型一句话原理:训练时对图像逐步加噪直到变成纯噪声,然后训练网络学会逆过程(去噪)。推理时从纯随机噪声出发,逐步去噪,最终生成清晰图像。
- 文本天然是离散序列,左到右逐 token 生成符合语言本质,CLM 自回归简洁高效。
- 图像是高维连续信号,像素之间强空间相关性;扩散模型通过逐步去噪,能在潜空间稳定生成高质量图像,比 GAN 更易训练、生成质量和训练稳定性优于自回归像素生成。
注:图像与视频生成不再展开,本系列课件聚焦 LLM。
6. LLM 全链路地图¶
什么是预训练?¶
预训练 = 拿海量无标注文本,让模型反复做一件事:根据前文预测下一个 token(即 CLM)。不需要人工标注,模型通过数万亿次预测,自己学会语言规律、事实知识和推理模式。这一步成本最高(数千张 GPU 跑数周),产出称为 base 模型。
为什么预训练不够?¶
- Pretrain 产出 base 模型 → 会续写文本,但不会对话。你说 "北京天气怎样",它可能接 "预报显示明天晴转多云……后天……" 无限续写,而不是回答你的问题。
- SFT 教会对话格式 → 能正常对话了,但可能输出有害内容或质量参差不齐。它学了 "怎么说话",没学 "什么该说什么不该说"。
- Alignment 对齐人类偏好 → 好用且安全了。但数百亿参数的模型普通人跑不起来。
- 量化 精度换显存 → FP16 压到 INT4,显存省 4 倍,终于能在消费级硬件跑起来。
训练阶段¶
| 阶段 | 做什么 | 产出 |
|---|---|---|
| Pretrain | 自监督 next token prediction,海量文本,烧大算力 | Base 模型(会续写,不会对话) |
| SFT | 有监督微调,学对话格式与指令服从 | Chat 模型(能对话) |
| Alignment | 对齐人类偏好(RLHF / DPO),变好用+无害 | 对齐后模型 |
| 量化 | FP16 → INT8/INT4,精度换显存 | 可本地部署的模型 |
SFT 具体怎么做?¶
核心:用 "指令 + 标准回答" 的配对数据,教 base 模型学会对话格式。
Base 模型只会无限续写,SFT 让它学到:看到 [User] 就该在 [Assistant] 后给出简洁回答然后停下来。本质是用监督学习把 "对话行为模式" 注入模型。数据质量 > 数量 —— 早期 7B 级模型几万条高质量样本就能显著改变行为,前沿大模型(如 DeepSeek V3)则用到百万级。
Alignment 具体怎么做?¶
核心:让人类当裁判,告诉模型 "哪个回答更好",模型据此调整行为。
Prompt: "如何减肥?"
回答 A (chosen ✓): "建议控制饮食+适量运动,具体可以……"
回答 B (rejected ✗): "直接绝食三天,效果立竿见影"
→ 模型学到:往 A 靠,远离 B
- RLHF:先训一个"裁判"(奖励模型),再用 PPO 让 LLM 最大化裁判打分。两阶段,贵且不稳定。
- DPO:跳过裁判,直接拿偏好对数据优化 LLM(数学上等价于隐式奖励模型)。一阶段,简单稳定,开源主流。
推理与部署(概述)¶
模型训完后需要高效跑起来。类比:训练像 "培养一个专家",推理像 "让专家上岗接客" —— 上岗时要考虑响应速度和接待能力。
核心优化思路:
- KV Cache — 类比:写长文章时边写边在旁边记 "要点清单",每写完一句就追加一条,下一句直接看清单,不用从头重读全文重新提炼。模型生成每个新 token 时,把已生成 token 的 K、V 向量缓存下来,下一步直接复用,避免重算。
- 量化 — 类比:把精装全彩教材换成黑白口袋本——内容几乎一样,但体积小得多。将模型参数从高精度(FP16)压缩到低精度(INT8/INT4),显存开销大幅下降,精度损失很小。
- Continuous Batching — 多个用户请求动态拼批处理(多 slot 独立 KV Cache、采样规则),提升 GPU 利用率。
本课程后续章节课件会展开。
上层应用¶
| 概念 | 一句话 |
|---|---|
| Prompt Engineering | 不改模型只改输入——CoT(思维链)/ few-shot / role play |
| RAG | 检索外部知识注入 prompt,缓解幻觉,让模型 "有据可查" |
| Function Calling | 模型按格式输出工具调用指令,外部执行后回传结果 |
| MCP | Model Context Protocol,标准化模型与外部工具/数据源的连接协议 |
| Skill | Agent 的可复用能力单元,封装特定任务的 prompt + 工具组合 |
| Agent | 模型 + 工具调用 + 多步规划,从 "回答问题" 到 "完成任务" |
类比:如果 LLM 是大脑,那么
- Prompt Engineering 是 "问对问题的技巧"
- RAG 是 "查资料"
- Function Calling 是 "动手操作"
- MCP 是 "统一的工具接口标准"
- Skill 是 "学会的一项具体技能"
- Agent 是 "自主规划+执行一整套流程"。
想看工业界真实案例如何落地以上全链路?见下方附录。
附录:前沿模型完整链路(DeepSeek V3 / R1 & Qwen2.5)¶
以下展示 2024–2025 年前沿开源模型的真实全链路。信息密度较高,初次阅读完全可以跳过——等学完注意力机制再回来细读效果更好。
Dense vs MoE¶
- Dense(稠密):每个 token 经过网络的全部参数。简单直接,但参数量 ≈ 计算量,大了就贵。
- MoE(混合专家):把 FFN 拆成多个"专家"子网络,每个 token 只路由到少数几个专家。总参数量很大(知识容量大),但单次推理只激活一小部分(计算成本可控)。
下方 DeepSeek V3 采用 MoE(671B 总参数 / 37B 激活),Qwen2.5 采用 Dense。
架构层¶
┌────────────────────────────────────────────────────────┐
│ DeepSeek V3 Arch (671B total / ~37B active per token) │
├────────────────────────────────────────────────────────┤
│ │
│ Input Embedding + RoPE │
│ ↓ │
│ ┌─ Transformer Block × 61 ──────────────────────┐ │
│ │ │ │
│ │ ┌─ Multi-head Latent Attention (MLA) ──────┐ │ │
│ │ │ Q/K/V compressed to low-rank latent[1] │ │ │
│ │ │ → KV Cache much smaller than GQA[2] │ │ │
│ │ └──────────────────────────────────────────┘ │ │
│ │ ↓ │ │
│ │ ┌─ DeepSeekMoE FFN ───────────────────────┐ │ │
│ │ │ 1 shared expert (always active) │ │ │
│ │ │ + 256 routed experts (top-8 active) │ │ │
│ │ │ → aux-loss-free load balancing[3] │ │ │
│ │ └─────────────────────────────────────────┘ │ │
│ │ ↓ │ │
│ │ RMSNorm + Residual Connection[4] │ │
│ └───────────────────────────────────────────────┘ │
│ ↓ │
│ Output Head (+ Multi-Token Prediction aux head) │
└────────────────────────────────────────────────────────┘
[1] Q/K/V 压缩到低秩潜向量
[2] 大幅缩减 KV Cache(比 GQA 更省显存)
[3] 无辅助损失负载均衡
[4] 残差连接
┌───────────────────────────────────────────────┐
│ Qwen2.5 架构 (Dense, 0.5B–72B) │
├───────────────────────────────────────────────┤
│ │
│ Input Embedding + RoPE │
│ ↓ │
│ ┌─ Transformer Block × N ────────────┐ │
│ │ Grouped Query Attention (GQA) │ │
│ │ ↓ │ │
│ │ SwiGLU FFN │ │
│ │ ↓ │ │
│ │ RMSNorm + 残差连接 │ │
│ └─────────────────────────────────────┘ │
│ ↓ │
│ Output Head │
└───────────────────────────────────────────────┘
架构关键差异对比
| 维度 | DeepSeek V3 | Qwen2.5 |
|---|---|---|
| 参数规模 | 671B total / 37B active | 0.5B–72B (Dense) |
| 注意力 | MLA(低秩潜向量压缩 KV) | GQA(分组共享 KV head) |
| FFN | MoE:1 shared + 256 routed (top-8) | Dense SwiGLU |
| 位置编码 | RoPE | RoPE |
| 归一化 | RMSNorm (Pre-LN) | RMSNorm (Pre-LN) |
| 辅助训练 | Multi-Token Prediction | — |
| KV Cache 开销 | 极低(MLA 压缩) | 中等(GQA 分组共享) |
训练流程¶
下方 ASCII 流程图较宽,建议在宽屏下查看。
DeepSeek V3 + R1 完整流程:
┌──────────── V3 Base ────────────┐
│ │
│ 数据: 14.8T tokens │
│ 精度: FP8 混合精度 │
│ 并行: Pipeline + Expert │
│ 目标: CLM + MTP 辅助损失 │
│ 硬件: 2048× H800 │
│ │
└──────────────┬───────────────────┘
│
├────────────────────────────────┐
│ │
▼ ▼
┌──────── V3 Chat (SFT + RL) ───┐ ┌──────────── R1 推理模型 ────────┐
│ │ │ │
│ SFT: 150 万条高质量对话 │ │ 阶段 1: 冷启动 SFT │
│ RL: GRPO (无 Critic 模型) │ │ 少量 long-CoT 示例 │
│ │ │ ↓ │
└─────────────┬─────────────────┘ │ 阶段 2: 大规模 RL (GRPO) │
│ │ 规则奖励: 正确性 + 格式 │
▼ │ 模型自发涌现 CoT 推理 │
部署:FP8 推理 / GGUF 量化 / │ ↓ │
SGLang / vLLM │ 阶段 3: 拒绝采样 → SFT │
│ 用 RL 模型生成高质量数据 │
│ 混合通用 SFT 数据再训 │
│ ↓ │
│ 阶段 4: 二次 RL │
│ 全场景对齐(推理+通用) │
│ ↓ │
│ 部署:动态量化 / GGUF / │
│ SGLang / vLLM │
│ │
└────────────────────────────────┘
Qwen2.5 训练流程:
数据: 约 18T tokens (多语言,官方未公开确切数字)
↓
Pre-train (多阶段: 通用 → 长上下文扩展)
↓
SFT (大规模高质量指令数据)
↓
Alignment: DPO 为主 (离线偏好优化)
↓
部署:原生 Dense / GGUF 量化 / vLLM
训练关键差异对比
| 维度 | DeepSeek V3/R1 | Qwen2.5 |
|---|---|---|
| 预训练数据 | 14.8T tokens | 约 18T tokens |
| 预训练精度 | FP8 | BF16 |
| 对齐方法 | GRPO(无 Critic,组内相对奖励) | DPO 为主 |
| 推理能力来源 | 纯 RL 涌现 CoT(R1 路线) | SFT + DPO(数学/代码专项 RL) |
| MTP 辅助 | 有(预测多个未来 token) | 无 |
| 推理阶段特色 | 多阶段 RL + 拒绝采样迭代 | 单轮 DPO |
关键技术点解读¶
MLA (Multi-head Latent Attention) — 标准 MHA 每个 head 独立存 K/V,显存随层数×头数线性增长。MLA 将 K/V 投射到低维潜向量,推理时只缓存潜向量,解码时再投射回去。效果:KV Cache 比 GQA 还小,长序列优势巨大。
DeepSeek MoE — 256 个路由专家只激活 top-8,加 1 个始终激活的共享专家兜底通用能力。负载均衡不用辅助损失(避免干扰主损失),改用 token 级别的动态路由偏置。
GRPO (Group Relative Policy Optimization) — PPO 需要 Critic 模型估计 baseline(贵)。GRPO 改为:对同一 prompt 采样一组回答,用组内平均奖励做 baseline。省掉 Critic,训练成本砍半。
Multi-Token Prediction (MTP) — 在 CLM 主目标之外,额外预测未来 2~3 个 token。增强表示质量,预训练后可丢弃或用于 speculative decoding 加速推理。
附录:主流 LLM 架构差异速查¶
横向对比代表性模型的关键架构选型。部分闭源模型架构未公开,标注为推测。
| 维度 | GPT-2 | LLaMA-3-8B | Qwen-2.5-72B | DeepSeek-V3-671B | Qwen-3-235B | DeepSeek-4.0 | GPT-4o |
|---|---|---|---|---|---|---|---|
| 参数量 | 1.5B | 8B | 72B | 671B (37B active) | 235B (22B active) | ~1T (37-50B active) | 未公开 |
| n_layers | 48 | 32 | 80 | 61 | 94 | 64-80 | 未公开 |
| d_model | 1600 | 4096 | 8192 | 7168 | ~8192 | 8192-10240 | 未公开 |
| n_heads | 25 | 32 | 64 | 128 | 64 (Q) / 4 (KV) | 128 | 未公开 |
| 归一化类型 | LayerNorm | RMSNorm | RMSNorm | RMSNorm | RMSNorm | RMSNorm | 未公开 |
| 归一化位置 | Pre-LN | Pre-LN | Pre-LN | Pre-LN | Pre-LN | Pre-LN | 推测 Pre-LN |
| 位置编码 | 学习式 | RoPE | RoPE | RoPE | RoPE + ABF + YARN + DCA | RoPE(高基频,原生 1M) | 推测 RoPE |
| 注意力类型 | MHA | GQA | GQA | MLA | GQA | MLA v2 | 未公开 |
| KV heads | 25 (全 MHA) | 8 | 8 | — (潜向量) | 4 | — (潜向量) | 未公开 |
| FFN 激活 | GELU | SwiGLU | SwiGLU | SwiGLU | SwiGLU | SwiGLU | 未公开 |
| FFN 结构 | Dense | Dense | Dense | MoE (1+256, top-8) | MoE (128, top-8) | MoE (1+512, top-8) | 推测 MoE |
| 词表大小 | 50,257 | 128,256 | 152,064 | 129,280 | 151,669 | 150,000-200,000 | 未公开 |
| 原生上下文长度 | 1,024 | 8,192 | 131,072 | 128,000 | 128,000 | 256K-1M | 128,000 |
数据截止至 2026-05-20
趋势观察:
- 归一化:LayerNorm → RMSNorm(省计算,效果持平)
- 位置编码:学习式 → RoPE(支持长上下文外推)
- 注意力:MHA → GQA → MLA(逐步压缩 KV Cache 开销)
- FFN 激活:GELU → SwiGLU(效果更好)
- FFN 结构:Dense → MoE(大模型降本,中小模型通常仍用 Dense)
附录:AI 概念全景分类树¶
§3 的分类树聚焦"当代 ML"维度。这里补一张从历史流派到具体方法的全景图,帮助定位各概念的来龙去脉。
AI (Artificial Intelligence,人工智能)
├── 符号主义 (Symbolism / GOFAI) ← 主导 1950s–1980s,现已边缘
│ ├── Expert System (专家系统) ← MYCIN、DENDRAL、XCON
│ ├── Knowledge Graph (知识图谱) ← 仍活跃:搜索、电商、金融风控
│ ├── Logic / Prolog (逻辑推理)
│ └── Planning & Search (规划与搜索) ← A*、STRIPS、AlphaGo 的 MCTS (Monte Carlo Tree Search,蒙特卡洛树搜索)
│
├── 连接主义 (Connectionism) ← 神经网络派,当下绝对主流
│ └── Machine Learning (ML,机器学习)
│ ├── 传统 ML
│ │ ├── Linear / Logistic Regression (线性 / 逻辑回归)
│ │ ├── Decision Tree (决策树) → Random Forest → GBDT (XGBoost / LightGBM)
│ │ ├── Support Vector Machine (SVM,支持向量机)
│ │ ├── Naive Bayes (朴素贝叶斯)
│ │ └── K-Means / PCA (聚类 / 降维)
│ └── Neural Network (NN,多层时称 DL - Deep Learning)
│ ├── MLP / FNN ← 万能近似器,所有 NN 基本盘
│ ├── CNN ← 图像主力
│ ├── RNN / LSTM / GRU ← 序列老兵,被 Transformer 替代
│ └── Transformer ← 当下统治者(GPT / BERT / LLaMA …)
│ ├── Encoder-only ← BERT 系,理解任务
│ ├── Decoder-only ← ** GPT 系,LLM 生成主流 **
│ └── Encoder-Decoder ← T5 / Whisper,翻译类
│ ── 其他变体概念:
│ ├── Autoencoder / VAE ← 表示学习、生成模型源头
│ ├── GAN ← 生成对抗,2014–2020 图像生成主流
│ ├── Diffusion ← 当下图像 / 视频生成主流
│ ├── MoE ← 稀疏激活,大参小算(DeepSeek / Mixtral)
│ ├── Mamba / SSM ← Transformer 挑战者,长序列友好
│
├── 行为主义 (Behaviorism / Cybernetics) ← 思想源控制论
│ ├── Reinforcement Learning (RL,强化学习) ← 学术也归 ML 第三学习范式
│ │ ├── Value-based (Q-Learning, DQN)
│ │ ├── Policy-based (REINFORCE, PPO)
│ │ └── Actor-Critic (A3C, SAC)
│ └── Robotics (机器人学) ← 含传统控制论
│
└── Evolutionary Computation (演化计算) ← 小众但独立
├── Genetic Algorithm (GA,遗传算法)
└── Neural Architecture Search (NAS) ← 与 DL 结合复活
注:流派界限并非绝对,现代系统常融合多种思路(如 LLM + 知识图谱、RL + Transformer = RLHF)。本课程聚焦的是连接主义路线。
附录:术语速查表¶
| 术语 | 全称 | 中译 | 一句话 |
|---|---|---|---|
| AE | Autoencoder | 自编码器 | 编码器压缩 + 解码器重建,学习数据的压缩表示 |
| Agent | AI Agent | - | 模型 + 工具调用 + 多步规划,自主完成任务 |
| BPE | Byte Pair Encoding | 字节对编码 | 子词分词算法,从字符对频率迭代合并 |
| CLM | Causal Language Modeling | 因果语言建模 | 自回归语言建模,根据前文预测下一个 token |
| CNN | Convolutional Neural Network | 卷积神经网络 | 擅长捕捉局部空间特征 |
| Continuous Batching | - | 连续批处理 | 动态拼批多请求,提升 GPU 利用率 |
| CoT | Chain of Thought | 思维链 | 让模型分步推理再给结论 |
| DPO | Direct Preference Optimization | 直接偏好优化 | 无需训练奖励模型的对齐方法 |
| DiT | Diffusion Transformer | - | 用 Transformer 替代 U-Net 做扩散模型骨干 |
| FFN | Feed-Forward Network | 前馈网络 | Transformer 内的逐位置全连接层 |
| FIM | Fill-in-Middle | 中间填充 | 给定前缀和后缀让模型补全中间内容,代码补全常用 |
| GAN | Generative Adversarial Network | 生成对抗网络 | 生成器与判别器博弈 |
| GQA | Grouped Query Attention | 分组查询注意力 | 多个 Q head 共享一组 KV,省显存 |
| GRPO | Group Relative Policy Optimization | - | 组内相对奖励策略优化,无需 Critic 模型的 RL 方法 |
| GRU | Gated Recurrent Unit | 门控循环单元 | LSTM 简化变体 |
| KV Cache | Key-Value Cache | 键值缓存 | 推理时缓存已计算的 K/V 矩阵避免重复计算 |
| LLM | Large Language Model | 大语言模型 | - |
| LoRA | Low-Rank Adaptation | 低秩适配 | 冻结原参数只训小矩阵,省显存 |
| LSTM | Long Short-Term Memory | 长短期记忆网络 | 用门控解决 RNN 长距离遗忘 |
| MCP | Model Context Protocol | - | 标准化模型与外部工具/数据源的连接协议 |
| MLA | Multi-head Latent Attention | 多头潜注意力 | 将 KV 压缩到低维潜向量,极省显存 |
| MLM | Masked Language Modeling | 掩码语言建模 | 遮住部分 token 让模型预测(BERT) |
| MLP | Multi-Layer Perceptron | 多层感知机 | 最基础的前馈全连接网络 |
| MoE | Mixture of Experts | 混合专家 | 稀疏激活降低计算量 |
| MTP | Multi-Token Prediction | 多 token 预测 | 辅助训练目标,同时预测未来多个 token |
| PPO | Proximal Policy Optimization | 近端策略优化 | RLHF 中常用的策略梯度算法 |
| QLoRA | Quantized LoRA | - | LoRA + 4-bit 量化底座,进一步省显存 |
| RAG | Retrieval-Augmented Generation | 检索增强生成 | 外挂知识库缓解幻觉 |
| RL | Reinforcement Learning | 强化学习 | - |
| RLHF | RL from Human Feedback | - | 基于人类反馈的强化学习对齐方法 |
| RMSNorm | Root Mean Square Normalization | 均方根归一化 | 比 LayerNorm 更快的归一化方案 |
| RNN | Recurrent Neural Network | 循环神经网络 | 隐状态逐步传递建模序列 |
| RoPE | Rotary Position Embedding | 旋转位置编码 | Transformer 相对位置方案 |
| SFT | Supervised Fine-Tuning | 有监督微调 | - |
| SOTA | State of the Art | 当前最优 | 某任务/基准上的最佳性能或模型 |
| Speculative Decoding | - | 推测解码 | 用小模型草拟多 token,大模型一次验证,加速推理 |
| SwiGLU | Swish-Gated Linear Unit | - | 带门控的激活函数,现代 Transformer FFN 常用 |
| VAE | Variational Autoencoder | 变分自编码器 | 潜空间连续化可采样生成 |
| VLM | Vision-Language Model | 视觉语言模型 | 图文多模态理解 |