Teaching Tutorial

AI 模型
训练过程

从零到一，用动画和类比揭开机器学习的核心秘密

动画演示 · 白话解读 · 小白友好

02

Overview

课程大纲

01

认识 AI 模型与神经网络

就像认识一个后厨团队

02

前向传播 & 损失函数

做菜 + 评委打分

03

反向传播 & 梯度下降

复盘找错 + 蒙眼下山

04

训练实战与完整总结

从数据到智能的完整旅程

03

Foundation

什么是 AI 模型？

AI 模型本质上是一个通过数据训练来学习规律的数学函数。它接收输入，经过计算，产生输出。

参数 (Weights) — 可调节的"旋钮"，训练的过程就是拧这些旋钮
架构 (Architecture) — 网络的层次和连接方式，决定了模型的"脑容量"
目标 — 在从未见过的新数据上也能做出准确预测

白话类比

AI 模型就像一个后厨团队。每个厨师（神经元）有自己的手艺（权重），他们合作把食材（数据）加工成一道菜（输出）。训练的过程，就是不断调整每位厨师的分工，让做出来的菜越来越好。

f(x) = y

输入 x → 模型 f() → 输出 y

训练的目标：找到最优的 f()

04

Architecture

神经网络结构

输入层 → 隐藏层（逐层提取特征）→ 输出层（最终预测）

白话类比

像一个交响乐团：前排弦乐手接收指挥信号，处理后传递给铜管，铜管再传给打击乐。没有人能独奏交响曲，但层层合作就能创造复杂而美妙的音乐。每一层都在前一层的基础上提取更高级的特征。

05

Step 1

前向传播 Forward Pass

数据从输入层流向输出层，每层神经元对输入进行加权求和，再通过激活函数产生输出。

每个连接都有一个权重和偏置
权重就像"信号的音量"，决定信息传递的强弱
最终输出即为模型的"预测值"

白话类比

就像厨师按现有手艺做一道菜：食材从第一道工序流向最后一道，逐步加工。做好了端上来——但好不好吃？那得等评委尝了才知道。

输入

→

加权
求和

→

激活
函数

→

输出

数据沿箭头方向逐层流动

06

Key Concept

激活函数 Activation Function

ReLU

有用就放行，没用就扔掉

Sigmoid

输出压缩到 0~1 之间

Tanh

输出在 -1~1 之间

白话类比

激活函数就像工厂流水线上的质检员。没有它，神经网络不管输入什么都只能输出简单的线性组合——就像不管放什么食材，出来的都是同一碗白粥。ReLU 最简单粗暴：正信号放行，负信号拦截。Sigmoid 则把结果压缩成"合格的概率"。

07

Step 2

损失函数 Loss Function

损失函数衡量模型预测值与真实值之间的差距。差距越小 = 模型越准。

MSE — 预测和答案差多少，平方后取平均
Cross-Entropy — 分类任务专用，衡量概率分布的差距
目标 — 让总损失 L 越来越小，趋近于 0

白话类比

损失函数就像美食评委的评分卡：完美菜品 = 损失 0，稍微咸了 = 损失 3.2，没法吃 = 损失 50。它不是在批评你，而是给你一个精确的分数，告诉你差了多少。

08

Step 3

反向传播 Backpropagation

反向传播是训练的核心算法。它利用链式法则，从输出层往回走，计算每个参数对损失的贡献度。

计算每个权重的偏导数 ∂L/∂w
回答"这个权重该调大还是调小？调多少？"
把巨大的优化问题拆解成每层独立的小任务

白话类比

像侦探在案发现场往回追溯：菜太咸了！从成品出发往回查——盐贡献了 40% 的失误、酱油 30%、火候 30%。反向传播精确告诉每个环节："你该负多少责任"。

09

Step 4

梯度下降 Gradient Descent

沿着梯度的反方向更新权重，逐步逼近损失函数的最低点。

w = w - η · ∂L/∂w

η = 学习率（每步迈多大）

SGD — 随机梯度下降，每次用一个样本，快但晃
Adam — 自适应学习率，最常用，像自动挡汽车

10

Analogy

蒙眼下山，你也能懂梯度下降

梯度 = 脚下的坡度

你被蒙着眼站在山坡上。虽然看不见谷底在哪，但脚能感觉到坡度——梯度就是告诉你"哪个方向是下坡"。

下降 = 往低处走

每次都朝着"最陡的下坡"迈一步。走到脚底平坦了——恭喜，你找到谷底（损失最小值）了！

学习率 = 步幅

步子太大，跨过谷底飞到对面的山坡（震荡）；步子太小，走几百年都到不了。刚刚好 = 稳步到达。

局部最优的陷阱

你可能走进一个小坑（局部最低点），以为到了谷底。实际上旁边还有更深的山谷。Adam 优化器能帮你跳出来。

11

Visual

学习率对比

太大 (η=0.9)

来回弹跳，找不到谷底

刚刚好 (η=0.1)

稳步走到底

太小 (η=0.001)

方向对但太慢了

白话类比

学习率就像开车时的油门。踩太猛冲过头，踩太轻永远到不了。Adam 优化器就像自动挡——帮你根据路况自动调节油门大小，不用自己操心。

12

Data

训练数据流水线

📊

原始数据

→

🧹

清洗去噪

→

✂️

分割数据集

→

🔄

数据增强

→

📦

分批打包

训练集 ~70%

用来"学习"的课本。模型反复阅读这些数据来调整自己的参数。

验证集 ~15%

就像"模拟考试"。用来检测是否过拟合，调整超参数。

测试集 ~15%

最终的"高考"。训练过程中碰不到，只在最后评估一次。

13

Core Loop

训练循环

前向传播

→

计算损失

→

反向传播

→

更新权重

🔁

以上四步不断重复，每次遍历全部训练数据称为一个 Epoch。经过多个 Epoch 后，损失逐渐降低，模型越来越聪明。

Epoch

把课本从头到尾读一遍

Batch

每次读几页后停下来消化

Iteration

消化完一次就调整一下方法

14

Problem

过拟合 vs 欠拟合

过拟合 Overfitting

背下了所有答案，却没理解道理。换道题就不会了。

欠拟合 Underfitting

学得太浅，连课本上的题都做不对。能力不够。

泛化良好 Generalization

理解了本质规律，新题也能做对——这是我们的目标。

15

Regularization

Dropout 防过拟合的秘密武器

训练时随机关闭一部分神经元，迫使网络不依赖任何一个"天才"，让整个团队更稳健。

训练时以概率 p 随机"关掉"神经元
测试时全部启用，但输出会自动缩放
常用 p = 0.5（50% 的神经元被关闭）

白话类比

像排球队训练时随机让队员缺席：这次 3 号位不在，其他人必须学会补位。下次 5 号位不在，又换一批人顶上。等到正式比赛全员到齐，配合已经非常灵活，不会因为某一个人而崩溃。

正常网络 — 每个人都依赖"明星队员"

虚线 = 被 Dropout 关闭的神经元

p = 0.5 → 随机关闭 50%

16

Tuning

超参数调优

学习率 η

通常从 0.001 开始尝试。太大震荡不收敛，太小训练极慢。

Batch Size

常见 32/64/128/256。大 batch 训练快但泛化可能差，小 batch 噪声多但能跳出局部最优。

网络层数

更深能学更复杂特征，但更容易过拟合。从简单架构开始，逐步增加。

Dropout 率

常用 0.3~0.5。太高导致欠拟合，太低防不住过拟合。

17

Evaluation

模型评估指标

0

准确率 Accuracy %

0

精确率 Precision %

0

召回率 Recall %

0

F1-Score %

没有单一指标能完全代表模型性能 —— 根据任务选择最合适的指标组合

18

Tips

训练实战技巧

01 从简单开始

先用小模型跑通全流程，确认基线再增加复杂度。

02 监控训练曲线

训练 loss 降、验证 loss 升 = 过拟合信号，该停止了。

03 学习率调度

后期降低学习率（Cosine Annealing），让模型精细收敛。

04 早停与检查点

验证 loss 不再改善就提前停止，保存最佳权重。

19

Summary

模型是怎么训练出来的？

一句话总结

AI 模型的训练就像一个后厨团队反复练习做菜：准备食材（数据）→ 按菜谱做菜（前向传播）→ 评委打分（损失函数）→ 复盘每道工序的失误（反向传播）→ 微调配方和手艺（梯度下降）→ 重复成千上万次。最终，团队学会了做出一道完美的菜——这就是一个训练好的 AI 模型。

The End

训练是 AI 的核心引擎

数据 → 前向传播 → 损失计算 → 反向传播 → 梯度更新 → 循环迭代 → 智能诞生

感谢观看

AI 模型训练过程

课程大纲

什么是 AI 模型？

神经网络结构

前向传播 Forward Pass

激活函数 Activation Function

损失函数 Loss Function

反向传播 Backpropagation

梯度下降 Gradient Descent

蒙眼下山，你也能懂梯度下降

学习率对比

训练数据流水线

训练循环

过拟合 vs 欠拟合

Dropout 防过拟合的秘密武器

超参数调优

模型评估指标

训练实战技巧

模型是怎么训练出来的？

训练是 AI 的核心引擎

AI 模型
训练过程