Saved to browser storage
Teaching Tutorial

AI 模型
训练过程

从零到一,用动画和类比揭开机器学习的核心秘密

动画演示 · 白话解读 · 小白友好

02
Overview

课程大纲

01
认识 AI 模型与神经网络
就像认识一个后厨团队
02
前向传播 & 损失函数
做菜 + 评委打分
03
反向传播 & 梯度下降
复盘找错 + 蒙眼下山
04
训练实战与完整总结
从数据到智能的完整旅程
03
Foundation

什么是 AI 模型

AI 模型本质上是一个通过数据训练来学习规律的数学函数。它接收输入,经过计算,产生输出。

  • 参数 (Weights) — 可调节的"旋钮",训练的过程就是拧这些旋钮
  • 架构 (Architecture) — 网络的层次和连接方式,决定了模型的"脑容量"
  • 目标 — 在从未见过的新数据上也能做出准确预测
白话类比
AI 模型就像一个后厨团队。每个厨师(神经元)有自己的手艺(权重),他们合作把食材(数据)加工成一道菜(输出)。训练的过程,就是不断调整每位厨师的分工,让做出来的菜越来越好。
f(x) = y
输入 x → 模型 f() → 输出 y
训练的目标:找到最优的 f()
04
Architecture

神经网络结构

输入层 → 隐藏层(逐层提取特征)→ 输出层(最终预测)

白话类比
像一个交响乐团:前排弦乐手接收指挥信号,处理后传递给铜管,铜管再传给打击乐。没有人能独奏交响曲,但层层合作就能创造复杂而美妙的音乐。每一层都在前一层的基础上提取更高级的特征。
05
Step 1

前向传播 Forward Pass

数据从输入层流向输出层,每层神经元对输入进行加权求和,再通过激活函数产生输出。

  • 每个连接都有一个权重偏置
  • 权重就像"信号的音量",决定信息传递的强弱
  • 最终输出即为模型的"预测值"
白话类比
就像厨师按现有手艺做一道菜:食材从第一道工序流向最后一道,逐步加工。做好了端上来——但好不好吃?那得等评委尝了才知道。
输入
加权
求和
激活
函数
输出

数据沿箭头方向逐层流动

06
Key Concept

激活函数 Activation Function

ReLU
有用就放行,没用就扔掉
Sigmoid
输出压缩到 0~1 之间
Tanh
输出在 -1~1 之间
白话类比
激活函数就像工厂流水线上的质检员。没有它,神经网络不管输入什么都只能输出简单的线性组合——就像不管放什么食材,出来的都是同一碗白粥。ReLU 最简单粗暴:正信号放行,负信号拦截。Sigmoid 则把结果压缩成"合格的概率"。
07
Step 2

损失函数 Loss Function

损失函数衡量模型预测值与真实值之间的差距。差距越小 = 模型越准。

  • MSE — 预测和答案差多少,平方后取平均
  • Cross-Entropy — 分类任务专用,衡量概率分布的差距
  • 目标 — 让总损失 L 越来越小,趋近于 0
白话类比
损失函数就像美食评委的评分卡:完美菜品 = 损失 0,稍微咸了 = 损失 3.2,没法吃 = 损失 50。它不是在批评你,而是给你一个精确的分数,告诉你差了多少。
08
Step 3

反向传播 Backpropagation

反向传播是训练的核心算法。它利用链式法则,从输出层往回走,计算每个参数对损失的贡献度

  • 计算每个权重的偏导数 ∂L/∂w
  • 回答"这个权重该调大还是调小?调多少?"
  • 把巨大的优化问题拆解成每层独立的小任务
白话类比
侦探在案发现场往回追溯:菜太咸了!从成品出发往回查——盐贡献了 40% 的失误、酱油 30%、火候 30%。反向传播精确告诉每个环节:"你该负多少责任"。
09
Step 4

梯度下降 Gradient Descent

沿着梯度的反方向更新权重,逐步逼近损失函数的最低点。

w = w - η · ∂L/∂w
η = 学习率(每步迈多大)
  • SGD — 随机梯度下降,每次用一个样本,快但晃
  • Adam — 自适应学习率,最常用,像自动挡汽车
10
Analogy

蒙眼下山,你也能懂梯度下降

梯度 = 脚下的坡度

你被蒙着眼站在山坡上。虽然看不见谷底在哪,但脚能感觉到坡度——梯度就是告诉你"哪个方向是下坡"。

下降 = 往低处走

每次都朝着"最陡的下坡"迈一步。走到脚底平坦了——恭喜,你找到谷底(损失最小值)了!

学习率 = 步幅

步子太大,跨过谷底飞到对面的山坡(震荡);步子太小,走几百年都到不了。刚刚好 = 稳步到达。

局部最优的陷阱

你可能走进一个小坑(局部最低点),以为到了谷底。实际上旁边还有更深的山谷。Adam 优化器能帮你跳出来。

11
Visual

学习率对比

太大 (η=0.9)
来回弹跳,找不到谷底
刚刚好 (η=0.1)
稳步走到底
太小 (η=0.001)
方向对但太慢了
白话类比
学习率就像开车时的油门。踩太猛冲过头,踩太轻永远到不了。Adam 优化器就像自动挡——帮你根据路况自动调节油门大小,不用自己操心。
12
Data

训练数据流水线

📊
原始数据
🧹
清洗去噪
✂️
分割数据集
🔄
数据增强
📦
分批打包
训练集 ~70%
用来"学习"的课本。模型反复阅读这些数据来调整自己的参数。
验证集 ~15%
就像"模拟考试"。用来检测是否过拟合,调整超参数。
测试集 ~15%
最终的"高考"。训练过程中碰不到,只在最后评估一次。
13
Core Loop

训练循环

前向传播
计算损失
反向传播
更新权重
🔁

以上四步不断重复,每次遍历全部训练数据称为一个 Epoch。经过多个 Epoch 后,损失逐渐降低,模型越来越聪明。

Epoch
把课本从头到尾读一遍
Batch
每次读几页后停下来消化
Iteration
消化完一次就调整一下方法
14
Problem

过拟合 vs 欠拟合

过拟合 Overfitting

背下了所有答案,却没理解道理。换道题就不会了。

欠拟合 Underfitting

学得太浅,连课本上的题都做不对。能力不够。

泛化良好 Generalization

理解了本质规律,新题也能做对——这是我们的目标。

15
Regularization

Dropout 防过拟合的秘密武器

训练时随机关闭一部分神经元,迫使网络不依赖任何一个"天才",让整个团队更稳健。

  • 训练时以概率 p 随机"关掉"神经元
  • 测试时全部启用,但输出会自动缩放
  • 常用 p = 0.5(50% 的神经元被关闭)
白话类比
排球队训练时随机让队员缺席:这次 3 号位不在,其他人必须学会补位。下次 5 号位不在,又换一批人顶上。等到正式比赛全员到齐,配合已经非常灵活,不会因为某一个人而崩溃。
正常网络 — 每个人都依赖"明星队员"
虚线 = 被 Dropout 关闭的神经元
p = 0.5 → 随机关闭 50%
16
Tuning

超参数调优

学习率 η

通常从 0.001 开始尝试。太大震荡不收敛,太小训练极慢。

Batch Size

常见 32/64/128/256。大 batch 训练快但泛化可能差,小 batch 噪声多但能跳出局部最优。

网络层数

更深能学更复杂特征,但更容易过拟合。从简单架构开始,逐步增加。

Dropout 率

常用 0.3~0.5。太高导致欠拟合,太低防不住过拟合。

17
Evaluation

模型评估指标

0
准确率 Accuracy %
0
精确率 Precision %
0
召回率 Recall %
0
F1-Score %

没有单一指标能完全代表模型性能 —— 根据任务选择最合适的指标组合

18
Tips

训练实战技巧

01 从简单开始

先用小模型跑通全流程,确认基线再增加复杂度。

02 监控训练曲线

训练 loss 降、验证 loss 升 = 过拟合信号,该停止了。

03 学习率调度

后期降低学习率(Cosine Annealing),让模型精细收敛。

04 早停与检查点

验证 loss 不再改善就提前停止,保存最佳权重。

19
Summary

模型是怎么训练出来的?

一句话总结
AI 模型的训练就像一个后厨团队反复练习做菜:准备食材(数据)→ 按菜谱做菜(前向传播)→ 评委打分(损失函数)→ 复盘每道工序的失误(反向传播)→ 微调配方和手艺(梯度下降)→ 重复成千上万次。最终,团队学会了做出一道完美的菜——这就是一个训练好的 AI 模型。
The End

训练是 AI 的核心引擎

数据 → 前向传播 → 损失计算 → 反向传播 → 梯度更新 → 循环迭代 → 智能诞生

感谢观看