从零到一,用动画和类比揭开机器学习的核心秘密
动画演示 · 白话解读 · 小白友好
AI 模型本质上是一个通过数据训练来学习规律的数学函数。它接收输入,经过计算,产生输出。
输入层 → 隐藏层(逐层提取特征)→ 输出层(最终预测)
数据从输入层流向输出层,每层神经元对输入进行加权求和,再通过激活函数产生输出。
数据沿箭头方向逐层流动
损失函数衡量模型预测值与真实值之间的差距。差距越小 = 模型越准。
反向传播是训练的核心算法。它利用链式法则,从输出层往回走,计算每个参数对损失的贡献度。
沿着梯度的反方向更新权重,逐步逼近损失函数的最低点。
你被蒙着眼站在山坡上。虽然看不见谷底在哪,但脚能感觉到坡度——梯度就是告诉你"哪个方向是下坡"。
每次都朝着"最陡的下坡"迈一步。走到脚底平坦了——恭喜,你找到谷底(损失最小值)了!
步子太大,跨过谷底飞到对面的山坡(震荡);步子太小,走几百年都到不了。刚刚好 = 稳步到达。
你可能走进一个小坑(局部最低点),以为到了谷底。实际上旁边还有更深的山谷。Adam 优化器能帮你跳出来。
以上四步不断重复,每次遍历全部训练数据称为一个 Epoch。经过多个 Epoch 后,损失逐渐降低,模型越来越聪明。
背下了所有答案,却没理解道理。换道题就不会了。
学得太浅,连课本上的题都做不对。能力不够。
理解了本质规律,新题也能做对——这是我们的目标。
训练时随机关闭一部分神经元,迫使网络不依赖任何一个"天才",让整个团队更稳健。
通常从 0.001 开始尝试。太大震荡不收敛,太小训练极慢。
常见 32/64/128/256。大 batch 训练快但泛化可能差,小 batch 噪声多但能跳出局部最优。
更深能学更复杂特征,但更容易过拟合。从简单架构开始,逐步增加。
常用 0.3~0.5。太高导致欠拟合,太低防不住过拟合。
没有单一指标能完全代表模型性能 —— 根据任务选择最合适的指标组合
先用小模型跑通全流程,确认基线再增加复杂度。
训练 loss 降、验证 loss 升 = 过拟合信号,该停止了。
后期降低学习率(Cosine Annealing),让模型精细收敛。
验证 loss 不再改善就提前停止,保存最佳权重。
数据 → 前向传播 → 损失计算 → 反向传播 → 梯度更新 → 循环迭代 → 智能诞生
感谢观看