SGD（随机梯度下降）与反向传播的区别

技术背景

在机器学习和深度学习领域，优化模型参数和计算梯度是训练模型的关键步骤。随机梯度下降（SGD）和反向传播是两个重要的概念，它们在模型训练过程中发挥着不同的作用。

实现步骤

反向传播

反向传播是一种在有向计算图（如神经网络）中高效计算梯度的方法。其核心思想是利用链式法则，从输出层开始，反向计算每个参数的梯度。具体步骤如下：

前向传播：将输入数据通过神经网络，计算出输出结果。
计算损失：根据输出结果和真实标签，计算损失函数的值。
反向传播：从输出层开始，利用链式法则，反向计算每个参数的梯度。

随机梯度下降

随机梯度下降是一种优化方法，用于最小化损失函数。其具体步骤如下：

初始化参数：随机初始化模型的参数。
选择样本：从训练数据中随机选择一个样本。
计算梯度：根据选择的样本，计算损失函数关于参数的梯度。
更新参数：根据计算得到的梯度，更新模型的参数。
重复步骤2-4，直到满足停止条件。

核心代码

以下是使用Python和TensorFlow实现简单的神经网络，并使用反向传播和随机梯度下降进行训练的示例代码：

import tensorflow as tf
from tensorflow.keras.datasets import mnist
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Flatten
from tensorflow.keras.optimizers import SGD

# 加载MNIST数据集
(x_train, y_train), (x_test, y_test) = mnist.load_data()

# 数据预处理
x_train, x_test = x_train / 255.0, x_test / 255.0

# 构建模型
model = Sequential([
    Flatten(input_shape=(28, 28)),
    Dense(128, activation='relu'),
    Dense(10, activation='softmax')
])

# 编译模型
model.compile(optimizer=SGD(learning_rate=0.01),
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])

# 训练模型
model.fit(x_train, y_train, epochs=5)

# 评估模型
test_loss, test_acc = model.evaluate(x_test, y_test)
print(f"Test accuracy: {test_acc}")

最佳实践

反向传播：在使用反向传播时，应注意计算图的复杂度，避免出现梯度消失或梯度爆炸的问题。可以使用激活函数（如ReLU）和批量归一化等技术来缓解这些问题。
随机梯度下降：在使用随机梯度下降时，应选择合适的学习率。学习率过大可能导致模型无法收敛，学习率过小可能导致收敛速度过慢。可以使用学习率调度器（如学习率衰减）来动态调整学习率。

常见问题

混淆概念：很多人会混淆反向传播和随机梯度下降的概念，认为“用反向传播训练”就是指使用随机梯度下降。实际上，反向传播是计算梯度的方法，而随机梯度下降是优化方法。
梯度计算效率：在复杂的神经网络中，梯度计算可能会变得非常耗时。可以使用一些优化技术（如自动求导库）来提高梯度计算的效率。

人工智能 > 机器学习算法

#Python #人工智能 #TensorFlow #随机梯度下降 #反向传播

SGD（随机梯度下降）与反向传播的区别

https://119291.xyz/posts/2025-04-21.sgd-vs-backpropagation/

作者

发布于

2025年4月22日

许可协议

Python中*和**参数的作用解析上一篇

神经网络中偏置的作用是什么？下一篇