神经网络权重为何要初始化为随机数

技术背景

在构建神经网络时，权重初始化是一个关键步骤。许多AI文献都建议将权重初始化为随机数，认为这样能使网络更快收敛。然而，为什么要这样做，其背后的原理值得深入探究。

实现步骤

初始化权重为随机数

在Python中使用NumPy库可以轻松实现权重的随机初始化。以下是一个简单的示例，展示如何为一个具有3个输入神经元和2个隐藏神经元的神经网络层初始化权重：

import numpy as np

# 输入神经元数量
input_size = 3
# 隐藏神经元数量
hidden_size = 2

# 随机初始化权重
weights = np.random.randn(hidden_size, input_size)
print(weights)

解释

np.random.randn 函数用于生成服从标准正态分布的随机数。
hidden_size 和 input_size 分别指定了权重矩阵的行数和列数。

核心代码

以下是一个更完整的神经网络示例，包括前向传播和反向传播，其中权重被初始化为随机数：

import numpy as np

# 定义激活函数（这里使用Sigmoid函数）
def sigmoid(x):
    return 1 / (1 + np.exp(-x))

# 定义神经网络类
class NeuralNetwork:
    def __init__(self, input_size, hidden_size, output_size):
        # 随机初始化权重
        self.weights_input_hidden = np.random.randn(hidden_size, input_size)
        self.weights_hidden_output = np.random.randn(output_size, hidden_size)

    def forward(self, X):
        # 前向传播
        self.hidden_input = np.dot(self.weights_input_hidden, X)
        self.hidden_output = sigmoid(self.hidden_input)
        self.final_input = np.dot(self.weights_hidden_output, self.hidden_output)
        self.final_output = sigmoid(self.final_input)
        return self.final_output

    def backward(self, X, y, learning_rate):
        # 反向传播
        error = y - self.final_output
        d_final = error * self.final_output * (1 - self.final_output)
        d_hidden = np.dot(self.weights_hidden_output.T, d_final) * self.hidden_output * (1 - self.hidden_output)

        # 更新权重
        self.weights_hidden_output += learning_rate * np.dot(d_final, self.hidden_output.T)
        self.weights_input_hidden += learning_rate * np.dot(d_hidden, X.T)

# 示例使用
input_size = 2
hidden_size = 3
output_size = 1
X = np.array([[0.1, 0.2]]).T
y = np.array([[0.3]]).T
learning_rate = 0.1

nn = NeuralNetwork(input_size, hidden_size, output_size)
output = nn.forward(X)
nn.backward(X, y, learning_rate)

最佳实践

避免初始权重过大：如果初始权重过大，在使用Sigmoid或Tanh等激活函数时，可能会导致导数趋近于零，从而使学习过程变慢。可以通过将随机生成的权重乘以一个较小的常数（如0.01或0.001）来解决这个问题。
多次随机初始化：由于神经网络的训练可能会陷入局部最优解，多次使用不同的随机初始化权重进行训练，然后选择性能最好的模型，可以提高找到全局最优解的概率。