机器学习数据集划分训练集和验证集的经验法则

技术背景

在机器学习中，将数据集划分为训练集和验证集是一个关键步骤。训练集用于训练模型的参数，而验证集则用于评估模型的性能，帮助我们选择合适的模型和调整超参数。然而，如何合理地划分数据集并没有一个固定的标准，这需要综合考虑多种因素。

实现步骤

1. 基本考虑因素

划分数据集时存在两个相互竞争的因素：训练数据较少会使参数估计的方差增大；验证数据较少会使性能统计的方差增大。一般来说，应确保两者的方差都不过高，这更多地与每个类别中的实例绝对数量有关，而非比例。

2. 数据量较少的情况

如果数据总量较少（如100个实例），可能需要采用交叉验证的方法，因为单一的划分方式难以使估计的方差达到满意的程度。

3. 数据量充足的情况

若有足够的数据进行独立的验证集划分（而非交叉验证），可以采用以下方法来处理方差问题：

初步划分：将数据按80/20的比例划分为训练集和测试集，这是一个不错的起点。
再次划分：将训练集再按80/20的比例划分为训练集和验证集。
训练数据子采样：从训练数据中随机抽取子样本，用这些子样本训练分类器，并记录在验证集上的性能。
不同训练数据量测试：尝试不同数量的训练数据，例如分别随机抽取20%、40%、60%、80%的训练数据进行多次训练，观察在验证集上的性能。通常会发现，数据量越多，性能越好，且不同随机样本之间的方差越低。
验证数据子采样：为了了解验证数据大小对方差的影响，可以反过来进行操作。用所有训练数据训练模型，然后多次随机抽取一定比例的验证数据，观察性能。会发现小样本验证数据的平均性能与所有验证数据的性能大致相同，但样本数量越少，方差越大。

4. 考虑其他方法和比例

帕累托原则：80/20的比例较为常见，通常是一个安全的选择。但根据所采用的训练/验证方法，比例可能会有所变化，例如10折交叉验证中，每一折的验证集比例为10%。
研究得出的公式：有研究表明，验证集与训练集的大小比例 $v/t$ 与 $\ln(N/h - max)$ 成比例，其中 $N$ 是识别器族的数量，$h - max$ 是这些族的最大复杂度。也有规则指出，验证集的比例应与自由可调参数数量的平方根成反比。
Andrew Ng的建议：训练集占60%，交叉验证集占20%，测试集占20%。但在大数据时代，如拥有一百万个示例，验证集和测试集的比例可以更小，如99.5:0.25:0.25。
特殊比例：63.2% / 36.8% 也是一种合理的选择，其原理与统计自助法中的随机有放回抽样有关。

核心代码

在Python中，使用Scikit - learn库可以方便地进行数据集划分，以下是一个简单的示例：

from sklearn.model_selection import train_test_split
import numpy as np

# 假设X是特征矩阵，y是标签向量
X = np.random.rand(100, 5)
y = np.random.randint(0, 2, 100)

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 再将训练集划分为训练集和验证集
X_train, X_val, y_train, y_val = train_test_split(X_train, y_train, test_size=0.2, random_state=42)

print(f"训练集大小: {len(X_train)}")
print(f"验证集大小: {len(X_val)}")
print(f"测试集大小: {len(X_test)}")