使用NumPy将索引数组转换为独热编码数组

技术背景

在机器学习和数据科学领域，独热编码（One-Hot Encoding）是一种常用的数据预处理技术，用于将分类变量转换为适合机器学习算法处理的格式。当我们有一个包含分类索引的数组时，需要将其转换为独热编码的二维数组，以便用于模型训练。NumPy是Python中用于科学计算的基础库，提供了高效的数组操作功能，可以方便地实现独热编码。

实现步骤

方法一：使用`np.zeros`和索引赋值

创建一个全零数组，其行数等于输入数组的大小，列数等于输入数组中的最大值加1。
使用索引赋值将对应位置的元素设置为1。

方法二：使用`np.eye`

计算输入数组中的最大值加1，作为单位矩阵的大小。
使用输入数组作为索引从单位矩阵中选取行。

方法三：使用`sklearn.preprocessing.LabelBinarizer`

创建LabelBinarizer对象。
使用fit方法拟合数据。
使用transform方法进行转换。

核心代码

方法一：

import numpy as np

a = np.array([1, 0, 3])
b = np.zeros((a.size, a.max() + 1))
b[np.arange(a.size), a] = 1
print(b)

方法二：

import numpy as np

values = [1, 0, 3]
n_values = np.max(values) + 1
b = np.eye(n_values)[values]
print(b)

方法三：

import sklearn.preprocessing

a = [1, 0, 3]
label_binarizer = sklearn.preprocessing.LabelBinarizer()
label_binarizer.fit(range(max(a)+1))
b = label_binarizer.transform(a)
print(b)

最佳实践

在实际应用中，建议将最大类别数作为参数传入，而不是从数据中计算，以避免因数据采样问题导致的错误。
对于高维数组的独热编码，可以使用np.eye方法的扩展版本，它可以处理任意维度的输入。

常见问题

输入数组包含非连续的索引

如果输入数组中的索引不是连续的，使用np.max计算列数会导致生成的独热编码矩阵包含大量不必要的列。可以使用sklearn.preprocessing.LabelBinarizer来处理这种情况。

性能问题

对于大规模数据，使用循环进行独热编码会导致性能下降。建议使用NumPy的向量化操作，如np.eye和索引赋值，以提高性能。

数据科学 > 机器学习 > 数据预处理

#数据科学 #Python #独热编码 #NumPy #数据转换

使用NumPy将索引数组转换为独热编码数组

https://119291.xyz/posts/2025-04-22.convert-array-of-indices-to-one-hot-encoded-array-in-numpy/

作者

发布于

2025年4月22日

许可协议

C++中explicit关键字的含义上一篇

使用MockMvc检查响应体中的字符串下一篇

使用NumPy将索引数组转换为独热编码数组

使用NumPy将索引数组转换为独热编码数组

技术背景

实现步骤

方法一：使用np.zeros和索引赋值

方法二：使用np.eye

方法三：使用sklearn.preprocessing.LabelBinarizer

核心代码

方法一：

方法二：

方法三：

最佳实践

常见问题

输入数组包含非连续的索引

性能问题

方法一：使用`np.zeros`和索引赋值

方法二：使用`np.eye`

方法三：使用`sklearn.preprocessing.LabelBinarizer`