Renaming column names in Pandas

Renaming column names in Pandas

技术背景

在数据处理过程中,经常需要对数据框(DataFrame)的列名进行重命名,以满足数据分析、可视化或其他处理的需求。Pandas 是 Python 中用于数据处理和分析的强大库,提供了多种重命名列名的方法。

实现步骤

重命名特定列

可以使用 df.rename() 函数来重命名特定的列,并非所有列都需要重命名。

1
2
3
4
5
6
7
8
9
10
import pandas as pd

# 创建示例 DataFrame
df = pd.DataFrame('x', index=range(3), columns=list('abcde'))

# 重命名列并创建新的 DataFrame
df2 = df.rename(columns={'a': 'X', 'b': 'Y'})

# 或者直接在原 DataFrame 上重命名
df.rename(columns={'a': 'X', 'b': 'Y'}, inplace=True)

重新分配列名

可以使用 df.set_axis() 方法并设置 axis=1 来重新分配列名,也可以直接赋值给 df.columns 属性。

1
2
3
4
5
# 使用 set_axis 方法
df2 = df.set_axis(['V', 'W', 'X', 'Y', 'Z'], axis=1)

# 直接赋值给 columns 属性
df.columns = ['V', 'W', 'X', 'Y', 'Z']

Pandas 0.21+ 的更新

在 Pandas 0.21+ 版本中,rename 方法增加了 axis 参数,可以设置为 columns1set_axis 方法在 inplace 设置为 False 时,可以用列表重命名所有索引或列标签。

1
2
3
4
5
6
7
8
# 创建示例 DataFrame
df = pd.DataFrame({'$a': [1, 2], '$b': [3, 4], '$c': [5, 6], '$d': [7, 8], '$e': [9, 10]})

# 使用 rename 方法和 axis 参数
df.rename({'$a': 'a', '$b': 'b', '$c': 'c', '$d': 'd', '$e': 'e'}, axis='columns')

# 使用 set_axis 方法
df.set_axis(['a', 'b', 'c', 'd', 'e'], axis='columns', inplace=False)

单行或管道解决方案

当有一个新列名列表时,可以使用不同的方法来重命名列。

1
2
3
4
5
6
7
8
9
10
# 创建示例 DataFrame
df = pd.DataFrame({'Jack': [1, 2], 'Mahesh': [3, 4], 'Xin': [5, 6]})
new = ['x098', 'y765', 'z432']

# 使用 rename 方法
df.rename(columns=dict(zip(df, new)))

# 对于非唯一列名,使用 pd.concat 方法
df = pd.DataFrame([[1, 3, 5], [2, 4, 6]], columns=['Mahesh', 'Mahesh', 'Xin'])
pd.concat([c for _, c in df.items()], axis=1, keys=new)

核心代码

以下是一些常用的重命名列名的代码示例:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
import pandas as pd

# 创建示例 DataFrame
df = pd.DataFrame({'$a': [1, 2], '$b': [3, 4], '$c': [5, 6], '$d': [7, 8], '$e': [9, 10]})

# 使用 rename 方法重命名特定列
df.rename(columns={'$a': 'a', '$b': 'b', '$c': 'c', '$d': 'd', '$e': 'e'}, inplace=True)

# 使用 set_axis 方法重新分配列名
df.set_axis(['V', 'W', 'X', 'Y', 'Z'], axis=1, inplace=True)

# 直接赋值给 columns 属性
df.columns = ['A', 'B', 'C', 'D', 'E']

# 使用函数重命名列名
df.rename(columns=lambda x: x.replace('$', ''), inplace=True)

最佳实践

  • 如果只需要重命名部分列,使用 df.rename() 方法,并传入一个字典来指定旧列名和新列名的映射关系。
  • 如果需要重命名所有列,且有一个新列名列表,可以直接赋值给 df.columns 属性,或者使用 df.set_axis() 方法。
  • 当需要在方法链中重命名列时,使用 df.set_axis() 方法并设置 inplace=False 可以保持代码的简洁性。
  • 如果要处理列名中的特定字符,可以使用函数(如 lambda 函数)结合 df.rename() 方法。

常见问题

  • 长度不匹配错误:当使用 df.columns = [new_col1, new_col2, ...] 时,如果新列名列表的长度与原列名的长度不一致,会抛出长度不匹配的错误。确保新列名列表的长度与原列名的长度相同。
  • 非唯一列名问题:如果原列名存在重复,使用 df.rename() 方法时可能会出现意外结果。可以使用 pd.concat() 方法来处理非唯一列名的情况。
  • inplace 参数的使用inplace 参数决定是否在原 DataFrame 上进行修改。如果 inplace=True,则直接在原 DataFrame 上修改;如果 inplace=False,则返回一个新的 DataFrame,原 DataFrame 保持不变。根据实际需求选择合适的参数值。

Renaming column names in Pandas
https://119291.xyz/posts/renaming-column-names-in-pandas/
作者
ww
发布于
2025年5月12日
许可协议