在SQL表中查找重复值

技术背景

在数据库管理中，经常会遇到需要查找表中重复值的情况。例如，在用户表中可能存在重复的姓名和邮箱记录，这可能是由于数据录入错误或系统问题导致的。查找重复值有助于数据清洗和数据质量的提升。

实现步骤

1. 使用GROUP BY子句

可以通过对需要检查的列进行分组，并使用COUNT(*)函数统计每组的记录数，然后使用HAVING子句筛选出记录数大于1的组，即重复的组。

SELECT
    name, email, COUNT(*) AS Occurence
FROM NewTable
GROUP BY name, email
HAVING COUNT(*) > 1

步骤解释：

GROUP BY子句将NewTable表中的行按name和email列的值进行分组。
COUNT(*)函数返回每个组的记录数。
HAVING子句筛选出记录数大于1的组，即重复的组。

2. 使用公共表表达式（CTE）

如果需要返回每个重复行的完整记录，可以使用CTE将上述查询结果与原表进行连接。

WITH cte AS (
    SELECT
        name, email, COUNT(*) occurrences
    FROM NewTable
    GROUP BY name, email
    HAVING COUNT(*) > 1
)
SELECT 
    t1.Id, t1.name, t1.email
FROM  NewTable t1
INNER JOIN cte ON 
    cte.name = t1.name AND 
    cte.email = t1.email
ORDER BY 
    t1.name, 
    t1.email;

步骤解释：

首先在CTE中使用GROUP BY和HAVING子句找出重复的组。
然后将CTE与原表NewTable进行内连接，连接条件是name和email列相等。
最后返回原表中的Id、name和email列，并按name和email列排序。

3. 使用ROW_NUMBER()函数

可以使用ROW_NUMBER()函数为每组记录分配一个行号，然后筛选出行号大于1的记录，即重复的记录。

WITH cte AS (
    SELECT 
        name, email, 
        ROW_NUMBER() OVER (
            PARTITION BY name,email
            ORDER BY name,email) rownum
    FROM NewTable t1
) 
SELECT 
  * 
FROM cte 
WHERE rownum > 1;

步骤解释：

ROW_NUMBER()函数将NewTable表中的行按name和email列的值进行分区，并为每个分区内的行分配一个行号。
外层查询筛选出行号大于1的记录，即重复的记录。

核心代码

查找重复值

-- 使用GROUP BY和HAVING子句
SELECT
    name, email, COUNT(*)
FROM
    users
GROUP BY
    name, email
HAVING 
    COUNT(*) > 1

-- 使用CTE和ROW_NUMBER()函数
WITH cte AS (
    SELECT 
        name, email, 
        ROW_NUMBER() OVER (
            PARTITION BY name,email
            ORDER BY name,email) rownum
    FROM users
) 
SELECT 
  * 
FROM cte 
WHERE rownum > 1;

删除重复值

-- 删除重复记录，只保留每个组中的一条记录
DELETE FROM users
WHERE id NOT IN (
    SELECT MIN(id)
    FROM users
    GROUP BY name, email
);

最佳实践

索引优化：在需要检查的列上创建索引可以提高查询性能，特别是在处理大量数据时。
选择合适的方法：根据具体情况选择合适的查找重复值的方法。如果只需要知道哪些组是重复的，可以使用GROUP BY和HAVING子句；如果需要返回重复行的完整记录，可以使用CTE或ROW_NUMBER()函数。
测试和验证：在删除重复记录之前，先进行测试和验证，确保删除操作不会误删重要数据。

常见问题

不同数据库对GROUP BY的支持不一致

PostgreSQL：支持“功能依赖”的概念，不要求所有非聚合列都出现在GROUP BY子句中。
SQL Server：截至SQL Server 2017，仍然要求所有非聚合列都出现在GROUP BY子句中。
MySQL：需要设置sql_mode=only_full_group_by才能遵循严格的GROUP BY规则。
Oracle：对于GROUP BY的支持情况需要进一步研究。

性能问题

当处理大量数据时，查找和删除重复记录可能会导致性能问题。可以通过创建索引、优化查询语句或分批次处理数据来提高性能。

数据库开发 > SQL查询优化

#SQL #数据库开发 #SQL Server #PostgreSQL #查找重复值

在SQL表中查找重复值

https://119291.xyz/posts/2025-05-14.finding-duplicate-values-in-a-sql-table/

作者

发布于

2025年5月14日

许可协议

Error message "error:0308010C:digital envelope routines::unsupported" 上一篇

使用jQuery从下拉列表（选择框）中获取所选文本下一篇