sql去重复操作详解SQL中distinct的用法

您所在的位置：网站首页 › choose用法及搭配 › sql去重复操作详解SQL中distinct的用法

sql去重复操作详解SQL中distinct的用法

2023-08-11 15:24| 来源: 网络整理| 查看: 265

在使用mysql时，有时需要查询出某个字段不重复的记录，这时可以使用mysql提供的distinct这个关键字来过滤重复的记录，但是实际中我们往往用distinct来返回不重复字段的条数（count(distinct id)）,其原因是distinct只能返回他的目标字段，而无法返回其他字段，例如有如下表user:

用distinct来返回不重复的用户名：select distinct name from user;，结果为：

这样只把不重复的用户名查询出来了，但是用户的id，并没有被查询出来：select distinct name,id from user;，这样的结果为：

distinct name,id 这样的mysql 会认为要过滤掉name和id两个字段都重复的记录，如果sql这样写：select id,distinct name from user，这样mysql会报错，因为distinct必须放在要查询字段的开头。

所以一般distinct用来查询不重复记录的条数。

如果要查询不重复的记录，有时候可以用group by ：

select id,name from user group by name;

1 前言

在咱们编写 SQL 语句操作数据库中的数据的时候，有可能会遇到一些不太爽的问题，例如对于同一字段拥有相同名称的记录，我们只需要显示一条，但实际上数据库中可能含有多条拥有相同名称的记录，从而在检索的时候，显示多条记录，这就有违咱们的初衷啦！因此，为了避免这种情况的发生，咱们就需要进行“去重”处理啦，那么何为“去重”呢？说白了，就是对同一字段让拥有相同内容的记录只显示一条记录。

那么，如何实现“去重”的功能呢？对此，咱们有两种方式可以实现该功能。

第一种，在编写 select 语句的时候，添加 distinct 关键词；第二种，在编写 select 语句的时候，调用 row_number() over() 函数。

以上两种方式都可以实现“去重”功能，那两者之间有何异同呢？接下来，作者将给出详细的说明。

2 distinct

在 SQL 中，关键字 distinct 用于返回唯一不同的值。其语法格式为：

SELECT DISTINCT 列名称 FROM 表名称 1

假设有一个表“CESHIDEMO”，包含两个字段，分别 NAME 和 AGE，具体格式如下：

CESHIDEMO

观察以上的表，咱们会发现：拥有相同 NAME 的记录有两条，拥有相同 AGE 的记录有三条。如果咱们运行下面这条 SQL 语句，

/** * 其中 PPPRDER 为 Schema 的名字，即表 CESHIDEMO 在 PPPRDER 中 */ select name from PPPRDER.CESHIDEMO 12345

将会得到如下结果：

name

观察该结果，咱们会发现在以上的四条记录中，包含两条 NAME 值相同的记录，即第 2 条记录和第 3 条记录的值都为“gavin”。那么，如果咱们想让拥有相同 NAME 的记录只显示一条该如何实现呢？这时，就需要用到 distinct 关键字啦！接下来，运行如下 SQL 语句，

select distinct name from PPPRDER.CESHIDEMO 1

将会得到如下结果：

distinct

观察该结果，显然咱们的要求得到实现啦！但是，咱们不禁会想到，如果将 distinct 关键字同时作用在两个字段上将会产生什么效果呢？既然想到了，咱们就试试呗，运行如下 SQL 语句，

select distinct name, age from PPPRDER.CESHIDEMO 1

得到的结果如下所示：

nameandage

观察该结果，哎呀，貌似没有作用啊？她将全部的记录都显示出来了啊！其中 NAME 值相同的记录有两条，AGE 值相同的记录有三条，完全没有变化啊！但事实上，结果就应该是这样的。因为当 distinct 作用在多个字段的时候，她只会将所有字段值都相同的记录“去重”掉，显然咱们“可怜”的四条记录并不满足该条件，因此 distinct 会认为上面四条记录并不相同。空口无凭，接下来，咱们再向表“CESHIDEMO”中添加一条完全相同的记录，验证一下即可。添加一条记录后的表如下所示：

添加一条记录

再运行如下的 SQL 语句，

select distinct name, age from PPPRDER.CESHIDEMO 1

得到的结果如下所示：

nameandage

观察该结果，完美的验证了咱们上面的结论。

此外，有一点需要大家特别注意，即：关键字 distinct 只能放在 SQL 语句中所有字段的最前面才能起作用，如果放错位置，SQL 不会报错，但也不会起到任何效果。

3 row_number() over()

在 SQL Server 数据库中，为咱们提供了一个函数 row_number() 用于给数据库表中的记录进行标号，在使用的时候，其后还跟着一个函数 over()，而函数 over() 的作用是将表中的记录进行分组和排序。两者使用的语法为：

ROW_NUMBER() OVER(PARTITION BY COLUMN1 ORDER BY COLUMN2) 1

意为：将表中的记录按字段 COLUMN1进行分组，按字段 COLUMN2 进行排序，其中

PARTITION BY：表示分组ORDER BY：表示排序

接下来，咱们还用表“CESHIDEMO”中的数据进行测试。首先，给出没有使用 row_number() over() 函数时查询的结果，如下所示：

添加一条记录

然后，运行如下 SQL 语句，

select PPPRDER.CESHIDEMO.*, row_number() over(partition by age order by name desc) from PPPRDER.CESHIDEMO 1

得到的结果如下所示：

从上面的结果可以看出，其在原表的基础上，多了一列标有数字排序的列。那么反过来分析咱们运行的 SQL 语句，发现其确实按字段 AGE 的值进行分组了，也按字段 NAME 的值进行排序啦！因此，函数的功能得到了验证。

接下来，咱们就研究如何用 row_number() over() 函数实现“去重”的功能。通过观察上面的结果，咱们可以发现，如果以 NAME 分组，以 AGE 排序，然后再取每组的第一个记录或许就可以实现“去重”的功能啊！那么试试看，运行如下 SQL 语句，

/* * 其中 rn 表示最后添加的那一列 */ select * from (select PPPRDER.CESHIDEMO.*, row_number() over(partition by name order by age desc) rn from PPPRDER.CESHIDEMO) where rn = 1 1234567

运行后，得到的结果如下所示：

观察以上的结果，我们发现，哎呀，数据“去重”的功能一不小心就被咱们实现了啊！不过很遗憾，如果咱们细心的话，会发现一个很不爽的事情，那就是在执行以上 SQL 语句进行“去重”的时候，有一条 NAME 值为“gavin”、AGE 值为“18”的记录被过滤掉了，但是在现实生活会中，同名不同年龄的事情太正常了。

4 总结

【本文地址】

sql去重复操作详解SQL中distinct的用法

sql去重复操作详解SQL中distinct的用法

今日新闻

推荐新闻