count(distinct) 与group by 浅析

全栈程序员-用户IM • 2022年5月11日下午7:00 • 未分类

count(distinct) 与group by 浅析在传统关系型数据库中，groupby与count(distinct)都是很常见的操作。count(distinctcolA)就是将colA中所有出现过的不同值取出来，相信只要接触过数据库的同学都能明白什么意思。count(distinctcolA)的操作也可以用groupby的方式完成，具体代码如下：selectcount(distinctcolA)fromtable1;selec

大家好，又见面了，我是你们的朋友全栈君。

项目github地址：bitcarmanlee easy-algorithm-interview-and-practice
欢迎大家star，留言，一起学习进步

x在传统关系型数据库中，group by与count(distinct)都是很常见的操作。count(distinct colA)就是将colA中所有出现过的不同值取出来，相信只要接触过数据库的同学都能明白什么意思。

count(distinct colA)的操作也可以用group by的方式完成，具体代码如下：

select count(distinct colA) from table1;
select count(1) from (select colA from table1 group by colA)alias_1;

这两者最后得出的结果是一致的，但是具体的实现方式，有什么不同呢？
上面两种方式本质就是时间与空间的权衡。
distinct需要将colA中的所有内容都加载到内存中，大致可以理解为一个hash结构，key自然就是colA的所有值。因为是hash结构，那运算速度自然就快。最后计算hash中有多少key就是最终的结果。
那么问题来了，在现在的海量数据环境下，需要将所有不同的值都存起来，这个内存消耗，是可想而知的。所以如果数据量特别大，可能会out of memory。。。

group by的实现方式是先将colA排序。排序大家都不陌生，拿最见得快排来说，时间复杂度为 $O (n l o g n)$ ,而空间复杂度只有 $O (1)$ 。这样一来，即使数据量再大一些，group by基本也能hold住。但是因为需要做一次 $O (n l o g n)$ 的排序，时间自然会稍微慢点。。。

总结起来就是，count(distinct)吃内存，查询快；group by空间复杂度小，在时间复杂度允许的情况下，可以发挥他的空间复杂度优势。

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至举报，一经查实，本站将立刻删除。

发布者：全栈程序员-用户IM，转载请注明出处：https://javaforall.cn/143879.html原文链接：https://javaforall.cn

【正版授权，激活自己账号】： Jetbrains全家桶Ide使用，1年售后保障，每天仅需1毛

【官方授权正版激活】： 官方授权正版激活支持Jetbrains家族下所有IDE 使用个人JB账号...

赞 (0)

全栈程序员-用户IM

0 0

linux的nfs端口111,NFS服务配置固定端口

linux的nfs端口111,NFS服务配置固定端口#LinuxNFS服务固定端口及防火墙配置#1.在Linux上正常安装NFS服务2.修改/etc/service,添加以下内容(端口号必须在1024以下，且未被占用)#Localservicesmountd1011/tcp#rpc.mountdmountd1011/udp#rpc.mountdrquotad1012/tcp#rpc.rquotadrquotad1012/udp…

全栈程序员-用户IM
2022年6月27日
利用CANdb++ Editor在DBC文件中进行报文解析（详细教程）

利用CANdb++ Editor在DBC文件中进行报文解析（详细教程）

全栈程序员-用户IM
2020年11月8日
5G Wifi频段及信道介绍[通俗易懂]

5G Wifi频段及信道介绍[通俗易懂]5GWifi频段及信道介绍WiFi三频AP规划信道时，建议分别采用2.4G、5.2G、5.8G频段可用信道。2.4G频段；5.2G频段；5.8G频段。中国5GWiFi频段5.8GHz频段，中国开放只有149、153、157、161、165这5个信道；其中可支持一组80MHz信道捆绑（149-161）或两组40MHz捆绑（149-153和157-161）；所以165信道支持…

全栈程序员-用户IM
2022年6月7日
CF B. Kolya and Tandem Repeat

CF B. Kolya and Tandem Repeat

全栈程序员-用户IM
2022年2月5日
pytest重试_联系人去重失败

pytest重试_联系人去重失败安装：pip3installpytest-rerunfailures重新运行所有失败用例要重新运行所有测试失败的用例，请使用–reruns命令行选项，并指定要运行测试的最大次数：$py

全栈程序员-用户IM
2022年7月29日
大数据面试题——HBase面试题总结

大数据面试题——HBase面试题总结1、HBase的特点是什么？1）大：一个表可以有数十亿行，上百万列；2）无模式：每行都有一个可排序的主键和任意多的列，列可以根据需要动态的增加，同一张表中不同的行可以有截然不同的列；3）面向列：面向列（族）的存储和权限控制，列（族）独立检索；4）稀疏：空（null）列并不占用存储空间，表可以设计的非常稀疏；5）数据多版本：每个单元中的数据可以有多个版本，默认情况下版本号自动分配，是单元格插入时的时间戳；6）数据类型单一：Hbase中的数据都是字符串，没有类型。2…

全栈程序员-用户IM
2022年5月31日

发表回复

关注全栈程序员社区公众号