postgresal去重_postgresql数据库去重方法

postgresal去重_postgresql数据库去重方法数据库去重有很多方法,下面列出目前理解与使用的方法第一种通过groupby分组,然后将分组后的数据写入临时表然后再写入另外的表,对于没有出现再groupby后面的field可以用函数max,min提取,效率较高–适合情况:这种情况适合重复率非常高的情况,一般来说重复率超过5成则可以考虑用这个方法–优点:对于重复率高的数据集的去重,十分推荐用这种方法–缺点:uuid不能用max或min提取…

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE稳定放心使用

数据库去重有很多方法,下面列出目前理解与使用的方法

第一种

通过group by分组,然后将分组后的数据写入临时表然后再写入另外的表,对于没有出现再group by后面的field可以用函数max,min提取,效率较高

–适合情况:这种情况适合重复率非常高的情况,一般来说重复率超过5成则可以考虑用这个方法

–优点:对于重复率高的数据集的去重,十分推荐用这种方法

–缺点:uuid不能用max或min提取,如果需要去重的数据集中包含uuid则十分尴尬

create temp table tmp_data1 as

select [field1],[field2]…,max(field_special),min(field_special) from group by [field1],[field2]…;

insert into [table] select * from tmp_data1;

第二种

通过union去除完全重复的行,效率较高

–适合情况:这种方法只适合去除完全重复的行

select * from table1

union

select * from table1;

第三种

通过group by加id加not in,即先用group by分组,然后取出该分组下最大或最小的id组成集合,然后配合not in过滤掉重复的数据,效率很低,可以尝试配合临时表(测试发现依旧很慢)

–适合情况:由于该种方法效率很低,所以不推荐使用,如果数据量不大的情况下可以用这种方法,数据量只要上了100万就会很慢很慢

delete from [table] where id not in (select max(id) from table1 group by [field1],[field2]…);

第四种

通过group by加having加in,即先用group by分组,然后用having count(*)>1取出分组数量大于1的行(即重复的行),然后用in删除重复行,效率较高

–适合情况:一条数据大概只有一到两三条重复,这种方法一次只能删除重复数据的一条,如果有些数据有几百次重复那就会累死,其实也可以使用函数做一个循环,但这样的效率就不高了

delete from [table] where id in (select max(id) from [table] group by [field1],[field2]… having count(*)>1);

第五种

使用窗口函数加id,即可以使用窗口函数将数据分组,并将每个分组按行排号,并将行号与id(唯一id)存入一个集合里,这样就可以根据这个集合来取处重复行的id,即通过行号>1,

— 然后根据id删除重复行,效率很高(100万数据,重复9万,时间: 14.596s)

–适合情况:该种方法效率很高,特别推荐使用,但需要了解窗口函数以及其中的一些关键词的意义

–row_number() 为返回的记录定义个行编号

–over 与row_number()函数配套使用

–partition by [field1],[field2]… 根据指定的字段分组

delete from [table] where id in (select id from (select row_number() over (partition by [field1],[field2]…), id from [table]) as t where t.row_number>1);

第六种,对于不同的情况,不同的数据量级,可以配合使用以上五种方法,灵活使用。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/187204.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)


相关推荐

  • Visual Studio中C++关于Unicode字符集和多字节字符集

    Visual Studio中C++关于Unicode字符集和多字节字符集1.Unicode字符集  原本标准字符集为8位的ASCII码,但世界上的书写语言不能简单地用256个8位代码即一字节表示,就试更宽的值,例如16位值。这就是Unicode非常简单的原理。与混乱的256字符代码映射,以及含有一些单字节代码和一些双字节代码的双字节字符集不同,Unicode是统一的16位系统,这样就允许表示65536个字符。在这里会高兴地告诉你前128个Unicode字符(1

    2022年10月26日
  • HashMap原理<转>

    HashMap原理<转>

  • windows10安装jdk怎么配置环境变量(安装jdk并配置环境变量)

    前言为什么写这篇文章呢,因为我不想再去百度搜别人的文章了,所以自己写一篇以作记录。准备工作JDK8下载地址一个JDK安装程序,这是是1.8版本,因为新的JDK版本都没有什么很大的亮点,如下图所示,安装鼠标双击运行,选择“是”,然后如下图:点击下一步:我在这里并不修改JDK的安装路径,所以无需改动,点击下一步:安装过程中会弹出jre的安装提示框,如下所示:这里无需…

  • 同时安装两个Tomcat配置教程(Win10)

    同时安装两个Tomcat配置教程(Win10)转载注明出处前言在日常开发中,有时候一个Tomcat容器不能满足我们的需求,那么能不能在一台机器上配置多个Tomcat呢?答案是可以的!本文将演示如何在WIN10下配置双Tomcat(Tomcat8.5.x和Tomcat9.0.x)。话不多说,开始吧!Linux下的请参考我的另一篇博客:(后续更新)准备下载ZIP配置多Tomcat推荐都使用ZIP版本,才能修改配置来避免冲突;不准备…

  • 网页游戏开发(2)「建议收藏」

    网页游戏开发(2)「建议收藏」                      网页游戏开发(2)                                               作者:任尚益                      …

  • vtp中server和client传递vlan问题集结

    vtp中server和client传递vlan问题集结

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号