python激活成功教程qq密码_央·python编程之QQ数据清洗

python激活成功教程qq密码_央·python编程之QQ数据清洗一般我们从网上下下来的数据都很杂乱的,什么样的情况都有,不利于我们整理,所以在拿到数据的时候我们会先做一遍数据清理,把垃圾数据清理掉。今天我们拿QQ数据做示范。我们命令行是怎么看数据![Asm]纯文本查看复制代码morezy.txt#然后空格进行翻页效果如图:1.png(11.5KB,下载次数:0)2018-1-3017:54上传从数据中得知:—-中间4个-左边是账号,右边…

大家好,又见面了,我是你们的朋友全栈君。

一般我们从网上下下来的数据都很杂乱的,什么样的情况都有,不利于我们整理,所以在拿到数据的时候我们会先做一遍数据清理,把垃圾数据清理掉。

今天我们拿QQ数据做示范。

我们命令行是怎么看数据!

[Asm] 纯文本查看 复制代码more zy.txt

#然后空格进行翻页

效果如图:

55fd2b2273b5a8b4531f72773c469d6e.gif

1.png (11.5 KB, 下载次数: 0)

2018-1-30 17:54 上传

从数据中得知:

—- 中间4个-

左边是账号,右边是密码

目前QQ最多就11位,密码最长16位,所以数据中位数最多31位(4+11+16),大于的都是垃圾(第一轮筛选)

我先用python 读取QQ操作

[Asm] 纯文本查看 复制代码import codecs

filepath=r”C:\Users\Administrator\Desktop\zy.txt”

file=codecs.open(filepath,”rb”,”gbk”,”ignore”)#按照指定编码

mylist=file.readlines()#返回一个list,读取到内存

#savefilepath=”C:\Users\Administrator\Desktop\zy1.txt”

for line in mylist:

QQlist=line.split(‘—-‘)

print(QQlist[1])

55fd2b2273b5a8b4531f72773c469d6e.gif

2.png (19.57 KB, 下载次数: 1)

2018-1-30 17:55 上传

注:此方法是读取到内存,所以很占空间,会很卡。

数据中我们看到很多垃圾数据,我们看下垃圾数据

[Asm] 纯文本查看 复制代码import codecs

filepath=r”C:\Users\Administrator\Desktop\zy.txt”

file=codecs.open(filepath,”rb”,”gbk”,”ignore”)#按照指定编码

mylist=file.readlines()#返回一个list,读取到内存

#savefilepath=”C:\Users\Administrator\Desktop\zy1.txt”

for line in mylist:

QQlist=line.split(‘—-‘)

if len(line)>31:

print(line)#打印垃圾数据

55fd2b2273b5a8b4531f72773c469d6e.gif

22.png (26 KB, 下载次数: 0)

2018-1-30 17:56 上传

进行QQ清洗,在分别保存账号文本和密码文本。

[Asm] 纯文本查看 复制代码import codecs

filepath=r”C:\Users\Administrator\Desktop\zy.txt”

file=codecs.open(filepath,”rb”,”gbk”,”ignore”)#按照指定编码

mylist=file.readlines()#返回一个list,读取到内存

savegoodfilepath=r”C:\Users\Administrator\Desktop\zyQQGood.txt”

savebadfilepath=r”C:\Users\Administrator\Desktop\zyQQbad.txt”

filegood=open(savegoodfilepath,”wb”)

filebad=open(savebadfilepath,”wb”)

for line in mylist:

if len(line)>31 or len(line)<=15:#(4+5+6)

filebad.write(line.encode(“utf-8”))

else:

QQlist = line.split(‘—-‘)

if len(QQlist)==2:

filegood.write(line.encode(“utf-8”))

else:

filebad.write(line.encode(“utf-8”))

filebad.close()

filegood.close()

效果图:

55fd2b2273b5a8b4531f72773c469d6e.gif

44.png (38.09 KB, 下载次数: 0)

2018-1-30 17:57 上传

附件:

2b1bef8df4f01fee4fc8b39358cdcfb3.gif

中央纪委pyhon数据清理.zip

(3.81 KB, 下载次数: 25)

2018-1-30 17:58 上传

点击文件名下载附件

下载积分: 吾爱币 -1 CB

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/162202.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)


相关推荐

  • Apache Thrift的简单使用

    Apache Thrift的简单使用

  • jvm系列(七):jvm调优-工具篇「建议收藏」

    jvm系列(七):jvm调优-工具篇「建议收藏」16年的时候花了一些时间整理了一些关于jvm的介绍文章,到现在回顾起来还是一些还没有补充全面,其中就包括如何利用工具来监控调优前后的性能变化。工具做为图形化界面来展示更能直观的发现问题,另一方面一些耗费性能的分析(dump文件分析)一般也不会在生产直接分析,往往dump下来的文件达1G左右,人工分析效率较低,因此利用工具来分析jvm相关问题,长长可以到达事半功倍的效果来。jvm监控分析工具一般分为两

  • Java缓存及过期处理的简单实现「建议收藏」

    Java缓存及过期处理的简单实现「建议收藏」/***缓存类实体类*/publicclassCacheEntity<T>{/***要存储的数据*/privateTvalue;/***创建的时间单位ms*/privatelongcreateTime=System.currentTimeMillis();…

  • 数据结构中的elem,elemtype是什么

    数据结构中的elem,elemtype是什么elem是单词element(元素)的缩写,在程序定义中代表某一不确定的类型,也就是抽象的数据类型。为了使程序可读性强,并且便于修改,让elem代表多种的数据类型,也就是为int、char等等的数据类型,起了一个别名。ElemType是数据结构的书上为了说明问题而用的一个词。它是elementtype(“元素的类型”)的简化体。 因为数据结构是讨论抽象的数据结构和算法的,一种结构中元素的类型…

  • databus 支持oracle么,Databus[通俗易懂]

    databus 支持oracle么,Databus[通俗易懂]系统如果要应付大规模的请求,一条必经之路就是数据库的分割,单服务器的性能早晚都会成为负载的短板。而数据库分割,通常有Master/Salve或者集群Cluster的方式,这些方式通常都是基于同种类型的数据。对于一个庞大的多类型数据库的系统,在不同的数据库之间(甚至是不同地理位置的机房间)保持数据的同步,需要更复杂的解决方案。LinkedIn良心开源了内部的一个项目Databus,正是解决这个问题的…

    2022年10月17日
  • 自建电驴服务器,电驴服务器怎么连接 eMule连接服务器教程

    自建电驴服务器,电驴服务器怎么连接 eMule连接服务器教程电驴(eMule)是一款非常实用的资源下载工具。但有时候用户会反映,电驴连接不到服务器的情况,今天小编就跟大家讲讲电驴服务器怎么连接,让你轻松下载到自己需要的资源。eMule连接服务器教程步骤一:在电驴服务器界面右边的“从URL更新server.met”字样下边的小框里输入“”,然后点击“更新”,下载新的服务器列表即可(使用的网址不要emule.org.cn提供的)步骤二:解决kad网络无法连接1…

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号