用Pandas 处理大数据的3种超级方法

大家好，又见面了，我是你们的朋友全栈君。

在这里插入图片描述

原文链接：3 simple ways to handle large data with
Pandas
作者 | George Seif
译者 | jojoa

易上手，文档丰富的Pandas 已经成为时下最火的数据处理库。此外，Pandas数据处理能力也一流。

其实无论你使用什么库，大量的数据处理起来往往回遇到新的挑战。
数据处理时，往往会遇到没有足够内存（RAM）这个硬件问题。企业往往需要能够存够数百，乃至数千的GB 数据。
即便你的计算机恰好有足够的内存来存储这些数据，但是读取数据到硬盘依旧非常耗时。
别担心！ Pandas 数据库会帮我们摆脱这种困境。这篇文章包含3种方法来减少数据大小，并且加快数据读取速度。我用这些方法，把超过100GB 的数据，压缩到了64GB 甚至32GB 的内存大小。

快来看看这三个妙招吧。

数据分块

csv 格式是一种易储存，易更改并且用户易读取的格式。 pandas 有read_csv ()方法来上传数据，存储为CSV 格式。当遇到CSV 文件过大，导致内存不足的问题该怎么办呢？试试强大的pandas 工具吧！我们先把整个文件拆分成小块。这里，我们把拆分的小块称为chunk。

一个chunk 就是我们数据的一个小组。 Chunk 的大小主要依据我们内存的大小，自行决定。

过程如下：

1.读取一块数据。
2.分析数据。
3.保存该块数据的分析结果。
4.重复1-3步骤，直到所有chunk 分析完毕。
5.把所有的chunk 合并在一起。

我们可以通过read_csv()方法Chunksize来完成上述步骤。 Chunksize是指pandas 一次能读取到多少行csv文件。这个当然也是建立在RAM 内存容量的基础上。
假如我们认为数据呈现高斯分布时，我们可以在一个chunk 上，进行数据处理和视觉化，这样会提高准确率。

当数据稍微复杂时，例如呈现泊松分布时，我们最好能一块块筛选，然后把每一小块整合在一起。然后再进行分析。很多时候，我们往往删除太多的不相关列，或者删除有值行。我们可以在每个chunk 上，删除不相关数据，然后再把数据整合在一起，最后再进行数据分析。

代码如下：

在这里插入图片描述
删除数据