pandas 处理缺失值[dropna、drop、fillna][通俗易懂]

pandas 处理缺失值[dropna、drop、fillna][通俗易懂]面对缺失值三种处理方法:option1:去掉含有缺失值的样本(行)option2:将含有缺失值的列(特征向量)去掉option3:将缺失值用某些值填充(0,平均值,中值等)对于dropna和fillna,dataframe和series都有,在这主要讲datafame的对于option1:使用DataFrame.dropna(axis=0,how=’any’,thres…

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元 售后保障 童叟无欺

面对缺失值三种处理方法:

  • option 1: 去掉含有缺失值的样本(行)
  • option 2:将含有缺失值的列(特征向量)去掉
  • option 3:将缺失值用某些值填充(0,平均值,中值等)

对于dropna和fillna,dataframe和series都有,在这主要讲datafame的

对于option1:

使用DataFrame.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)
参数说明:

  • axis:
    • axis=0: 删除包含缺失值的行
    • axis=1: 删除包含缺失值的列
  • how: 与axis配合使用
    • how=‘any’ :只要有缺失值出现,就删除该行货列
    • how=‘all’: 所有的值都缺失,才删除行或列
  • thresh: axis中至少有thresh个非缺失值,否则删除
    比如 axis=0,thresh=10:标识如果该行中非缺失值的数量小于10,将删除改行
  • subset: list
    在哪些列中查看是否有缺失值
  • inplace: 是否在原数据上操作。如果为真,返回None否则返回新的copy,去掉了缺失值

建议在使用时将全部的缺省参数都写上,便于快速理解
examples:

 df = pd.DataFrame( { 
    "name": ['Alfred', 'Batman', 'Catwoman'], "toy": [np.nan, 'Batmobile', 'Bullwhip'], "born": [pd.NaT, pd.Timestamp("1940-04-25") pd.NaT]}) >>> df name toy born 0 Alfred NaN NaT 1 Batman Batmobile 1940-04-25 2 Catwoman Bullwhip NaT # Drop the rows where at least one element is missing. >>> df.dropna() name toy born 1 Batman Batmobile 1940-04-25 # Drop the columns where at least one element is missing. >>> df.dropna(axis='columns') name 0 Alfred 1 Batman 2 Catwoman # Drop the rows where all elements are missing. >>> df.dropna(how='all') name toy born 0 Alfred NaN NaT 1 Batman Batmobile 1940-04-25 2 Catwoman Bullwhip NaT # Keep only the rows with at least 2 non-NA values. >>> df.dropna(thresh=2) name toy born 1 Batman Batmobile 1940-04-25 2 Catwoman Bullwhip NaT # Define in which columns to look for missing values. >>> df.dropna(subset=['name', 'born']) name toy born 1 Batman Batmobile 1940-04-25 # Keep the DataFrame with valid entries in the same variable.  >>> df.dropna(inplace=True) >>> df name toy born 1 Batman Batmobile 1940-04-25 

对于option 2:

可以使用dropna 或者drop函数
DataFrame.drop(labels=None, axis=0, index=None, columns=None, level=None, inplace=False, errors='raise')

  • labels: 要删除行或列的列表
  • axis: 0 行 ;1 列
 df = pd.DataFrame(np.arange(12).reshape(3,4), columns=['A', 'B', 'C', 'D']) >>>df A B C D 0 0 1 2 3 1 4 5 6 7 2 8 9 10 11 # 删除列 >>> df.drop(['B', 'C'], axis=1) A D 0 0 3 1 4 7 2 8 11 >>> df.drop(columns=['B', 'C']) A D 0 0 3 1 4 7 2 8 11 # 删除行(索引) >>> df.drop([0, 1]) A B C D 2 8 9 10 11 

对于option3

使用DataFrame.fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None, **kwargs)

  • value: scalar, dict, Series, or DataFrame
    dict 可以指定每一行或列用什么值填充
  • method: {‘backfill’, ‘bfill’, ‘pad’, ‘ffill’, None}, default None
    在列上操作
    • ffill / pad: 使用前一个值来填充缺失值
    • backfill / bfill :使用后一个值来填充缺失值
  • limit 填充的缺失值个数限制。应该不怎么用
f = pd.DataFrame([[np.nan, 2, np.nan, 0], [3, 4, np.nan, 1], [np.nan, np.nan, np.nan, 5], [np.nan, 3, np.nan, 4]], columns=list('ABCD')) >>> df A B C D 0 NaN 2.0 NaN 0 1 3.0 4.0 NaN 1 2 NaN NaN NaN 5 3 NaN 3.0 NaN 4 # 使用0代替所有的缺失值 >>> df.fillna(0) A B C D 0 0.0 2.0 0.0 0 1 3.0 4.0 0.0 1 2 0.0 0.0 0.0 5 3 0.0 3.0 0.0 4 # 使用后边或前边的值填充缺失值 >>> df.fillna(method='ffill') A B C D 0 NaN 2.0 NaN 0 1 3.0 4.0 NaN 1 2 3.0 4.0 NaN 5 3 3.0 3.0 NaN 4 >>>df.fillna(method='bfill') A B C D 0 3.0 2.0 NaN 0 1 3.0 4.0 NaN 1 2 NaN 3.0 NaN 5 3 NaN 3.0 NaN 4 # Replace all NaN elements in column ‘A’, ‘B’, ‘C’, and ‘D’, with 0, 1, 2, and 3 respectively. # 每一列使用不同的缺失值 >>> values = { 
'A': 0, 'B': 1, 'C': 2, 'D': 3} >>> df.fillna(value=values) A B C D 0 0.0 2.0 2.0 0 1 3.0 4.0 2.0 1 2 0.0 1.0 2.0 5 3 0.0 3.0 2.0 4 #只替换第一个缺失值 >>>df.fillna(value=values, limit=1) A B C D 0 0.0 2.0 2.0 0 1 3.0 4.0 NaN 1 2 NaN 1.0 NaN 5 3 NaN 3.0 NaN 4 

房价分析:
在此问题中,只有bedroom一列有缺失值,按照此三种方法处理代码为:

# option 1 将含有缺失值的行去掉 housing.dropna(subset=["total_bedrooms"]) # option 2 将"total_bedrooms"这一列从数据中去掉 housing.drop("total_bedrooms", axis=1) # option 3 使用"total_bedrooms"的中值填充缺失值 median = housing["total_bedrooms"].median() housing["total_bedrooms"].fillna(median) 
sklearn提供了处理缺失值的 Imputer类,具体的使用教程在这https://blog.csdn.net/dss_dssssd/article/details/82831240
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/192190.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)


相关推荐

  • 关于计算机教育论文参考文献,计算机教育论文参考文献范文 哪里有计算机教育参考文献…

    关于计算机教育论文参考文献,计算机教育论文参考文献范文 哪里有计算机教育参考文献…

    2021年11月27日
  • Linux磁盘管理和文件系统[通俗易懂]

    Linux磁盘管理和文件系统[通俗易懂]文章目录1.前言2.磁盘结构2.1设备文件2.2设备的命名规则(1)物理设备1.前言https://zhuanlan.zhihu.com/p/3397174632.磁盘结构2.1设备文件在linux系统中,一切皆文件,磁盘设备也是文件的一种。设备文件:关联至一个设备驱动程序,进而能够跟与之对应硬件设备进行通信设备号码:主设备号:majornumber,标识设备类型次设备号:minornumber,标识同一类型下的不同设备设备类型:块设备:block,存取单位“块”,磁盘

  • 矩阵等价-相似-合同

    矩阵等价-相似-合同1.矩阵等价2.矩阵相似3.矩阵合同矩阵等价定义如果矩阵A经过有限次初等行变换变成矩阵B,就成矩阵A与B行等价。如果矩阵A经过有限次初等列变换变成矩阵B,就成矩阵A与B列等价。如果矩阵A经过有限次初等变换变成矩阵B,就称矩阵A与B等价。性质反身性:A~A对称性:若AB,则BA传递性:若AB,BC,则A~C推论:有两个m×n阶矩阵A和B,如果这两个矩阵满足B=QAP(P是n×n阶可逆矩阵,Q是m×m阶可逆矩阵),那么这两个矩阵之间是等价关系。r(A)=r(B),且A与B为同型矩阵。

    2022年10月29日
  • http://jpsexmovies.com/images/mvimgs/

    http://jpsexmovies.com/images/mvimgs/http://jpsexmovies.com/images/mvimgs/

  • Git提交代码步骤

    Git提交代码步骤目录1.Git提交代码步骤1.1第1步:查看当前状态:gitstatus1.2第2步:提交代码到本地git缓存区:gitadd1.3第3步:推送代码到本地git库:gitcommit1.4第4步:合并远程与本地代码:gitpull1.5第5步:提交本地代码到远程仓库:gitpush1.Git提交代码步骤1.1第1步:查看当前状态:gitstatus提交代码第1步:gitstatus查看当前状态当你忘记修改了哪些文件的时候可以使用git..

  • 【SQL Server】关于报错“备份集中的数据库备份与现有的数据库”xxx”不同”的解决方案

    【SQL Server】关于报错“备份集中的数据库备份与现有的数据库”xxx”不同”的解决方案在做数据库备份与还原的过程中可能因为一下小的细节导致通过备份文件还原的时候报错:备份集中的数据库备份与现有的数据库"xxx"不同导致这种报错的原因是:备份文件与现有数据库的结构不一致因此要恢复数据库就需要去“选项”中勾选“覆盖现有数据库”这样备份就搞定了 …

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号