Pandas个人操作练习(1)创建dataframe及插入列、行操作

Pandas个人操作练习(1)创建dataframe及插入列、行操作使用pandas之前要导入包:importnumpyasnpimportpandasaspdimportrandom#其中有用到random函数,所以导入一、dataframe创建pandas.DataFrame(data=None,index=None,columns=None,dtype=None,copy=False)data:numpy…

大家好,又见面了,我是你们的朋友全栈君。

使用pandas之前要导入包:

import numpy as np

import pandas as pd

import random    #其中有用到random函数,所以导入

一、dataframe创建

pandas.DataFrame(data=Noneindex=Nonecolumns=Nonedtype=Nonecopy=False)

data:numpy ndarray(结构化或同类),dict或DataFrame,Dict可以包含Series,数组,常量或类似列表的对象

index:dataframe的索引,如果没有自定义,则默认为RangeIndex(0,1,2,…,n)

columns:dataframe的列标签,如果没有自定义,则默认为RangeIndex(0,1,2,…,n)

dtype:默认None,要强制的数据类型。 只允许一个dtype

copy:boolean,默认为False

(1)利用randn函数用于创建随机数来快速生成一个dataframe,可以将下句这一部分np.random.randn(8,5)作为参数data,其他默认,可以看到索引和列名都为(0,1,2,,,n),可以看出dataframe最不能缺少的为data

df = pd.DataFrame(np.random.randn(8,5))

Pandas个人操作练习(1)创建dataframe及插入列、行操作

(2)用字典dict来生成一个dataframe

data = {'BoolCol': [1, 2, 3, 3, 4],
        'attr': [22, 33, 22, 44, 66],
        'BoolC': [1, 2, 3, 3, 4],
        'att': [22, 33, 22, 44, 66],
        'Bool': [1, 2, 3, 3, 4]
        }
df = pd.DataFrame(data)

Pandas个人操作练习(1)创建dataframe及插入列、行操作

(2).1自定义索引的dataframe

data = {'BoolCol': [1, 2, 3, 3, 4],
        'attr': [22, 33, 22, 44, 66],
        'BoolC': [1, 2, 3, 3, 4],
        'att': [22, 33, 22, 44, 66],
        'Bool': [1, 2, 3, 3, 4]
        }
df = pd.DataFrame(data,index=[10,20,30,40,50])

Pandas个人操作练习(1)创建dataframe及插入列、行操作

或者这样自定义索引

data = {'BoolCol': [1, 2, 3, 3, 4],
        'attr': [22, 33, 22, 44, 66],
        'BoolC': [1, 2, 3, 3, 4],
        'att': [22, 33, 22, 44, 66],
        'Bool': [1, 2, 3, 3, 4]
        }
index = pd.Index(data=[10,20,30,40,50],name="self_index")
df = pd.DataFrame(data,index=index)

Pandas个人操作练习(1)创建dataframe及插入列、行操作

(3)可以看出像列名‘att’等对应的都是一个list的形式,为例填充这些列名对应的值,首先要把值的形式定义好,形成list

#随机生成3000个test号
#random.sample(range(0,10),6)从0-9这十位数中随机选出6位
test_list=[]
for i in range(3000):
    test_list.append("123456"+"".join(str(s) for s in random.sample(range(0,10),6)))

#生成3000个1-200的随机浮点数,且保留两位小数
test_list2 = [round(random.uniform(1,200),2) for _ in range(3000)]

data = {
    'date':pd.date_range("2000",freq= 'Y',periods=16).year,
    'aa':test_list,
    'test2':test_list2,
    'label':[random.randint(0,1) for _ in range(3000)]
}
  df = pd.DataFrame(data = data)

二、dataframe插入列/多列

添加一列数据,,把dataframe如df1中的一列或若干列加入另一个dataframe,如df2
思路:先把数据按列分割,然后再把分出去的列重新插入
    df1 = pd.read_csv(‘example.csv’)
(1)首先把df1中的要加入df2的一列的值读取出来,假如是’date’这一列
    date = df1.pop(‘date’)
(2)将这一列插入到指定位置,假如插入到第一列
    df2.insert(0,’date’,date)
(3)默认插入到最后一列
    df2[‘date’] = date

2.2插入多列

假如dataframe1.shape=(5,4),dataframe2.shape=(5,6),运行代码:dataframe3=pd.concat([dataframe1,dataframe2], axis=1),则dataframe3.shape=(5,10)。关键点是axis=1,指明是列的拼接

三、dataframe插入行

插入行数据,前提是要插入的这一行的值的个数能与dataframe中的列数对应且列名相同,思路:先切割,再拼接。
假如要插入的dataframe如df3有5列,分别为[‘date’,’spring’,’summer’,’autumn’,’winter’],
(1)插入空白一行
方法一:利用append方法将它们拼接起来,注意参数中的ignore_index=True,如果不把这个参数设为True,新排的数据块索引不会重新排列。
   

insertRow = pd.DataFrame([[0.,0.,0.,0.,0.]],columns = ['date','spring','summer','autumne','winter'])
    above = df3.loc[:2]
    below = df3.loc[3:]
    newData = above.append(insertRow,ignore_index=True).append(below,ignore_index=True)

方法二:用.concat()的方法来进行拼接,注意ignore_index=True
   

newData2 = pd.concat([above,insertRow,below],ignore_index = True)

(2)假设df4中的列数和df3相同,取df4的行插入df3中

df4 = pd.DataFrame({'BoolCol': [1, 2, 3, 3, 4],
                        'attr': [22, 33, 22, 44, 66],
                        'BoolC': [1, 2, 3, 3, 4],
                        'att': [22, 33, 22, 44, 66],
                        'Bool': [1, 2, 3, 3, 4]
                       },
                       index=[10,20,30,40,50])

data = {
    'date':pd.date_range("2000",freq= 'Y',periods=16).year,
    'spring':[random.uniform(12,15) for _ in range(16)],
    'summer':[random.uniform(16,18) for _ in range(16)],
    'autumn':[random.uniform(12,19) for _ in range(16)],
    'winter':[random.uniform(11,15) for _ in range(16)]
}
df3 = pd.DataFrame(data=data)
cols = ['date','spring','summer','autumn','winter']
#df3 = df3.ix[:,cols]
df3 = df3.loc[:,cols]

Pandas个人操作练习(1)创建dataframe及插入列、行操作

<1>.先获取取某一行的索引:

insertRow2_index = df4[df4.Bool == 3].index.tolist()

Pandas个人操作练习(1)创建dataframe及插入列、行操作

<2>.根据索引获取这两行的值:

insertRow2 = []
for x in insertRow2_index:
    #注意.values的使用,只获取值,不带列名
    insertRow2.append(df4.loc[x].values)
insertRow22 = pd.DataFrame(insertRow2)
#修改列名简单粗暴的方法,要改就全改,否则不成功
insertRow22.columns=['date','spring','summer','autumn','winter']
------------------------------------------------------------------------
#灵活修改列名方法,可以选择,默认列名为(1,2,,,n)
insertRow22.rename(columns={'1':'date', '2':'spring','3':'summer', '4':'autumn','5':'winter'}, inplace = True)
根据索引取得这一行的值的不同用法
    (1)#根据自定义的index取一行数据,即用于标签索引
    1.1
    #row = df4.loc[insertRow2_index]
    1.2
    row = df4.loc[insertRow2_index,:].values
    
    -------------------------------------
    (2)#根据系统默认的index取一行数据,即用于位置索引
    row= df4.iloc[insertRow2_index,:].values

Pandas个人操作练习(1)创建dataframe及插入列、行操作

<3>.将insertRow22插入df3:

above = df3.loc[:2]
below = df3.loc[3:]
newData = above.append(insertRow22,ignore_index=True).append(below,ignore_index=True)

Pandas个人操作练习(1)创建dataframe及插入列、行操作

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/130125.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)
blank

相关推荐

  • latex中如何正确输入 双引号「建议收藏」

    latex中如何正确输入 双引号「建议收藏」latex中输入双引号时,如果都直接用键盘上的双引号键,打出的是一顺撇的。左面引号的正确输入法是:按两次“Tab上面,数字1左面那个键”。至于后边的引号,与老方法是一样的,即按两次单引号键(或一次SHIFT+单引号键—也就是一次双引号键啦怎么输入左单引号、左双引号、右单引号、有双引号?左单引号:`(键盘上1旁边的那个);左双引号:“;右单引号:'(键盘分号的右边那个);右双引号:”或”。在

  • mac OCR截图文字识别工具—iText for mac[通俗易懂]

    mac OCR截图文字识别工具—iText for mac[通俗易懂]iTextformac中文版是Macos系统上一款从图片中识别文字的OCR(光学字符识别)工具。通过截图、拖拽图片,即可以从扫描版的PDF等任意图片中识字,并且可以很好的解决摘抄和批注需求。帮助用户识别图片中文字,节约时间,提高效率。iTextformac下载安装教程…

  • 绝对值不等式的常见形式及解法

    绝对值不等式的常见形式及解法绝对值不等式解法的基本思路是:去掉绝对值符号,把它转化为一般的不等式求解,转化的方法一般有:(1)绝对值定义法;(2)平方法;(3)零点区域法。常见的形式有以下几种。  1. 形如不等式:利用绝对值的定义得不等式的解集为:。在数轴上的表示如图1。  2. 形如不等式:它的解集为:。在数轴上的表示如图2。  3. 形如不等式它的解法是:先化为不等式组:,再利用不等

  • shell循环生成连续日期

    shell循环生成连续日期1,给定长度,循环生成日期begin_day=-5end_day=0for((i=${begin_day};i<=${end_day};i++));do day=`date-d”${i}days”+”%Y%m%d”` echo${day}done输出为:2020082520200826202008272020082820200829202008302,给定开始日期和结束日期,循环生成日期。begin_day=”20200801″end_day=”2020

  • _beginthread, _beginthreadex

    _beginthread, _beginthreadex语法uintptr_t_beginthread(//NATIVECODEvoid(__cdecl*start_address)(void*),unsignedstack_size,void*arglist);uintptr_t_beginthread(//MANAGEDCODEvoid(__clrcall*start_add…

    2022年10月31日
  • php sqrt函数,sqrt函数怎么使用「建议收藏」

    php sqrt函数,sqrt函数怎么使用「建议收藏」JavaScript中的sqrt函数是用于返回一个数的平方根,也就是开平方,下面的文章我们就来具体看一下sqrt函数的使用方法。我们来看一下sqrt函数的基本语法Math.sqrt(value)平方根数需要计算。返回作为参数传递的数字的平方根。需要注意的是:1、作为参数传递的非数字字符串返回NaN2、作为参数传递的多于1个整数的数组返回NaN3、作为参数传递的负数返回NaN4、作为参数传递的空字符…

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号