前言

数据索引是数据分析中最关键的操作。在数据分析中经常需要选取固定的行列,在Excel中可以使用鼠标进行点选,但是敲命令的时候,例如python和R中不方便使用鼠标,这就需要灵活掌握数据的索引。如果数据索引不能熟练操作,就看不懂代码,后面的数据分析无法完成。

SRE实战 互联网时代守护先锋,助力企业售后服务体系运筹帷幄!一键直达领取阿里云限量特价优惠。

 

python数据分析:数据索引——最关键的操作 Python 第1张

 

数据索引

数据索引,也称为数据切片和切块,是使用不同的列或索引切分数据,实现从数据中获取特定子集的方式。DataFrame为二维数据,每一列均为一个同一类型数据,所以为Series,每一行可以为不同数据类型,所以,每一行数据为DataFrame一个子集,数据类型依然为DataFrame。

pandas索引常用五种方法,loc iloc ix at iat。ix官方已不再推荐使用。其实笔者觉得pandas的索引操作不如R的方便。不过也够用。目前主要使用的为loc和iloc,两者比较容易混淆,这里按照官方方法提供一个简单的快速记忆方法loc代表location,使用标签来索引,也就是行名或者列名,而iloc中的i解读为integer,即integerlocation通过数字索引值来定位,也就是行号或者列号。

x.loc[ [‘行名1’, ‘行名2’, ‘行名3’……]     , [‘列名1’,‘列名2’……]   ]
x.iloc[ [行号1,行号2,行号3……]     ,   [列号1,列号2……]   ]

 

利用数字进行索引

pandas可以使用行名列名进行索引,也可以使用数字作为索引,具体使用哪种方式,要看具体使用场景,灵活使用,如果行列数太多,使用行名列名更加方便,如果要选取一个范围,使用数字更加方便。

如果要使用数字进行索引,则需要使用iloc标签,行在前列在后,中间用逗号“,”分割,如果全部选取,用冒号“:”代替。其中冒号也可以用来表示一定范围。

特别注意, python中索引值从0开始。并且不包含右侧边界。例如0:15,代表从第一个值到第15个值。

python数据分析:数据索引——最关键的操作 Python 第2张

 

使用数字索引

mtcars[0:5]
mtcars.iloc[ 0:5 ,:  ]
mtcars.iloc[1]
#负数索引
mtcars.iloc[:,-1]

 

选取奇数行和偶数行

#奇数行
mtcars.iloc[np.arange(0,32,2)]
#偶数行
mtcars.iloc[np.arange(1,32,2)]

 

利用行名列名进行索引

如果想选取固定的行,使用点号,是最方便的方式,类似于R中数据框索引使用“$”,为什么行不行呢?因为数据分析中更多时候是按列处理数据。这里注意由于python中点号有特殊作用,所以,源文件列名中最好不要有点号和空白,可以使用下划线替代

mtcars.cyl
mtcars.cyl.size

 

直接使用行名列名选取数据

mtcars['mpg']
mtcars[['mpg','cyl']]
mtcars.loc[:,['cyl']]
mtcars.loc[['Fiat 128','Valiant']]
mtcars.loc[:,['disp','hp']]

 

删除固定行或列

#删除行列
mtcars.drop(columns=['cyl','mpg'])
mtcars.drop(index=['Valiant'])
mtcars[mtcars.index != 5]
mtcars[mtcars.index!='Volvo 142E']

 

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。

作者:基因学苑

扫码关注我们
微信号:SRE实战
拒绝背锅 运筹帷幄