pandas常用API_1
pandas
数据分析处理库
pandas官方网站
pandas中文网
API
说明:
import pandas as pd
df_obj: DataFrame对象(表格型的数据结构,提供有序的列和不同类型的列值)
s_obj: series对象(一维数组对象,包含一组索引和一组数据)
1. pd.read_csv(filepath_or_buffer, ...)
将csv文件读取到DataFrame中。
常用参数:
filepath_or_buffer:任何有效的字符串路径;也可以是URL,有效的URL方案包括:http, ftp, s3 和 file.
返回值:
DataFrame or TextParser
2. df_obj.head(n:int=5)/s_obj.head(n:int=5)
返回前n行。
参数:
n:int, default:5; 返回前多少行。
返回值:
same type as caller。
3. pd.value_counts(values, sort:bool=True, ascending:bool=False, normalize:bool=False, bins=None, dropna:bool=True)
返回一个包含唯一值计数的Series, 结果降序排列,不包含NaN值。
参数:
values: 要统计计数的数据
sort: bool类型,是否按频率排序,默认为True.
ascending: bool类型,升序排列,默认为False.
normalize: bool类型,是否显示频率,默认为False.
bins: int类型,不再是按值统计计数,而是将区间均分为几等分,统计每个区间中的计数。
dropna: bool类型,不包括NaN计数,默认为True.
返回值:
Series.
4. df_obj / s_obj.sort_index(axis=0, level=None, ascending=True, inplace=False, kind="quicksort", na_position="last", sort_remaining=True, ignore_index=False)
按索引标签对序列进行排序。
参数:
axis: 进行排序的轴(0/index:行,1/columns:列),默认为0.
level: int / 级别名称 / 级别列表 / 级别名称列表;如果不是None, 则对索引级别中的值进行排序。
ascending: 升序排序,默认为True。
inplace: 如果为True, 则就地执行操作(改变原序列),默认为False(生成一个排序后的新列)。
kind: 选择排序算法。(quicksort, mergesort, heapsort), 对于DataFrame, 仅对单个列或标签排序时适用。
na_position:last / first; NaN放在开头还是结尾,默认为last.
sort_remaining: 默认为False, 如果为True且级别或索引是多层的,则按指定级别排序后也按其他级别排序。
ingore_index: 默认为False, 如果为True, 则结果轴将标记为0,1,2,..., n-1.