pandas进阶学习

一、缺失值处理

1.1 删除缺失值 .dropna()

# 读取数据

df.read_csv('路径')

# 查看数据

df.info()
df.describe() #大致知道哪些列有缺失

# 删除缺失行

df.dropna() # 不会修改原数据，加 inplace=True 修改原数据 默认axis=0

df.dropna(axis=0) # 删除行

df.dropna(axis=1) # 删除列

1.2 填充缺失值 .fillna()

# np.notnull() 非空返回True，否则为False
# np.isnull() 缺失值返回True，否则为False

# 遍历列名
for col_name in df.columns:
        # 判断每一列是否有缺失值
        if np.all(np.notna(df[col_name])) == False:
                # 如进来就说明这一列有缺失值
                # 打印有缺失值的列名
                print(col_name)
                # 将该列的缺失值用该列的均值做替换
                df[col_name].fillna(df[col_name].mean(), inplace=True)

1.3 替换缺失值（缺失值有特殊标志）

背景:实际开发中，不是所有的缺失值都会用NaN来表示，例如:可能用?表示，如何删除这些缺失值呢?

思路：先转换，后删除，即：? --> NaN --> 删除.

df.replace('?', np,nan).dropna()

二、数据合并

2.1 contact()

# 可以同时拼接多个表，能行合并、列合并，默认列合并，不能指定拼接字段

# 细节：行合并参考行索引；列合并参考列名

# axis=0是列合并，axis=1是行合并

# join=outer是满外连接 = 左表全集 + 交集 + 右表全集

# join=inner 是内连接 = 交集

df=pd.contact([df1,df2], axis=0/1, join='outer/inner')

2.2 merge()

# 只能行合并

# how=默认inner ，还有outer、left（左连接）、right（右连接）

# on=是指定用那一列/多列作为拼接字段

pd.merge(左表, 右表, how='inner', on=None)

三、数据分组

3.1 分组聚合

格式

df.groupby(['分组字段1','分组字段2',...]).agg('列名1':'聚合函数名', '列名2':'聚合函数2', ...)

场景1：按照单列分组

df.groupby(['city'])  # DataFrameGroupBy-->DataFrame分组对象

df.groupby('city')  # 效果同上

场景2 ：按照多列分组

df.groupby(['city', 'channel'])

场景3：如何获得某个分组的数据

df.groupby(['city','channel']).get_group(['北京','线上']) # 一个分组的信息

df.groupby(['city','channel']).get_group(['上海','线下']) # 另一个分组的信息

场景4：分组+聚合（聚合字段只有1个）

写法1：（掌握）
df.groupby(['city','channel']).agg('revenue':'sum') # 返回DataFrame对象

写法2：（了解）
df.groupby(['city','channel']).revenue.sum()        # 返回Series对象
df.groupby(['city','channel'])['revenue'].sum()     # 返回Series对象
df.groupby(['city','channel'])[['revenue']].sum()   # 返回DataFrame对象

场景5：分组+聚合（聚合字段有2个，聚合函数相同）

写法1：（掌握）
df.groupby(['city','channel']).agg('revenue':'sum','order':'max')

写法2：（了解）
df.groupby(['city','channel'])[['revenue','order']].sum()

场景6：分组+聚合（聚合字段有2个，聚合函数不同）

# 没有其他写法了
df.groupby(['city','channel']).agg({
    'revenue': 'mean',
    'unit_cost':'sum'
 })

3.2 分组过滤

格式

df.groupby(['列名1','列名2',...]).filter(lambda x:...)

例如：按城市分组，查找每组销售金额平均值大于200的全部数据

df.groupby('city').filter(lambda x:x.revenue.mean()>200)

等价于

df.groupby('city').filter(lambda x:x['revenue'].mean()>200)

四、交叉表与透视表

交叉表：计算一列数据对另一列数据分组的个数

透视表：指定某一列对另一列的关系

4.1 交叉表（了解）

tb = pd.crosstab(值1, 值2)

4.2 透视表（掌握）

需求：根据城市、销售渠道分组，计算销售金额总和。

写法1：分组+聚合

df.groupby(['city', 'channel']).agg({'revenue':'sum'})

写法2：透视表

# 参1：指定分组字段；参2：指定分组字段；参3：指定聚合字段；参4：指定聚合函数

df.pivot_table(index='city', columns='channel', values='revenue', aggfunc='sum')

转载自CSDN-专业IT技术社区

原文链接：https://blog.csdn.net/I_Like_S_/article/details/161865005