关注

pandas进阶学习

一、缺失值处理

1.1 删除缺失值 .dropna()

# 读取数据

df.read_csv('路径')

# 查看数据

df.info()
df.describe() #大致知道哪些列有缺失

# 删除缺失行

df.dropna() # 不会修改原数据,加 inplace=True 修改原数据 默认axis=0

df.dropna(axis=0) # 删除行

df.dropna(axis=1) # 删除列

1.2 填充缺失值 .fillna()

# np.notnull()  非空返回True,否则为False
# np.isnull() 缺失值返回True,否则为False

# 遍历列名
for col_name in df.columns:
        # 判断每一列是否有缺失值
        if np.all(np.notna(df[col_name])) == False:
                # 如进来就说明这一列有缺失值
                # 打印有缺失值的列名
                print(col_name)
                # 将该列的缺失值用该列的均值做替换
                df[col_name].fillna(df[col_name].mean(), inplace=True)

1.3 替换缺失值(缺失值有特殊标志)

背景:实际开发中,不是所有的缺失值都会用NaN来表示,例如:可能用?表示,如何删除这些缺失值呢?

思路:先转换,后删除,即:? --> NaN --> 删除.

df.replace('?', np,nan).dropna()

二、数据合并

2.1 contact()

# 可以同时拼接多个表,能行合并、列合并,默认列合并,不能指定拼接字段

# 细节:行合并参考 行索引;列合并参考 列名

# axis=0是列合并,axis=1是行合并   

# join=outer是满外连接 = 左表全集 + 交集 + 右表全集

# join=inner 是内连接 = 交集

df=pd.contact([df1,df2], axis=0/1, join='outer/inner')

2.2 merge()

# 只能行合并

# how=默认inner ,还有outer、left(左连接)、right(右连接)

# on=是指定用那一列/多列  作为拼接字段

pd.merge(左表, 右表, how='inner', on=None)

三、数据分组

3.1 分组聚合

格式

df.groupby(['分组字段1','分组字段2',...]).agg('列名1':'聚合函数名', '列名2':'聚合函数2', ...)

场景1:按照单列分组

df.groupby(['city'])  # DataFrameGroupBy-->DataFrame分组对象

df.groupby('city')  # 效果同上

场景2 :按照多列分组

df.groupby(['city', 'channel'])

场景3:如何获得某个分组的数据

df.groupby(['city','channel']).get_group(['北京','线上']) # 一个分组的信息

df.groupby(['city','channel']).get_group(['上海','线下']) # 另一个分组的信息

场景4:分组+聚合(聚合字段只有1个)

写法1:(掌握)
df.groupby(['city','channel']).agg('revenue':'sum') # 返回DataFrame对象

写法2:(了解)
df.groupby(['city','channel']).revenue.sum()        # 返回Series对象
df.groupby(['city','channel'])['revenue'].sum()     # 返回Series对象
df.groupby(['city','channel'])[['revenue']].sum()   # 返回DataFrame对象

场景5:分组+聚合(聚合字段有2个,聚合函数相同)

写法1:(掌握)
df.groupby(['city','channel']).agg('revenue':'sum','order':'max')

写法2:(了解)
df.groupby(['city','channel'])[['revenue','order']].sum()

场景6:分组+聚合(聚合字段有2个,聚合函数不同)

# 没有其他写法了
df.groupby(['city','channel']).agg({
    'revenue': 'mean',
    'unit_cost':'sum'
 })

3.2 分组过滤

格式

df.groupby(['列名1','列名2',...]).filter(lambda x:...)

例如:按城市分组,查找每组销售金额平均值大于200的全部数据

df.groupby('city').filter(lambda x:x.revenue.mean()>200)

等价于

df.groupby('city').filter(lambda x:x['revenue'].mean()>200)

四、交叉表与透视表

交叉表:计算一列数据对另一列数据分组的个数

透视表:指定某一列对另一列的关系

4.1 交叉表(了解)

tb = pd.crosstab(值1, 值2)

4.2 透视表(掌握)

需求:根据城市、销售渠道分组,计算销售金额总和。

写法1:分组+聚合

df.groupby(['city', 'channel']).agg({'revenue':'sum'})

写法2:透视表

# 参1:指定分组字段;参2:指定分组字段;参3:指定聚合字段;参4:指定聚合函数

df.pivot_table(index='city', columns='channel', values='revenue', aggfunc='sum')

转载自CSDN-专业IT技术社区

原文链接:https://blog.csdn.net/I_Like_S_/article/details/161865005

评论

赞0

评论列表

微信小程序
QQ小程序

关于作者

点赞数:0
关注数:0
粉丝:0
文章:0
关注标签:0
加入于:--