pandas之SQL类操作

一、pandas数据

pandas有两类数据，一种是一维的Series；另一种是二维的DataFrame。其实还有一个三维的Panel，不过这种数据分类已经废弃。pandas的数据使用比较灵活，可以像SQL一样操作。本文结合示例说下pandas的操作。

Series，1维序列，可视作为没有column名的、只有一个column的DataFrame；
DataFrame，同Spark SQL中的DataFrame一样，其概念来自于R语言，为多column并schema化的2维结构化数据，可视作为Series的容器（container）。

生成示例数据：

1import pandas as pd
2import numpy as np
3df = pd.DataFrame({'total_bill': [16.99, 10.34, 23.68, 23.68, 24.59],
4                   'tip': [1.01, 1.66, 3.50, 3.31, 3.61],
5                   'sex': ['Female', 'Male', 'Male', 'Male', 'Female']})

DataFrame有如下属性：

 1# data type of columns  列数据类型
 2df.dtypes
 3# indexes  行索引
 4df.index
 5# return pandas.Index  列名称（label）
 6df.columns
 7# each row, return array[array]
 8df.values
 9# a tuple representing the dimensionality of df  行列数（元祖）
10df.shape

二、SQL操作

1、select选取

SQL中的select是根据列的名称来选取；Pandas则更为灵活，不但可根据列名称选取，还可以根据列所在的position选取。相关函数如下：

loc，基于列label，可选取特定行（根据行index）；
iloc，基于行/列的position；
at，根据指定行index及列label，快速定位DataFrame的元素；
iat，与at类似，不同的是根据position来定位的；
ix，为loc与iloc的混合体，既支持label也支持position；

示例：

 1df.loc[1:3, ['total_bill', 'tip']]
 2df.loc[1:3, 'tip': 'total_bill']
 3df.iloc[1:3, [1, 2]]
 4df.iloc[1:3, 1: 3]
 5df.at[3, 'tip']
 6df.iat[3, 1]
 7df.ix[1:3, [1, 2]]
 8df.ix[1:3, ['total_bill', 'tip']]
 9df[1: 3]
10df[['total_bill', 'tip']]
11# df[1:2, ['total_bill', 'tip']]  # TypeError: unhashable type

在新的版本中取消了df.ix操作。

2、where条件选取

Pandas实现where filter，较为常用的办法为df[df[colunm] boolean expr]，比如：

1df[df['sex'] == 'Female']
2df[df['total_bill'] > 20]
3# or
4df.query('total_bill > 20')

在where子句中常常会搭配and, or, in, not关键词，Pandas中也有对应的实现：

 1# and
 2df[(df['sex'] == 'Female') & (df['total_bill'] > 20)]
 3# or
 4df[(df['sex'] == 'Female') | (df['total_bill'] > 20)]
 5# in
 6df[df['total_bill'].isin([21.01, 23.68, 24.59])]
 7# not
 8df[-(df['sex'] == 'Male')]
 9df[-df['total_bill'].isin([21.01, 23.68, 24.59])]
10# string function
11df = df[(-df['app'].isin(sys_app)) & (-df.app.str.contains('^微信\d+$'))]

对where条件筛选后只有一行的dataframe取其中某一列的值，其两种实现方式如下：

1total = df.loc[df['tip'] == 1.66, 'total_bill'].values[0]
2total = df.get_value(df.loc[df['tip'] == 1.66].index.values[0], 'total_bill')

3、distinct去重

drop_duplicates根据某列对dataframe进行去重：

1df.drop_duplicates(subset=['sex'], keep='first', inplace=True)

包含参数：

subset，为选定的列做distinct，默认为所有列；
keep，值选项{‘first’, ‘last’, False}，保留重复元素中的第一个、最后一个，或全部删除；
inplace ，默认为False，返回一个新的dataframe；若为True，则返回去重后的原dataframe

4、group聚合统计

group一般会配合合计函数（Aggregate functions）使用，比如：count、avg等。Pandas对合计函数的支持有限，有count和size函数实现SQL的count：

1df.groupby('sex').size()
2df.groupby('sex').count()
3df.groupby('sex')['tip'].count()

对于多合计函数

1select sex, max(tip), sum(total_bill) as total
2from tips_tb
3group by sex

实现在agg()中指定dict：

1df.groupby('sex').agg({'tip': np.max, 'total_bill': np.sum})
2# count(distinct **)
3df.groupby('tip').agg({'sex': pd.Series.nunique})

5、as别名

SQL中使用as修改列的别名，Pandas也支持这种修改：

1# first implementation
2df.columns = ['total', 'pit', 'xes']
3# second implementation
4df.rename(columns={'total_bill': 'total', 'tip': 'pit', 'sex': 'xes'}, inplace=True)

其中，第一种方法的修改是有问题的，因为其是按照列position逐一替换的。因此，我推荐第二种方法。

6、join

Pandas中join的实现也有两种：

1# 1.
2df.join(df2, how='left'...)
3# 2.
4pd.merge(df1, df2, how='left', left_on='app', right_on='app')

第一种方法是按DataFrame的index进行join的，而第二种方法才是按on指定的列做join。Pandas满足left、right、inner、full outer四种join方式。这个在之前的系列文章中已有说明。

7、order排序

Pandas中支持多列order，并可以调整不同列的升序/降序，有更高的排序自由度：

1df.sort_values(['total_bill', 'tip'], ascending=[False, True])

8、top分组

全局的top：

1df.nlargest(3, columns=['total_bill'])

对于分组top，MySQL的实现（采用自join的方式）：

1select a.sex, a.tip
2from tips_tb a
3where (
4    select count(*)
5    from tips_tb b
6    where b.sex = a.sex and b.tip > a.tip
7) < 2
8order by a.sex, a.tip desc;

Pandas的等价实现，思路与上类似：

 1# 1.
 2df.assign(rn=df.sort_values(['total_bill'], ascending=False)
 3          .groupby('sex')
 4          .cumcount()+1)\
 5    .query('rn < 3')\
 6    .sort_values(['sex', 'rn'])
 7# 2.
 8df.assign(rn=df.groupby('sex')['total_bill']
 9          .rank(method='first', ascending=False)) \
10    .query('rn < 3') \
11    .sort_values(['sex', 'rn'])

9、replace

replace函数提供对dataframe全局修改，亦可通过where条件进行过滤修改（搭配loc）：

1# overall replace
2df.replace(to_replace='Female', value='Sansa', inplace=True)
3# dict replace
4df.replace({'sex': {'Female': 'Sansa', 'Male': 'Leone'}}, inplace=True)
5# replace on where condition
6df.loc[df.sex == 'Male', 'sex'] = 'Leone'

10、自定义

除了上述SQL操作外，Pandas提供对每列/每一元素做自定义操作，为此而设计以下三个函数：

map(func)，为Series的函数，DataFrame不能直接调用，需取列后再调用；
apply(func)，对DataFrame中的某一行/列进行func操作；
applymap(func)，为element-wise函数，对每一个元素做func操作

1df['tip'].map(lambda x: x - 1)
2df[['total_bill', 'tip']].apply(sum)
3df.applymap(lambda x: x.upper() if type(x) is str else x)

三、实例

1、环比增长

现有两个月APP的UV数据，要得到月UV环比增长；该操作等价于两个Dataframe left join后按指定列做减操作：

1def chain(current, last):
2    df1 = pd.read_csv(current, names=['app', 'tag', 'uv'], sep='\t')
3    df2 = pd.read_csv(last, names=['app', 'tag', 'uv'], sep='\t')
4    df3 = pd.merge(df1, df2, how='left', on='app')
5    df3['uv_y'] = df3['uv_y'].map(lambda x: 0.0 if pd.isnull(x) else x)
6    df3['growth'] = df3['uv_x'] - df3['uv_y']
7    return df3[['app', 'growth', 'uv_x', 'uv_y']].sort_values(by='growth', ascending=False)

2、差集

对于给定的列，一个Dataframe过滤另一个Dataframe该列的值；相当于集合的差集操作：

 1def difference(left, right, on):
 2    """
 3    difference of two dataframes
 4    :param left: left dataframe
 5    :param right: right dataframe
 6    :param on: join key
 7    :return: difference dataframe
 8    """
 9    df = pd.merge(left, right, how='left', on=on)
10    left_columns = left.columns
11    col_y = df.columns[left_columns.size]
12    df = df[df[col_y].isnull()]
13    df = df.ix[:, 0:left_columns.size]
14    df.columns = left_columns
15    return df

参考手册页面：

https://pandas.pydata.org/pandas-docs/stable/getting_started/comparison/comparison_with_sql.html

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.drop_duplicates.html

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.replace.html

如您感觉文章有用，可扫码捐赠本站！(If the article useful, you can scan the QR code to donate))

一、pandas数据

二、SQL操作

1、select选取

2、where条件选取

3、distinct去重

4、group聚合统计

5、as别名

6、join

7、order排序

8、top分组

9、replace

10、自定义

三、实例

1、环比增长

2、差集

捐赠本站(Donate)

See Also

Latest articles

Categories

Tags

Links

Meta