pandas是python下一个很牛X的数据分析的模块。在进行这部分总结的时候,我一些在考虑如何设置篇幅。想了一圈,决定第一篇不去介绍pandas的其他内容,先是以玩的心态了解下怎么去构造数据。怎么去改数据。玩过了以后,第二票再去介绍理论的东西。不废话,进主题。

1、创建测试数据

1#!/usr/bin/env python
2# _*_ coding: utf-8 _*_
3import pandas as pd
4import numpy as np
5dates = pd.date_range('20170101', periods = 6)
6df = pd.DataFrame(np.arange(24).reshape((6, 4)), index = dates, columns = ['A', 'B', 'C', 'D'])

此时执行print打印,获取的数据如下:

 1print(dates)
 2DatetimeIndex(['2017-01-01', '2017-01-02', '2017-01-03', '2017-01-04',
 3               '2017-01-05', '2017-01-06'],
 4              dtype='datetime64[ns]', freq='D')
 5print(df)
 6             A   B   C   D
 72017-01-01   0   1   2   3
 82017-01-02   4   5   6   7
 92017-01-03   8   9  10  11
102017-01-04  12  13  14  15
112017-01-05  16  17  18  19
122017-01-06  20  21  22  23

2、修改数据

数据的修改可以使用行号、列号,也可以使用索引号进行修改。

1# 设置df[2,1]为100
2df.iloc[2, 1] = 100
3# loc设置值
4df.loc['20170102', 'C'] = 999

上面第一种修改是根据索引修改的,python 下索引是从0开始的,所以这个修改的是第三行第二列的值。第二种方法就比较容易理解了,这种做法和我们常见excel里的一样,通过行列找到对应的值,改掉就行了。

3、高级修改

高级修改是通过通过一些条件和范围,修改一部分数据的内容。

1# 根据条件设置值
2df[df.A > 8] = 0
3# 根据ix设置值
4df.ix[[0, 2],  ['A', 'C']] = 888
5# 限定设置区域
6df.B[df.B == 0] = 6

第1个示例,修改列名为A的,其中值大于8的,都修改为0;

第2个示例,这个比较好玩,是修改第1行、第3行的第A、C两列的值(四个单元格)为888。不过ix这个函数后面的版本中被废弃了。官方建议使用loc(行方法)和iloc(列方法)替代。

第3个示例,指定了列,该列中值为0的单元格,都修改为值为0 。

4、列添加

1# 添加一列
2df['F'] = None
3df['E'] = pd.Series([1, 2, 3, 4, 5, 6], index = dates)

上面的代码添加了两列,其中一列值全部为空,另一列添加的值为1-6,并指定了索引为最开始生成的时间序列。