pandas小结（一）数据设置

pandas是python下一个很牛X的数据分析的模块。在进行这部分总结的时候，我一些在考虑如何设置篇幅。想了一圈，决定第一篇不去介绍pandas的其他内容，先是以玩的心态了解下怎么去构造数据。怎么去改数据。玩过了以后，第二票再去介绍理论的东西。不废话，进主题。

1、创建测试数据

1#!/usr/bin/env python
2# _*_ coding: utf-8 _*_
3import pandas as pd
4import numpy as np
5dates = pd.date_range('20170101', periods = 6)
6df = pd.DataFrame(np.arange(24).reshape((6, 4)), index = dates, columns = ['A', 'B', 'C', 'D'])

此时执行print打印，获取的数据如下：

 1print(dates)
 2DatetimeIndex(['2017-01-01', '2017-01-02', '2017-01-03', '2017-01-04',
 3               '2017-01-05', '2017-01-06'],
 4              dtype='datetime64[ns]', freq='D')
 5print(df)
 6             A   B   C   D
 72017-01-01   0   1   2   3
 82017-01-02   4   5   6   7
 92017-01-03   8   9  10  11
102017-01-04  12  13  14  15
112017-01-05  16  17  18  19
122017-01-06  20  21  22  23

2、修改数据

数据的修改可以使用行号、列号，也可以使用索引号进行修改。

1# 设置df[2,1]为100
2df.iloc[2, 1] = 100
3# loc设置值
4df.loc['20170102', 'C'] = 999

上面第一种修改是根据索引修改的，python 下索引是从0开始的，所以这个修改的是第三行第二列的值。第二种方法就比较容易理解了，这种做法和我们常见excel里的一样，通过行列找到对应的值，改掉就行了。

3、高级修改

高级修改是通过通过一些条件和范围，修改一部分数据的内容。

1# 根据条件设置值
2df[df.A > 8] = 0
3# 根据ix设置值
4df.ix[[0, 2],  ['A', 'C']] = 888
5# 限定设置区域
6df.B[df.B == 0] = 6

第1个示例，修改列名为A的，其中值大于8的，都修改为0；

第2个示例，这个比较好玩，是修改第1行、第3行的第A、C两列的值（四个单元格）为888。不过ix这个函数后面的版本中被废弃了。官方建议使用loc（行方法）和iloc（列方法）替代。

第3个示例，指定了列，该列中值为0的单元格，都修改为值为0 。

4、列添加

1# 添加一列
2df['F'] = None
3df['E'] = pd.Series([1, 2, 3, 4, 5, 6], index = dates)

上面的代码添加了两列，其中一列值全部为空，另一列添加的值为1-6，并指定了索引为最开始生成的时间序列。

如您感觉文章有用，可扫码捐赠本站！(If the article useful, you can scan the QR code to donate))

pandas小结（一）数据设置

1、创建测试数据

2、修改数据

3、高级修改

4、列添加

捐赠本站(Donate)

See Also

Latest articles

Categories

Tags

Links

Meta