pandas小结(一)数据设置
pandas是python下一个很牛X的数据分析的模块。在进行这部分总结的时候,我一些在考虑如何设置篇幅。想了一圈,决定第一篇不去介绍pandas的其他内容,先是以玩的心态了解下怎么去构造数据。怎么去改数据。玩过了以后,第二票再去介绍理论的东西。不废话,进主题。
1、创建测试数据
1#!/usr/bin/env python
2# _*_ coding: utf-8 _*_
3import pandas as pd
4import numpy as np
5dates = pd.date_range('20170101', periods = 6)
6df = pd.DataFrame(np.arange(24).reshape((6, 4)), index = dates, columns = ['A', 'B', 'C', 'D'])
此时执行print打印,获取的数据如下:
1print(dates)
2DatetimeIndex(['2017-01-01', '2017-01-02', '2017-01-03', '2017-01-04',
3 '2017-01-05', '2017-01-06'],
4 dtype='datetime64[ns]', freq='D')
5print(df)
6 A B C D
72017-01-01 0 1 2 3
82017-01-02 4 5 6 7
92017-01-03 8 9 10 11
102017-01-04 12 13 14 15
112017-01-05 16 17 18 19
122017-01-06 20 21 22 23
2、修改数据
数据的修改可以使用行号、列号,也可以使用索引号进行修改。
1# 设置df[2,1]为100
2df.iloc[2, 1] = 100
3# loc设置值
4df.loc['20170102', 'C'] = 999
上面第一种修改是根据索引修改的,python 下索引是从0开始的,所以这个修改的是第三行第二列的值。第二种方法就比较容易理解了,这种做法和我们常见excel里的一样,通过行列找到对应的值,改掉就行了。
3、高级修改
高级修改是通过通过一些条件和范围,修改一部分数据的内容。
1# 根据条件设置值
2df[df.A > 8] = 0
3# 根据ix设置值
4df.ix[[0, 2], ['A', 'C']] = 888
5# 限定设置区域
6df.B[df.B == 0] = 6
第1个示例,修改列名为A的,其中值大于8的,都修改为0;
第2个示例,这个比较好玩,是修改第1行、第3行的第A、C两列的值(四个单元格)为888。不过ix这个函数后面的版本中被废弃了。官方建议使用loc(行方法)和iloc(列方法)替代。
第3个示例,指定了列,该列中值为0的单元格,都修改为值为0 。
4、列添加
1# 添加一列
2df['F'] = None
3df['E'] = pd.Series([1, 2, 3, 4, 5, 6], index = dates)
上面的代码添加了两列,其中一列值全部为空,另一列添加的值为1-6,并指定了索引为最开始生成的时间序列。
捐赠本站(Donate)
如您感觉文章有用,可扫码捐赠本站!(If the article useful, you can scan the QR code to donate))
- Author: shisekong
- Link: https://blog.361way.com/pandas-setupdata/6176.html
- License: This work is under a 知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议. Kindly fulfill the requirements of the aforementioned License when adapting or creating a derivative of this work.