简要介绍
1、2008 年 WesMcKinney 开发出的库 2、专门用于数据挖掘的开源 python 库 3、以 Numpy 为基础,借力 Numpy 模块在计算方面性能高的优势 4、基于 matplotlib,能够简便的画图 5、独特的数据结构
内容整理自 https://mp.weixin.qq.com/s/5YIz-aXy18289JQH9agNiQ
1、Pandas 优势
(1)增强图表可读性
(2)便捷的数据处理能力
(3)读取文件方便
(4)封装了 Matplotlib、Numpy 的画图和计算
2、Pandas 数据结构
Pandas 中一共有三种数据结构,分别为:Series、DataFrame 和 MultiIndex(老版本中叫 Panel )。
其中 Series 是一维数据结构,DataFrame 是二维的表格型数据结构,MultiIndex 是三维的数据结构。
三种数据结构对应有自己的创建方式、属性以及相应操作
1、通过已有数据创建:(1)指定内容(list、ndarray),默认索引(2)指定内容和索引(3)通过字典数据创建
2、属性一般包括:
Series:(1)index(2)values;
DataFrame:(1)shape(2)行索引,表明不同行,横向索引,叫 index,0 轴,axis=0(3)列索引,表名不同列,纵向索引,叫 columns,1 轴,axis=1(4)values(5)T 转置(6)head(5) 显示前 5 行内容(7)tail(5) 显示后 5 行内容
3、相应操作
DataFrame 索引的设置:(1)修改行列索引值(2)重设索引(3)以某列值设置为新的索引
MultiIndex:MultiIndex 是三维的数据结构;多级索引(也称层次化索引)是 pandas 的重要功能,可以在 Series、DataFrame 对象上拥有 2 个以及 2 个以上的索引。
3、基本数据操作
1.索引[掌握]
直接索引–先列后行,是需要通过索引的字符串进行获取
loc ——先行后列,是需要通过索引的字符串进行获取
iloc——先行后列,是通过下标进行索引
ix——先行后列,可以用上面两种方法混合进行索引
2.赋值[知道]
data[“”]= **
data. =
3.排序[知道]
dataframe
- 对象.sort_ _values()
- 对象.sort _index()
series
- 对象 sort_ _values()
- 对象.sort_ index()
4、DataFrame 运算
- 本文作者: YuT
- 本文链接: https://ytno1.github.io/archives/319b4403.html
- 版权声明: 本博客所有文章除特别声明外,均采用 MIT 许可协议。转载请注明出处!