Pandas数据结构基础用法

指尖编程 2021-04-06 17:26:24
numpy


Head与Tail

head()与tail()用于快速预览Series与DataFrame,默认显示5条数据,也可以指定显示数据的数量。

属性与底层数据

Pandas可以通过多个属性访问元数据:

shape:输出对象的轴维度,与ndarray一致

轴标签:

Series:Index(仅有此轴)

DataFrame:Index(行)与列

Pandas对象(Index、Series、DataFrame)相当于数组的容器,用于存储数据、执行计算。大部分类型的底层数组都是numpy.ndarray。不过,Pandas与第三方支持库一般都会扩展NumPy类型系统,添加自定义数组。

.array属性用于提取Index或Series里的数据。

array一般指ExtensionArray。

提取NumPy数组,用to_numpy()或numpy.asarray()。

Series与Index的类型是ExtensionArray时,to_numpy()会复制数据,并强制转换值。

to_numpy()可以控制numpy.ndarray生成的数据类型。以带时区的datetme为例,NumPy未提供时区信息的datetime数据类型,Pandas则提供了两种表现形式:

1.一种是带Timestamp的numpy.ndarray,提供了正确的tz信息。

2.另一种是datetime64[ns],这也是一种numpy.ndarray,值被转化为UTC,但去掉了时区信息。

时区信息可以用dtype=object保存

或用dtype=’datetime64[ns]’去除。

提取DataFrame里的原数据稍微有点复杂。DataFrame里所有列的数据类型都一样时,DataFrame.to_numpy()返回底层数据:

DataFrame为同构型数据时,Pandas直接修改原始ndarray,所以修改会直接反应在数据结构里。对于异构型数据,即DataFrame列的数据类型不一样时,就不是这种操作模式了,与轴标签不同,不能为值的属性赋值。

这里我们要注意处理异构型数据时,输出结果ndarray的数据类型适用于涉及的各类数据。若DataFrame里包含字符串,输出结构的数据类型就是object。要是只有浮点数或整数,则输出结果的数据类型是浮点数。

以前,Pandas推荐用Series.values或DataFrame.values从Series或DataFrame里提取数据。

但Pandas改进了此功能,现在,推荐用.array或to_numpy提取数据,别再用.values了。

.values有以下2个缺点:

1.Series含扩展类型时,Series.values无法判断到底是改返回NumPy array,还是返回Extension array。而Series.array则只返回ExtensionArray,且不会复制数据。Series.to_numpy则返回NumPy数组,其代价是需要复制、并强制转换数据的值。

2.DataFrame含多种数据类型时,DataFrame.values会复制数据,并将数据的值强制转换同一种数据类型,这是一种代价较高的操作。DataFrame.to_numpy()则返回NumPy数组,这种方式更清晰,也不会把DataFrame里的数据都当作一种类型。

加速操作

借助numexpr与bottleneck支持库,Pandas可以加速特定类型的二进制数值与布尔操作。

处理大型数据集时,这两个支持库特别有用,加速效果也非常明显。numexpr使用智能分块、缓存与多核技术。bottleneck是一组专属cython例程,处理含nans值的数组时,特别快。

请看下面这个例子(DataFrame包含100列×10万行数据):

这两个支持库默认为启用状态,可用以下选项设置:

如果你想学习Python,但是找不到学习路径和资源,欢迎上指尖编程

在线交互式学习,学python更快更好!

版权声明
本文为[指尖编程]所创,转载请带上原文链接,感谢
https://my.oschina.net/u/4896486/blog/5009776

  1. 商业数据分析从入门到入职(7)Python基础数据结构及其操作
  2. 商业数据分析从入门到入职(6)Python程序结构和函数
  3. Business data analysis from entry to entry (9) Python Network Data Acquisition
  4. Business data analysis from entry to entry (8) Python module, file IO and object oriented
  5. Business data analysis from entry to entry (7) Python basic data structure and its operation
  6. Business data analysis from entry to entry (6) Python program structure and function
  7. 简简单单实现 Python Web 的登录注册页面,还包含一半逻辑。
  8. Simple implementation of Python web login registration page, but also contains half of the logic.
  9. 什么是pip?Python新手入门指南
  10. What is PIP? Getting started with Python
  11. Python uses for... Else to jump out of double nested loop
  12. Python基础之:Python中的内部对象
  13. 人工智能入门:Python实现机器学习
  14. The foundation of Python: inner objects in Python
  15. Introduction to artificial intelligence: machine learning in Python
  16. Python基础之:Python中的内部对象
  17. The foundation of Python: inner objects in Python
  18. Python 小技之 Office 文件转 PDF
  19. 还在为多张Excel汇总统计发愁?Python 秒处理真香!
  20. 用 Python 制作音乐聚合下载器
  21. Spark Delta Lake 0.4.0 发布,支持 Python API 和部分 SQL
  22. How to transfer office files to PDF
  23. Are you still worried about multiple excel summary statistics? Python second processing really fragrant!
  24. Making music aggregate downloader with Python
  25. Spark delta Lake 0.4.0 is released, supporting Python API and part of SQL
  26. Python信息搜集
  27. Python information gathering
  28. Python - 关于类(self/cls) 以及 多进程通讯的思考
  29. Python - thinking about class (self / CLS) and multi process communication
  30. Python - 关于类(self/cls) 以及 多进程通讯的思考
  31. Python - thinking about class (self / CLS) and multi process communication
  32. Python信用评分卡建模(附代码)
  33. Python credit score card modeling (with code)
  34. 学Python需要学数据库吗?Python学习教程!
  35. Do you need to learn database to learn Python!
  36. Python私有变量如何定义?Python学习教程!
  37. How to define Python private variables? Python tutorial!
  38. Python数据分析入门(六):Pandas的函数应用
  39. Introduction to Python data analysis (6): function application of pandas
  40. 学Python需要学数据库吗?Python学习教程!
  41. Do you need to learn database to learn Python!
  42. Python描述 LeetCode 80. 删除有序数组中的重复项 II
  43. C++/python描述 AcWing 94. 递归实现排列型枚举
  44. C++/python描述 AcWing 92. 递归实现指数型枚举
  45. Python描述 LeetCode 88. 合并两个有序数组
  46. 苏州大学计算机考研 复试机试真题2013-2021真题及Python题解
  47. Python描述 LeetCode 781. 森林中的兔子
  48. 字典和json的区别是什么?Python学习
  49. Python describes leetcode 80. Removing duplicate items from ordered arrays II
  50. C + + / Python description acwing 94. Recursive implementation of permutation enumeration
  51. C + + / Python description acwing 92. Recursive implementation of exponential enumeration
  52. Python describes leetcode 88. Merging two ordered arrays
  53. Real computer test questions 2013-2021 of computer postgraduate entrance examination of Soochow University and python solutions
  54. The rabbit in the forest
  55. Python中的魔法属性
  56. What's the difference between dictionary and JSON? Python learning
  57. Magic properties in Python
  58. 字典和json的区别是什么?Python学习
  59. What's the difference between dictionary and JSON? Python learning
  60. python刷题-字母图形