1、预备知识-python核心用法常用数据分析库(上)

概述

Python 是当今世界最热门的编程语言,而它最大的应用领域之一就是数据分析。在python众多数据分析工具中,pandas是python中非常常用的数据分析库,在数据分析,机器学习,深度学习等领域经常被使用。使用 Pandas 我们可以 Excel/CSV/TXT/MySQL 等数据读取,然后进行各种清洗、过滤、透视、聚合分析,也可以直接绘制折线图、饼图等数据分析图表,在功能上它能够实现自动化的对大文件处理,能够实现 Excel 的几乎所有功能并且更加强大。

本实验将通过实战的方式,介绍pandas数据分析库的基本使用,让大家在短时间内快速掌握python的数据分析库pandas的使用,为后续项目编码做知识储备

实验环境

  • Python 3.7
  • PyCharm

任务一:环境安装与配置

【实验目标】

本实验主要目标为在Windows操作系统中,完成本次实验的环境配置任务,本实验需要的软件为PyCharm+Python 3.7

【实验步骤】

1、安装Python 3.7

2、安装Pycharm

3、安装jupyter、pandas、numpy、notebook

打开CMD,并输入以下命令,安装jupyter、notebook、pandas和numpy

pip install jupyter notebook pandas numpy

安装完成后会有类似如下文字提示:

以上步骤完成后,实验环境配置工作即已完成,关闭CMD窗口

任务二:Pandas数据分析实战

【任务目标】

本任务主要目标为使用pandas进行数据分析实战,在实战过程中带大家了解pandas模块的一下功能:

  • 准备工作
  • 检查数据
  • 处理缺失数据
  • 添加默认值
  • 删除不完整的行
  • 删除不完整的列
  • 规范化数据类型
  • 重命名列名
  • 保存结果

【任务步骤】

1、打开CMD,执行如下命令,开启jupyter

jupyter notebook

成功执行以上命令后,系统将自动打开默认浏览器,如下图所示:

成功打开浏览器后,按如下流程创建 notebook 文件

对新建notebook进行重命名操作

2、notebook 文件新建完成后,接下来在新建的 notebook 中编写代码

导入 Pandas 到我们的代码中,代码如下

import pandas as pd

小提示:输入完成代码后,按下【Shift + Enter】组合键即可运行该单元格中的代码,后面输入完每个单元格的代码后都需要进行类似操作,代码才会运行

加载数据集,代码如下:

data = pd.read_csv('./data/movie_metadata.csv')

3、检查数据

查看数据集前5行

data.head()

运行结果如下图所示:

我们可以通过上面介绍的 Pandas 的方法查看数据,也可以通过传统的 Excel 程序查看数据

Pandas 提供了一些选择的方法,这些选择的方法可以把数据切片,也可以把数据切块。下面我们简单介绍一下:

  • 查看一列的一些基本统计信息:data.columnname.describe()
  • 选择一列:data['columnname']
  • 选择一列的前几行数据:data['columnsname'][:n]
  • 选择多列:data[['column1','column2']]
  • Where 条件过滤:data[data['columnname'],condition]

4、处理缺失数据

缺失数据是最常见的问题之一。产生这个问题有以下原因:

  • 从来没有填正确过
  • 数据不可用
  • 计算错误

无论什么原因,只要有空白值得存在,就会引起后续的数据分析的错误。下面介绍几个处理缺失数据的方法:

  • 为缺失数据赋值默认值
  • 去掉/删除缺失数据行
  • 去掉/删除缺失率高的列

4.1、添加默认值

使用空字符串来填充country字段的空值

data.country= data.country.fillna('')

使用均值来填充电影时长字段的空值

data.duration = data.duration.fillna(data.duration.mean())

4.2、删除不完整的行

data.dropna()

运行结果如下(由于输出内容给较多,结果中省略了中间部分数据,只显示开头和结尾部分):

由上图可以看出,由于第4行数据存在缺失值,因此被删除

提示:dropna操作并不会在原始数据上做修改,它修改的是相当于原始数据的一个备份,因此原始数据还是没有变

删除一整行的值都为 NA:

data.dropna(how='all')

运行结果如下:

从上图可知,由于限定条件为:删除一整行都为NA的数据,因此不满足此条件的数据行还是会被保留

我们也可以增加一些限制,在一行中有多少非空值的数据是可以保留下来的(在下面的代码中,行数据中至少要有 5 个非空值)

data.dropna(thresh=5)

运行结果如下:

也可指定需要删除缺失值的列

我们以 title_year 这一列为例,首先查看 title_year 这一列中存在的缺失值:

data['title_year'].isnull().value_counts()

结果如下:

由上图可知,title_year 这一列中存在108个缺失值

接下来查看 title_year 删除完缺失值后的情况

new_data = data.dropna(subset=['title_year'])
new_data['title_year'].isnull().value_counts()

上面的 subset 参数允许我们选择想要检查的列。如果是多个列,可以使用列名的 list 作为参数。

运行结果如下:

4.3、删除不完整的列

我们可以上面的操作应用到列上。我们仅仅需要在代码上使用 axis=1 参数。这个意思就是操作列而不是行。(我们已经在行的例子中使用了 axis=0,因为如果我们不传参数 axis,默认是axis=0)

删除一整列为 NA 的列:

data.dropna(axis=1, how='all')

运行结果如下:

删除任何包含空值的列:

data.dropna(axis=1,how='any')

这里也可以使用像上面一样的 threshold 和 subset

5、规范化数据类型

加载数据集时指定字段数据类型

data = pd.read_csv('./data/movie_metadata.csv', dtype={'title_year':str})

这就是告诉 Pandas ‘duration’列的类型是数值类型。查看加载后各数据列的类型

data.info()

运行结果如下:

object 即代表数据类型为字符串类型

6、必要的变换

人工录入的数据可能都需要进行一些必要的变换,例如:

  • 错别字
  • 英文单词时大小写的不统一
  • 输入了额外的空格

首先查看 movie_title 列数据

data.movie_title

结果如下:

我们数据中所有的 movie_title 改成大写:

data['movie_title'].str.upper()

结果如下:

同样的,我们可以去掉末尾余的空格:

data['movie_title'].str.strip()

运行结果如下:

7、重命名列名

我们需要进行重新赋值才可以:

data = data.rename(columns={'title_year':'release_date', 'movie_facebook_likes':'facebook_likes'})

查看重命名后的数据列名称

data.info()

输出结果如下:

8、保存结果

完成数据清洗之后,一般会把结果再以 csv 的格式保存下来,以便后续其他程序的处理。同样,Pandas 提供了非常易用的方法:

data.to_csv('./data/cleanfile.csv',encoding='utf-8')

查看 /home/student/data 目录内容如下,新增保存的 cleanfile.csv 文件

预备知识-python核心用法常用数据分析库(上)的更多相关文章

  1. python进阶06 常用问题库(2)datetime模块 base64

    python进阶06 常用问题库(2)datetime模块 base64 一.datetime模块(时间) 1.datetime.time() t=datetime.time(20,43,30,1) ...

  2. python进阶05 常用问题库(1)json os os.path模块

    python进阶05 常用问题库(1)json os os.path模块 一.json模块(数据交互) web开发和爬虫开发都离不开数据交互,web开发是做网站后台的,要跟网站前端进行数据交互 1.什 ...

  3. 【循序渐进学Python】11.常用标准库

    安装完Python之后,我们也同时获得了强大的Python标准库,通过使用这些标准库可以为我们节省大量的时间.这里是一些常用标准库的简单说明.更多的标准库的说明,可以参考Python文档 sys 模块 ...

  4. 《C++ Primer Plus》学习笔记 第1章 预备知识

    第一章 预备知识C++在C语言的基础上添加了对"面向对象编程"的支持和对"泛型编程"的支持.类 —— 面向对象模板 —— 泛型编程1.1 C++简介1.2 C+ ...

  5. Python数据分析常用的库总结

    Python之所以能够成为数据分析与挖掘领域的最佳语言,是有其独特的优势的.因为他有很多这个领域相关的库可以用,而且很好用,比如Numpy.SciPy.Matploglib.Pandas.Scikit ...

  6. python数据分析中常用的库

    Python是数据处理常用工具,可以处理数量级从几K至几T不等的数据,具有较高的开发效率和可维护性,还具有较强的通用性和跨平台性,这里就为大家分享几个不错的数据分析工具,需要的朋友可以参考下 Pyth ...

  7. 大数据技术之_27_电商平台数据分析项目_02_预备知识 + Scala + Spark Core + Spark SQL + Spark Streaming + Java 对象池

    第0章 预备知识0.1 Scala0.1.1 Scala 操作符0.1.2 拉链操作0.2 Spark Core0.2.1 Spark RDD 持久化0.2.2 Spark 共享变量0.3 Spark ...

  8. 吐血整理!Python常用第三方库,码住!!!

    ​ Python作为一种编程语言近年来越来越受欢迎,它为什么这么火? 其中一个重要原因就是因为Python的库丰富--Python语言提供超过15万个第三方库,Python库之间广泛联系.逐层封装.几 ...

  9. Python常用的库简单介绍一下

    Python常用的库简单介绍一下fuzzywuzzy ,字符串模糊匹配. esmre ,正则表达式的加速器. colorama 主要用来给文本添加各种颜色,并且非常简单易用. Prettytable ...

  10. python常用数据处理库

    Python之所以能够成为数据分析与挖掘领域的最佳语言,是有其独特的优势的.因为他有很多这个领域相关的库可以用,而且很好用,比如Numpy.SciPy.Matploglib.Pandas.Scikit ...

随机推荐

  1. error: Your local changes to the following files would be overwritten by checkout:

    在发布这个配置文件的时候,会发生代码冲突: error: Your local changes to the following files would be overwritten by merge ...

  2. 使用 AngularJS 和 Electron 构建桌面应用

    GitHub 的 Electron 框架(以前叫做 Atom Shell)允许你使用 HTML, CSS 和 JavaScript 编写跨平台的桌面应用.它是io.js 运行时的衍生,专注于桌面应用而 ...

  3. http://chenzhou123520.iteye.com/blog/1811340

    http://chenzhou123520.iteye.com/blog/1811340

  4. [MySQL]load data local infile向MySQL数据库中导入数据时,无法导入和字段不分离问题。

    利用load data将文件中的数据导入数据库表中的时候,遇到了两个问题. 首先是load data命令无法执行的问题: 命令行下输入load data local infile "path ...

  5. POJ 2777 Count Color (线段树成段更新+二进制思维)

    题目链接:http://poj.org/problem?id=2777 题意是有L个单位长的画板,T种颜色,O个操作.画板初始化为颜色1.操作C讲l到r单位之间的颜色变为c,操作P查询l到r单位之间的 ...

  6. ACM2026

    /* 首字母变大写 Problem Description 输入一个英文句子,将每个单词的第一个字母改成大写字母.   Input 输入数据包含多个测试实例,每个测试实例是一个长度不超过100的英文句 ...

  7. 【转】【SQL SERVER】怎样处理作业中的远程服务器错误(42000)

    (SQL SERVER)怎样处理作业中的远程服务器错误(42000) 问: 1.我创建了一个链接服务器. 2.在两台服务器之间创建了新的SQL用户. 3.编写了访问链接服务器的SQL语句,执行成功. ...

  8. django中数据库的相关操作

    一.使用环境 python2.7,django>1.7 二.数据库进行配置 在setting文件中进行修改 1.找到DATABASES DATABASES = { 'default': { 'E ...

  9. java 基础知识-数组的7种算法(排序、求和、最值、遍历...)

    遍历 遍历就是把这个数组的每个元素 显示出来 遍历的方法就是先定义这个数组的大小,然后用FOR循环来完成数组,例如 double[] score = new double[5]; Scanner in ...

  10. xftp的简单使用

    1.下载并安装Xftp工具.打开Xftp工具,点击“新建”. 2.在“新建会话属性”中选择“名称”为主机命名,在“主机”栏输入主机IP,“协议”和“端口号”使用sftp和22,在“用户名”和“密码“栏 ...