1、Connaissances préparatoires-pythonUtilisation de base base base commune d'analyse des données(Allez.)

Généralités

Python C'est le langage de programmation le plus populaire au monde aujourd'hui,Et l'un de ses plus grands domaines d'application est l'analyse des données.InpythonParmi les nombreux outils d'analyse des données,pandas- Oui.pythonBase d'analyse de données très couramment utilisée dans,Dans l'analyse des données,Apprentissage automatique,Des domaines tels que l'apprentissage profond sont fréquemment utilisés.Utiliser Pandas On peut. Excel/CSV/TXT/MySQL Attendez que les données soient lues,Ensuite, on procède à divers lavages、Filtration、Perspective、Analyse agrégée,Vous pouvez également dessiner un diagramme linéaire directement、Diagrammes d'analyse des données comme les diagrammes à secteurs,Fonctionnellement, il peut automatiser le traitement de gros fichiers,Capable de réaliser Excel Presque toutes les fonctions et plus puissantes.

Cette expérience se déroulera de façon pratique,IntroductionpandasUtilisation de base de la base d'analyse des données,Laissez tout le monde maîtriser rapidement en peu de tempspythonBase d'analyse des données pourpandasUtilisation de, Constituer une réserve de connaissances pour le codage ultérieur des projets

Environnement expérimental

  • Python 3.7
  • PyCharm

Tâche 1:Installation et configuration de l'environnement

【Objectif expérimental】

Les principaux objectifs de cette expérience sont les suivants: WindowsDans le système d'exploitation, Terminer la tâche de configuration de l'environnement pour cette expérience , Le logiciel requis pour cette expérience est: PyCharm+Python 3.7

【Procédure expérimentale】

1、InstallationPython 3.7

2、InstallationPycharm

3、Installationjupyter、pandas、numpy、notebook

Ouvre.CMD,Et entrez la commande suivante,Installationjupyter、notebook、pandasEtnumpy

pip install jupyter notebook pandas numpy

Une fois l'installation terminée, il y aura un message texte similaire à:

Une fois les étapes ci - dessus terminées, La configuration de l'environnement expérimental est terminée ,FermerCMDFenêtre

Tâche 2:PandasAnalyse des données sur le terrain

【Objectifs de la Mission】

L'objectif principal de cette tâche est d'utiliser pandas Analyse des données , Pour que tout le monde comprenne pandas Fonctions suivantes du module :

  • Travaux préparatoires
  • Vérifier les données
  • Traitement des données manquantes
  • Ajouter une valeur par défaut
  • Supprimer les lignes incomplètes
  • Supprimer les colonnes incomplètes
  • Types de données normalisés
  • Renommer le nom de colonne
  • Enregistrer les résultats

【Étapes de la Mission】

1、Ouvre.CMD,Exécutez la commande suivante,Ouvertjupyter

jupyter notebook

Après avoir exécuté avec succès la commande ci - dessus , Le navigateur par défaut s'ouvre automatiquement ,Comme le montre la figure ci - dessous:

Après l'ouverture réussie du Navigateur , Créer comme suit notebook Documentation

Nouveau notebookEffectuer une opération de renommage

2、notebook Une fois le fichier créé , Ensuite, dans le nouveau notebook Code d'écriture

Importer Pandas Dans notre code ,Les codes sont les suivants:

import pandas as pd

Petit conseil: Après avoir entré le code complet ,Appuyez sur【Shift + Enter】Une combinaison de touches exécute le code dans cette cellule,Une opération similaire est nécessaire après avoir entré le Code de chaque cellule plus tard, Code à exécuter

Charger l'ensemble de données,Les codes sont les suivants::

data = pd.read_csv('./data/movie_metadata.csv')

3、Vérifier les données

Avant de voir un ensemble de données 5D'accord

data.head()

Les résultats de l'opération sont présentés ci - dessous:

Nous pouvons le faire par Pandas Pour voir les données , Peut également être réalisé par Excel Données de visualisation du programme

Pandas Offre quelques options , Ces options permettent de découper les données , Vous pouvez également découper les données .Voici une brève introduction:

  • Voir quelques statistiques de base pour une colonne :data.columnname.describe()
  • Sélectionner une colonne :data['columnname']
  • Sélectionnez les premières lignes d'une colonne :data['columnsname'][:n]
  • Sélectionner plusieurs colonnes :data[['column1','column2']]
  • Where Filtration conditionnelle:data[data['columnname'],condition]

4、Traitement des données manquantes

Le manque de données est l'un des problèmes les plus courants . Les raisons de ce problème sont les suivantes: :

  • N'a jamais été correctement rempli
  • Données non disponibles
  • Erreur de calcul

Quelle que soit la raison, Tant qu'il y a des lacunes qui valent la peine d'exister , Peut causer des erreurs dans l'analyse ultérieure des données .Voici quelques méthodes de traitement des données manquantes:

  • Assigner des valeurs par défaut aux données manquantes
  • Enlevez/ Supprimer les lignes de données manquantes
  • Enlevez/ Supprimer les colonnes manquantes élevées

4.1、 Ajouter une valeur par défaut

Remplir avec une chaîne vide country Valeur nulle du champ

data.country= data.country.fillna('')

Utilisez la moyenne pour remplir la valeur vide du champ durée du film

data.duration = data.duration.fillna(data.duration.mean())

4.2、 Supprimer les lignes incomplètes

data.dropna()

Les résultats sont les suivants( Parce que la sortie vers plus , Les données intermédiaires ont été omises des résultats. , Afficher uniquement le début et la fin ):

Comme le montre la figure ci - dessus,En raison de l'article4 Valeurs manquantes pour les données de ligne , Il a donc été supprimé.

Conseils:dropna L'opération ne modifie pas les données brutes ,Il modifie une sauvegarde équivalente aux données brutes, Les données brutes n'ont donc pas changé.

Supprimer une ligne entière avec des valeurs de NA:

data.dropna(how='all')

Les résultats sont les suivants:

Comme le montre la figure ci - dessus, Parce que la condition est : Supprimer une ligne entière est NADonnées,Par conséquent, les lignes de données qui ne remplissent pas cette condition seront conservées

Nous pouvons également ajouter quelques restrictions ,Combien de valeurs non nulles dans une ligne peuvent être conservées(Dans le code suivant, Au moins dans les données de ligne 5 Valeurs non nulles )

data.dropna(thresh=5)

Les résultats sont les suivants:

Vous pouvez également spécifier les colonnes pour lesquelles vous souhaitez supprimer les valeurs manquantes

Nous avons title_year Cette colonne est un exemple ,Voir d'abord title_year Valeurs manquantes dans cette colonne :

data['title_year'].isnull().value_counts()

Les résultats sont les suivants::

Comme le montre la figure ci - dessus,,title_year Existe dans cette colonne 108Valeurs manquantes

Voir ci - dessous title_year Situation après suppression des valeurs manquantes

new_data = data.dropna(subset=['title_year'])
new_data['title_year'].isnull().value_counts()

Au - dessus subset Les paramètres nous permettent de sélectionner les colonnes à vérifier. Si plusieurs colonnes , Peut utiliser le nom de colonne list Comme paramètre.

Les résultats sont les suivants:

4.3、 Supprimer les colonnes incomplètes

Nous pouvons appliquer les actions ci - dessus aux colonnes . Nous avons juste besoin d'utiliser le Code axis=1 Paramètres. Cela signifie que les colonnes d'action ne sont pas des lignes .( Nous l'avons déjà utilisé dans nos exemples axis=0, Parce que si on ne passe pas les paramètres, axis,Par défautaxis=0)

Supprimer une colonne entière comme suit: NA Colonne:

data.dropna(axis=1, how='all')

Les résultats sont les suivants:

Supprimer toute colonne contenant une valeur nulle :

data.dropna(axis=1,how='any')

Vous pouvez également utiliser la même chose ici que ci - dessus threshold Et subset

5、 Types de données normalisés

Spécifiez le type de données de champ lors du chargement de l'ensemble de données

data = pd.read_csv('./data/movie_metadata.csv', dtype={'title_year':str})

C'est ce qu'on dit. Pandas ‘duration’ Le type de colonne est un type numérique . Voir les types de colonnes de données chargées

data.info()

Les résultats sont les suivants:

object C'est - à - dire que le type de données est un type de chaîne

6、 Transformation nécessaire

Les données saisies manuellement peuvent nécessiter certaines transformations nécessaires,Par exemple:

  • Mauvaise typographie
  • L'incohérence des majuscules et des minuscules dans les mots anglais
  • Espace supplémentaire entré

Voir d'abord movie_title Données de colonne

data.movie_title

Les résultats sont les suivants::

Tout ce que nous avons dans nos données movie_title En majuscules:

data['movie_title'].str.upper()

Les résultats sont les suivants::

La même chose., Nous pouvons supprimer les espaces laissés à la fin :

data['movie_title'].str.strip()

Les résultats sont les suivants:

7、 Renommer le nom de colonne

Nous avons besoin d'une réaffectation :

data = data.rename(columns={'title_year':'release_date', 'movie_facebook_likes':'facebook_likes'})

Afficher les noms de colonnes de données renommés

data.info()

Les résultats sont les suivants::

8、Enregistrer les résultats

Après nettoyage des données , En général, les résultats sont remis en question. csv Enregistrer le format de , Pour le traitement ultérieur d'autres programmes .Encore une fois,Pandas Fournit une méthode très facile à utiliser :

data.to_csv('./data/cleanfile.csv',encoding='utf-8')

Voir /home/student/data La Table des matières se lit comme suit:, Nouveau enregistré cleanfile.csv Documentation

Connaissances préparatoires-pythonUtilisation de base base base commune d'analyse des données(Allez.)Autre article Afghanistan

  1. pythonNiveau avancé06 Questions fréquemment posées (2)datetimeModule base64

    pythonNiveau avancé06 Questions fréquemment posées (2)datetimeModule base64 Un..datetimeModule(Temps) 1.datetime.time() t=datetime.time(20,43,30,1) ...

  2. pythonNiveau avancé05 Questions fréquemment posées (1)json os os.pathModule

    pythonNiveau avancé05 Questions fréquemment posées (1)json os os.pathModule Un..jsonModule(Échange de données) webLe développement et le développement de crawler sont inséparables de l'interaction des données,web Le développement est l'arrière - plan du site , Pour interagir avec les données à l'avant du site 1.Qu'est - ce que ...

  3. 【Apprentissage progressifPython】11.Bibliothèque standard commune

    Installation terminéePythonAprès, Et nous avons aussi obtenu PythonBibliothèque standard,L'utilisation de ces bibliothèques standard nous permet d'économiser beaucoup de temps.Voici une brève description de quelques bibliothèques standard couramment utilisées. Plus de descriptions de bibliothèques standard ,Peut être référencéPythonDocumentation sys Module ...

  4. 《C++ Primer Plus》Notes d'étude No1Chapitre Connaissances préparatoires

    Chapitre I Connaissances préparatoiresC++InC Ajout d'une paire basée sur la langue "Programmation orientée objet"Le soutien de"Programmation générique"Appui.Catégorie —— Modèle orienté objet —— Programmation générique1.1 C++Introduction1.2 C+ ...

  5. Python Résumé de la Bibliothèque couramment utilisée pour l'analyse des données

    PythonÊtre le meilleur langage dans le domaine de l'analyse et de l'exploration des données, A ses avantages uniques .Parce qu'il a beaucoup de bibliothèques liées à ce domaine à utiliser,Et ça marche,Par exemple,Numpy.SciPy.Matploglib.Pandas.Scikit ...

  6. python Bibliothèques couramment utilisées dans l'analyse des données

    Python Est un outil commun de traitement des données , Les ordres de grandeur peuvent être traités à partir de K À quelle heure? T Données inégales ,Plus grande efficacité de développement et maintenabilité, Il est également très polyvalent et multiplateforme ,Voici quelques bons outils d'analyse de données,Les amis dont vous avez besoin peuvent se référer à Pyth ...

  7. Technologie des mégadonnées_27_ Projet d'analyse des données de la plate - forme de commerce électronique _02_Connaissances préparatoires + Scala + Spark Core + Spark SQL + Spark Streaming + Java Pool d'objets

    No0Chapitre Connaissances préparatoires0.1 Scala0.1.1 Scala Opérateur0.1.2 Fermeture éclair 0.2 Spark Core0.2.1 Spark RDD Persistance0.2.2 Spark Variables partagées0.3 Spark ...

  8. Le traitement de l'hématémèse!PythonBibliothèques tierces communes,Tiens bon.!!!

    ​ PythonLe langage de programmation est devenu de plus en plus populaire ces dernières années, Pourquoi est - ce si chaud? ? L'une des principales raisons est que Python Riche bibliothèque --Python Langues disponibles plus de 15 10 000 bibliothèques tierces ,Python Liens étendus entre les bibliothèques . Emballage couche par couche .Combien? ...

  9. Python Brève introduction aux bibliothèques couramment utilisées

    Python Brève introduction aux bibliothèques couramment utilisées fuzzywuzzy ,Correspondance floue des chaînes. esmre ,Accélérateur d'expression régulière. colorama Utilisé principalement pour ajouter une variété de couleurs au texte,Et très simple à utiliser. Prettytable ...

  10. python Bibliothèques communes de traitement des données

    PythonÊtre le meilleur langage dans le domaine de l'analyse et de l'exploration des données, A ses avantages uniques .Parce qu'il a beaucoup de bibliothèques liées à ce domaine à utiliser,Et ça marche,Par exemple,Numpy.SciPy.Matploglib.Pandas.Scikit ...

Recommandation aléatoire

  1. error: Your local changes to the following files would be overwritten by checkout:

    Lors de la publication de ce profil , Conflit de code : error: Your local changes to the following files would be overwritten by merge ...

  2. Utiliser AngularJS Et Electron Construire des applications de bureau

    GitHub De Electron Cadre(Anciennement appelé Atom Shell)Vous permet d'utiliser HTML, CSS Et JavaScript Écrire des applications de bureau multiplateforme .C'est...io.js  Dérivé de l'exécution , Se concentrer sur les applications de bureau ...

  3. http://chenzhou123520.iteye.com/blog/1811340

    http://chenzhou123520.iteye.com/blog/1811340

  4. [MySQL]load data local infileVersMySQLLors de l'importation de données dans la base de données, Impossible d'importer et le champ ne sépare pas le problème .

    Utilisationload dataLorsque vous importez des données d'un fichier dans une table de base de données, Deux problèmes rencontrés . D'abordload data Problèmes d'exécution des commandes : Entrée en ligne de commandeload data local infile "path ...

  5. POJ 2777 Count Color ( Mise à jour de l'arborescence des segments + Pensée binaire )

    Liens vers les sujets:http://poj.org/problem?id=2777 Ça veut dire oui. L Tableau de longueur unitaire ,TCouleur,OActions. Tableau initialisé en couleur 1.FonctionnementCAllez.lÀr La couleur entre les unités devient c,FonctionnementPRequêtelÀr Entre unités ...

  6. ACM2026

    /* Majuscules initiales Problem Description Saisissez une phrase anglaise,Remplacer la première lettre de chaque mot par une lettre majuscule.   Input Les données d'entrée contiennent plusieurs instances d'essai , Chaque instance d'essai est une longueur n'excédant pas 100 Phrases anglaises ...

  7. 【Tourne.】【SQL SERVER】Comment gérer les erreurs du serveur distant dans le travail(42000)

    (SQL SERVER)Comment gérer les erreurs du serveur distant dans le travail(42000) Demande.: 1. J'a i créé un serveur lié . 2. Un nouveau serveur a été créé entre les deux serveurs SQLUtilisateurs. 3. Écrit pour accéder au serveur lié SQLDéclarations,Exécution réussie. ...

  8. django Opérations relatives à la base de données

    Un..Environnement d'utilisation python2.7,django>1.7 2.. Configuration de la base de données Insetting Modifier dans le fichier 1.TrouverDATABASES DATABASES = { 'default': { 'E ...

  9. java Connaissances de base-Array7Algorithme(Trier、Somme、Valeur maximale、Traversée...)

    Traversée Traverser est de prendre chaque élément de ce tableau Montre - le. La façon de traverser est de définir d'abord la taille de ce tableau,Et utiliserFOR Boucle pour compléter le tableau ,Par exemple double[] score = new double[5]; Scanner in ...

  10. xftpUtilisation simple de

    1.Télécharger et installerXftpOutils.Ouvre.XftpOutils,Cliquez sur“Nouveau”. 2.In“ Nouvelle propriété de session ”Sélectionner parmi“Nom” Nom de l'hôte ,In“Hôte” Hôte d'entrée de colonne IP,“Accord”Et“Numéro de port”UtilisersftpEt22,In“Nom d'utilisateur”Et“Mot de passe“Colonne ...