NumpyEtPandas
NumpyCalcul scientifique
Numpy Est spécialement conçu pour les opérations matricielles、Open Source for Scientific ComputingPython
PandasAnalyse des données
pandas.Fournit une grande quantité de structures de données et de fonctions qui nous permettent de traiter des données structurées rapidement et facilement
pandasLes deuxNumPyFonctions de calcul de tableaux haute performance et traitement flexible des données pour les tableurs et les bases de données relationnelles
pandas.Contient des structures de données avancées et des opérations qui rendent l'analyse des données plus rapide et plus simple Comme outil,Il est basé surNumpyConstruit, Il y a beaucoup d'opérations similaires
Installationjupyter notebook
Vous pouvez voir quels paquets sont actuellement installés
Effectuer l'installation
Entrée directe dans la console jupyter notebookVous pouvez sauter àwebInterface
CréationPythonProjets
NumpySyntaxe
Structure de base des données ndarray,Est une matrice bidimensionnelle
Création et utilisation de base
Index des tranches
Index booléen
Opérations d'alignement
Ça veut dire ndarray Lors de l'addition, de la soustraction, de la multiplication et de la Division , Ajouter, soustraire, multiplier et diviser la valeur de la position correspondante
Multiplication et Division des matrices
Autres méthodes
PandasSyntaxe
Pandas-Series
SeriesEst un objet qui ressemble à un tableau unidimensionnel,Données(DiversNumPyDonnées Type) Et les étiquettes de données qui y sont associées (Index)Composition
Peut être construit à partir d'un dictionnaire SeriesObjet,Series L'index de l'objet peut également être modifié
Pandas-Dataframe
DataFrameEst une structure de données tabulaire,Il contient un ensemble ordonné de colonnes,Chaque colonne peut être un type de valeur différent(Valeur numérique、String、Booléen, etc.)
DataFrameIndex des lignes et des colonnes, Peut être considéré comme étant causé par SeriesUn dictionnaire composé de
Lire le fichier
PandasNettoyage des données
1.Chargement des données
2.Traitement des données manquantes
2.1 Ajouter une valeur par défaut
2.2 Supprimer les lignes incomplètes
2.3 Modifier les colonnes incomplètes
2.4 Supprimer les colonnes incomplètes
Nous pouvons appliquer les actions ci - dessus aux colonnes.Nous avons juste besoin d'utiliser le Code axis=1 Paramètres.Cela signifie que les colonnes d'action ne sont pas des lignes.
(Nous l'avons déjà utilisé dans nos exemples axis=0,Parce que si on ne passe pas les paramètres, axis,Par défautaxis=0)
Supprimer une colonne entière comme suit:NAColonne::data.dropna(axis=1, how='all')
Supprimer toute colonne contenant une valeur nulle:data.dropna(axis=1,how='any')
- Transformation nécessaire
Les données saisies manuellement peuvent nécessiter certaines transformations nécessaires,Par exemple:
- Mauvaise typographie
- L'incohérence des majuscules et des minuscules dans les mots anglais
- Espace supplémentaire entré
Remplacer la chaîne
data.loc[4,'color']='Color'
En majuscules
data.movie_title=data.movie_title.str.upper()
Enlevez les espaces avant et arrière, etc
data.movie_title=data.movie_title.str.strip()
Renommer le nom de colonne
data = data.rename(columns={'title_year':'Année',
'movie_title':' Année du film '})
- Enregistrer le fichier
data.to_csv('data/cleanfile.csv',index=None,header=None,encoding='utf-8')
Indique que l'index n'est pas sauvegardé , Ne pas enregistrer le titre ,Format de codageutf8