Pour les débutants, je vous recommande d'apprendre ces 3 kits autoeda Python

Python Learning and Data Mining 2021-11-25 16:32:35
pour les butants je vous

Les amateurs de sciences des données savent,Avant d'entrer les données brutes dans le modèle d'apprentissage automatique pour résoudre les problèmes réels,Il faut beaucoup de traitement.Selon le type de problème(Régression ou classification),.Une série d'étapes sont nécessaires pour préparer et formater les données.Pour explorer les ensembles de données,Python Est l'un des outils d'analyse de données les plus puissants,En outre,Il permet une meilleure visualisation des données.

La science des données et l'apprentissage automatique ne sont pas seulement accessibles aux personnes ayant une solide formation en informatique.Au contraire.,De plus en plus de professionnels de différents secteurs se sont joints à ce secteur.Mais pour un débutant qui vient de commencer l'apprentissage automatique,Ce n'est pas facile non plus.

Dans cet article,Nous discuterons de trois automatismes très conviviaux pour débutants EDA Python Bibliothèque,Je partagerai d'autres choses intéressantes à la fin de l'article AutoEDA Bibliothèque.Les amis préférés sont les bienvenus pour l'étude de la collection,Comme un peu de soutien.À la fin de l'article, j'offre également un groupe d'échange technique,Bienvenue..

Commençons par charger les données

#loading the dataset
from sklearn import datasets
import pandas as pd
data = datasets.load_iris()
df = pd.DataFrame(data.data,columns=data.feature_names)
df['target'] = pd.Series(data.target)
df.head()

Insérer la description de l'image ici
Si nous n'utilisons pas AutoEDA, Il y en a un ici qui est habituellement utilisé pour EDA Liste des commandes pour, Pour imprimer sur DataFrame/ Différentes informations sur l'ensemble de données

  • df.head() – Les cinq premières lignes

  • df.tail() – Les cinq dernières lignes

  • df.describe() – Pour les percentiles de l'ensemble de données 、Moyenne、 Statistiques de base sur l'écart type, etc.

  • df.info() – Résumé de l'ensemble de données

  • df.shape() – Nombre d'observations et de variables dans l'ensemble de données , C'est - à - dire la dimension des données

  • df.dtypes() – Type de données de la variable(int、float、object、datetime)

  • df.unique()/df.target.unique() – Ensemble de données/ Valeur unique dans la colonne cible

  • df[‘target’].value_counts() – Distribution des variables cibles pour les problèmes de classification

  • df.isnull().sum()- Calculer les valeurs nulles dans l'ensemble de données

  • df.corr() – Informations pertinentes

  • Attendez un peu!…

AutoEDA La bibliothèque peut passer par plusieurs lignes Python Le Code fait tout cela et plus rapidement .Mais avant de commencer, Vérifions d'abord l'installation Python Version, Parce que ces bibliothèques ont besoin de Python >=3.6.

print(python --version) # check installed Python version

1. Pandas Profiling

Tout d'abord,,auto-EDA La bibliothèque est un Python Options open source écrites . Il génère une interaction complète pour un ensemble de données donné HTML Rapport. Il décrit différents aspects de l'ensemble de données , Par exemple, le type de variable 、Traitement des valeurs manquantes、 Mode de l'ensemble de données .

Pour installer la Bibliothèque ,S'il vous plaît. jupyter notebook Saisissez et exécutez la commande suivante

!pip install pandas-profiling

EDA Utiliser Pandas Profiling

Nous allons d'abord importer le paquet principal pandas Pour lire et traiter des ensembles de données .

Et puis...,Nous importeronspandas profiling

import pandas_profiling
#Generating PandasProfiling Report
report = pandas_profiling.ProfileReport(df)

Du rapport, Les débutants peuvent facilement comprendre iris L'ensemble de données contient 5 Variables——4 Variables numériques , La variable de résultat est une variable de classification . En outre,L'ensemble de données contient 150 Échantillons et aucune valeur manquante .
Insérer la description de l'image ici
Ci - dessous par Pandas L'analyse de quelques exemples de diagrammes générés aide à comprendre la pertinence des commandes que nous avons énumérées précédemment. 、 Valeurs uniques et manquantes .
Insérer la description de l'image ici
Pertinence
Insérer la description de l'image ici
Insérer la description de l'image ici
En général,Pandas Profiling Impressionnant en termes de production rapide à partir d'un ensemble de données .

2. Sweetviz 2.1.3

C'est une source ouverte Python Bibliothèque, Exécuter avec seulement deux lignes de code EDA. La Bibliothèque génère des rapports pour les ensembles de données à .html Documents disponibles sous forme de , Peut être ouvert dans n'importe quel navigateur . Utiliser Sweetviz,Nous pouvons réaliser:

  • Comment les caractéristiques de l'ensemble de données sont associées aux valeurs cibles

  • Visualisez les données d'essai et d'entraînement et comparez - les .On peut utiliseranalyze()、compare() Oucompare_intra() Pour évaluer les données et produire des rapports .

  • Tracer la corrélation entre les valeurs numériques et les variables de classification

  • Résumer les valeurs manquantes 、 Informations sur les entrées répétées et fréquentes et analyse numérique , C'est - à - dire expliquer les statistiques

Pour installer la Bibliothèque ,S'il vous plaît. jupyter notebook Exécutez la commande suivante

!pip install sweetviz

EDA Utiliser Sweetviz

Similaire à la section précédente , Nous allons d'abord importer pandas Pour lire et traiter des ensembles de données .

Et puis..., Il suffit d'importer sweetviz Pour explorer les données .

import sweetviz as sv
#Generating Sweetviz report
report = sv.analyze(df)
report.show_html("iris_EDA_report.html") # specify a name for the report

C'est typique. Sweetviz L'apparence du rapport
Insérer la description de l'image ici
C'est impressionnant et beau. .

3. AutoViz

AutoViz Analyse rapide de n'importe quelle donnée en une seule ligne de code . Pour installer la Bibliothèque , Comme ci - dessus .

from autoviz.AutoViz_Class import AutoViz_Class
AV = AutoViz_Class()
#Generating AutoViz Report #this is the default command when using a file for the dataset
filename = ""
sep = ","
dft = AV.AutoViz(
filename,
sep=",",
depVar="",
dfte=None,
header=0,
verbose=0,
lowess=False,
chart_format="svg",
max_rows_analyzed=150000,
max_cols_analyzed=30,
)

Parce que nous utilisons des ensembles de données dans la bibliothèque , Nous avons besoin des modifications suivantes

#Generating AutoViz Report
filename = "" # empty string ("") as filename since no file is being used for the data
sep = ","
dft = AV.AutoViz(
'',
sep=",",
depVar="",
dfte=df,
header=0,
verbose=0,
lowess=False,
chart_format="svg",
max_rows_analyzed=150000,
max_cols_analyzed=30,
)

Insérer la description de l'image ici
Insérer la description de l'image ici
Insérer la description de l'image ici
Insérer la description de l'image ici
Insérer la description de l'image ici
AutoViz Le rapport contient des informations sur la forme de l'ensemble de données et tous les graphiques possibles , Y compris le diagramme à barres 、Diagramme de violon、 Matrice de corrélation (Carte thermique)、 Diagramme d'appariement, etc. . Toutes ces informations et une seule ligne de code seront certainement utiles à tout débutant .

Conclusions

Et d'autres AutoEDA Bibliothèque,Par exemple: Dora、D-Tale Et DataPrep, Ils ressemblent aux trois bibliothèques discutées dans cet article ,Si vous êtes intéressé,Peut être étudié en profondeur. Du point de vue des débutants ,Pandas Profiling、Sweetviz Et AutoViz Semble être l'outil le plus simple pour générer des rapports et présenter des aperçus d'ensemble de données .

RÉFÉRENCES:

  • https://github.com/Devashree21/AutoEDA-Iris-AutoViz-Sweetviz-PandasProfiling
  • https://pypi.org/project/pandas-profiling/[accessed: Aug-09-2021]
  • https://pypi.org/project/sweetviz/ [accessed: Aug-09-2021]
  • https://pypi.org/project/autoviz/ [accessed: Aug-09-2021]

Communication Technique

Bienvenue à la réimpression、Collection、J'ai quelque chose à gagner.!

Insérer la description de l'image ici

Le Groupe d'échange technique est actuellement ouvert,Le Groupe d'amis a dépassé2000Les gens,La meilleure façon d'ajouter des commentaires est:Source:+Direction de l'intérêt,Pour trouver des amis partageant les mêmes idées

  • Comment①、Envoyer l'image suivante à Wechat,Reconnaissance par presse longue,Retour en arrière - plan:Ajouter un groupe;
  • Comment②、Ajouter un microsignal:dkl88191,Remarques:DeCSDN
  • Comment③、Wechat Search public Number:PythonApprentissage et exploration des données,Retour en arrière - plan:Ajouter un groupe

Attention

版权声明
本文为[Python Learning and Data Mining]所创,转载请带上原文链接,感谢
https://pythonmana.com/2021/11/20211125161854156u.html

  1. Using Python 3 to make practical software for drawing modification
  2. About HTML (acceptable to Python)
  3. Python集成學習:自己編寫構建AdaBoost分類模型可視化决策邊界及sklearn包調用比較
  4. PYTHON用LSTM長短期記憶神經網絡的參數優化方法預測時間序列洗發水銷售數據
  5. Python Integrated Learning: Writing and Constructing adaboost Classification Model Visualized decision Boundary and sklearn package Calling Comparison
  6. Python prédit les données de vente de shampooing de séries chronologiques en utilisant la méthode d'optimisation des paramètres du réseau neuronal de mémoire à court et à long terme lstm
  7. [zero basics of Python to introduction] a prerequisite for Python preparatory knowledge -- basic coding specification of Python
  8. OpenCV对比度亮度变换竟能用来去水印(附Python/C++源码)
  9. [zero basics of Python to getting started] a prerequisite for Python preparatory knowledge -- installing the visualization tool pycharm
  10. The test modifies main.py in micro python
  11. Microphoton experimental circuit board based on mm32f3273 - does not work normally
  12. Run micropathon on mm32f3273 to test performance
  13. Design mm32f3277 micro Python experimental board with SD card
  14. Mm32f3277 corresponding interface files during microphoton migration
  15. Mm32f3277 microphoton experimental board design and software testing
  16. Making and testing mm32f3277 microphoton minimum circuit board
  17. Download mm32-link program automatically with Python simulated mouse
  18. A curriculum of "artificial intelligence Python machine learning and deep learning"
  19. Test the basic functions of mm32 microphoton test circuit board
  20. Test the basic functions of the mm32f3277 micro Python development board flying one by one
  21. Debugging mm32f3277 from zhufei, transplanted with micro Python development board
  22. Recognizing numbers using OpenCV and python
  23. 真的太香了,Python速查表终于出中文版了
  24. Django REST Framework(DRF)教程:快速入门
  25. python django objects filter过滤查询:startswith year
  26. Data encapsulation of Excel test cases in Python
  27. 学员管理系统python
  28. 肝了一夜,8000字概括精髓,pandas必知必会50例!
  29. Python竟然可以画漫画!漫画版的故宫导游图,来袭!
  30. Networkx graph theory Dijkstra algorithm shortest path implementation, Python
  31. Draw a HelloWorld with Python turtle Library
  32. 运行django的服务器内存使用偶尔跳高一点,重启服务马上下来,是内存泄露吧
  33. Basic usage of Python tqdm module in machine learning training
  34. Python -- basic usage method and basic template of argparse module
  35. python-sockertserver并发编程思想
  36. Programmation simultanée du serveur de sockets Python
  37. Vue+Django 旅游网项目 首页前端实现
  38. [learning notes] Python - pyecarts
  39. Python automated operation and maintenance -- actual combat (I)
  40. Classic usage of pandas: iloc and LOC of data filtering
  41. Python 多分支语句的三种结构
  42. Calendar module of Python time series
  43. Python 输出指定范围的闰年
  44. A super easy to use Python standard library. It's great to operate directories and files
  45. Fatal Python error: init_ fs_ encoding: failed to get the Python codec of the filesystem encoding
  46. Using Python to obtain a video address is as simple as
  47. #yyds干货盘点# 6. Python 元组,不可变的列表,滚雪球学 Python
  48. Yyds Dry Inventory # 6. Python tuples, invariant List, snowball Learning Python
  49. You cannot enter the registration page using Django registration redux
  50. 笨办法学Python第十八天:更多文件操作
  51. Python编辑代码,帮个忙呗
  52. pandas转换object为int失败了,有人能解答吗
  53. python解释题,解释这串,所代表的意思
  54. 用python用while语句写1000以内能被5和9整除的数和个数
  55. #python 我写了一个“饭店”程序
  56. Comprehensive application of Python foundation -- Development
  57. Écrivez en python le nombre et le nombre d'entiers qui peuvent être divisés par 5 et 9 jusqu'à 1000 dans une instruction while
  58. You can learn Python articles without reading online classes (day 4)
  59. You can learn Python articles without reading online classes (the third day)
  60. You can learn Python articles without reading online classes (the next day)