Ne répondez pas directement. ,Croyez - moi personnellement, Envoyez vos données. .
import pandas as pdimport statsmodels.api as smimport statsmodels.stats.api as smsfrom scipy import statsdata = pd.read_csv('data1.csv')
Première partie:
Supposons que les sujets soient répartis aléatoirement entre deux groupes expérimentaux. . Nous voulons savoir si la randomisation est correctement appliquée à ces groupes . En d'autres termes,, Nous nous demandons si la proportion de participants dans ces groupes statistiques est différente entre les deux méthodes expérimentales. .
Pour déterminer si la randomisation est efficace , Pour chacune des deux expériences , Modifier comme suit: stats_calculator Fonctions, Afin qu'il puisse saisir une zone de données et Lister la moyenne des variables suivantes 、Écart type、Minimum et maximum:Femmes、Âge、Nombre Frères et sœurs、Les blancs.、 Asiatique 、 Afro - American 、 Hispaniques et autres races .
Arrondir tout calcul à la centaine de décimales la plus proche . Ne pas utiliser de pourcentage .
def stats_calculator(provided_data):
Fonction à remplir mean, standard deviation, minimum and maximum of the following variables: Female, Age, Number of siblings, White, Asian, African American, Hispanic, and Other ethnicities. Il doit renvoyer une boîte de données contenant ces calculs selon la boîte de données remplie dans la section suivante. . stats_df = pd.DataFrame(columns=['variable','mean','std. dev.','max','min'])variables = ['female','age','siblings','white','asian','african','hispanic','other']stats_df['variable'] = variablesfor variable in stats_df['variable']: # stats_df.loc[stats_df['variable']==variable,'mean'] = Le code doit être rounded answer # Écris le Code ici. , Remplir les valeurs restantes , Notez les noms des colonnes et des lignes données return stats_df
La fonction doit renvoyer une boîte de données contenant chaque variable et ses statistiques complètes .
Deuxième partie:
Utiliser t Inspection( Assurez - vous d'utiliser le bon type t Inspection) Et les boîtes de données , En remplissant les étapes suivantes , Analyse de deux groupes expérimentaux (k1_8_exp_lot Et k1_8_lot_exp) Femmes 、 Différences entre les variables démographiques relatives à l'âge et aux hispaniques Suivreobjective_randomization Fonctions.
Arrondir tout calcul à la centaine de décimales la plus proche . Ne pas utiliser de pourcentage .
def objective_randomization(provided_data):
Terminer l'acquisition des données fournies et l'exécution sur l'ensemble de données t Fonctions vérifiées Femmes entre deux traitements 、 Âge et variables démographiques hispaniques Et affiche les résultats dans la zone de données remplie dans les sections suivantes . Arrondir vos résultats au pourcentage le plus proche . Conseils:Vous pouvez choisir d'utiliser statsmodels Bibliothèque statistique ou scipy Base statistique pour le calcul t Statistiques et p Valeurttest_df = pd.DataFrame(columns=['variable','t-statistic','p-value'])variables = ['female','age','hispanic']ttest_df['variable'] = variablesfor variable in ttest_df['variable']: g1 = data[data['treatment'] == 'k1_8_lot_exp'][variable] # Terminé. t-test Remplir la valeur dataframe # Écris le Code ici. return ttest_df
La fonction doit renvoyer une boîte de données , Il contient chaque variable et son t Statistiques et p Valeur.