Pour partager cette vidéo sur les réseaux sociaux ou sur un site, voici son url :
Sujets que vous pourriez aussi aimer :Fréquences et répétitions
Dans ce chapitre, nous allons découvrir des
méthodes Python d'analyses statistiques permettant notamment de compter les
fréquences de répétitions des lignes dans un
tableau Excel.
Classeur Excel à télécharger
Nous proposons de baser l'étude sur un
classeur Excel existant.

Nous travaillons à partir d'un tableau des activités de sorties recensées par département et ville notamment. Forcément, il existe plusieurs activités dans un même département mais aussi dans une même ville pour un département. Donc ces informations se répètent.
Synthétiser les départements et villes
C'est la raison pour laquelle nous souhaitons synthétiser les départements et les villes les plus représentés. C'est aussi la raison de la présence des petites grilles sur la droite entre les colonnes G et J. Un
DataFrame est déjà présent en
cellule H2. Nous l'avons nommé
dv. Il représente la colonne des départements et celle des villes à partir du tableau des activités de sorties.
dv=xl("bdd", headers=True)[["Département", "Ville"]]
C'est la
méthode Python mode qui permet d'extraire l'élément le plus représenté dans une série de données.
- Cliquer sur la première case vide pour sélectionner la cellule H4,
- Réaliser le raccourci clavier CTRL + ALT + MAJ + P pour activer Python,
- Débuter la syntaxe comme suit : repD=,
repD est donc le nom que nous souhaitons donner à notre objet Python résultant. Dans un premier temps, cette
méthode mode, nous devons la faire agir sur la colonne des départements. Donc nous devons l'isoler à partir du
DataFrame.
- Après le symbole égal (=), isoler la colonne des départements comme suit : dv['Département'],
- Taper un point (.) pour annoncer la méthode à suivre,
- Puis appeler la méthode Python mode : mode(),
- Dès lors, valider la formule par le raccourci clavier CTRL + Entrée,

Nous obtenons un
objet Python Series. Si vous cliquez sur son
préfixe PY, vous constatez que le département le
plus souvent représenté est celui du Var.
- Cliquer sur la case sous le premier calcul pour sélectionner la cellule H5,
- Réaliser le raccourci clavier CTRL + ALT + MAJ + P pour activer Python,
- Construire la syntaxe suivante : repV=dv['Ville'].mode(),
- Puis, valider par CTRL + Entrée,

Nous obtenons un nouvel
objet Python. Si vous cliquez sur son préfixe, vous apprenez que c'est la ville de Grenoble dans l'Isère qui est la plus souvent répétée.
Fréquences de répétitions
Ces renseignements sont intéressants mais nous aimerions connaître la
fréquence de répétitions de ces données les plus récurrentes. Cette fois c'est la
méthode Python value_counts() que nous devons employer là encore, indépendamment sur la colonne des départements puis sur celle des villes.
- Cliquer sur la cellule H7 pour la sélectionner,
- Réaliser le raccourci clavier CTRL + ALT + MAJ + P pour activer Python,
- Construire la syntaxe suivante : cptD = dv['Département'].value_counts()[repD],
- Puis, valider par CTRL + Entrée,
En fin de syntaxe, nous rappelons l'objet Python représentant le département le plus fréquent (
[repD]), pour l'afficher en regard de sa fréquence. Nous obtenons une nouvelle série. Si vous cliquez sur son préfixe, vous constatez que ce calcul recoupe le premier mais avec une précision en plus sur le
nombre de répétitions.

Nous n'avons plus qu'à adapter cette syntaxe sur la colonne des villes pour connaître la
fréquence de répétitions de la ville la plus fréquente, qui est Grenoble comme nous le savons grâce au deuxième calcul.
- Cliquer sur la cellule H8 pour la sélectionner,
- Réaliser le raccourci clavier CTRL + ALT + MAJ + P pour activer Python,
- Construire la syntaxe suivante : cptV = dv['Ville'].value_counts()[repV],
- Puis, valider par CTRL + Entrée,
C'est ainsi, en cliquant sur le préfixe (PY) de l'
objet Python résultant que nous apprenons que la ville de Grenoble est répétée Ã
31 reprises.
Fréquences par paires
Nous souhaitons maintenant aller plus loin pour connaître la
combinaison Département / Ville la plus fréquente. Pour cela, nous devons passer l'assemblage de ces deux colonnes en paramètre de la
méthode Python value_counts.
- Cliquer sur la cellule H10 pour la sélectionner,
- Réaliser le raccourci clavier CTRL + ALT + MAJ + P pour activer Python,
- Construire la syntaxe suivante :
combinaison_freq= dv.value_counts(subset=['Département', 'Ville'])
Nous nommons donc notre DataFrame combinaison_freq.
- Puis, valider par CTRL + Entrée,

Si vous cliquez sur le préfixe de l'
objet Series résultant, vous obtenez en effet un aperçu des
fréquences de répétitions par
paires Département / Ville.
Extraire les plus grosses fréquences
Pour parachever la solution, nous souhaitons extraire les quelques premières paires les plus fréquentes sur la base de cet objet que nous avons nommé
combinaison_freq. Pour cela, nous devons énoncer le critère numérique sur la quantité dans la case rose en
cellule I10 et l'encapsuler dans un
objet Python en
cellule voisine J10. C'est alors que nous pourrons exploiter ce
DataFrame avec la
méthode Python head sur ce critère.
- En cellule I10, taper le chiffre 4,
- En cellule J10, réaliser le raccourci clavier CTRL + ALT + MAJ + P pour activer Python,
- Dès lors, commencer la syntaxe comme suit : crn=,
- Puis sélectionner la cellule du critère, ce qui donne : crn=xl("I10"),
- Valider la syntaxe par le raccourci clavier CTRL + Entrée,
Nous obtenons un nouvel
objet Python représentant la cellule numérique du critère.
- Cliquer sur la cellule H11 pour la sélectionner,
- Réaliser le raccourci clavier CTRL + ALT + MAJ + P pour activer Python,
- Puis, construire la syntaxe suivante : combinaison_freq.head(crn),
Comme nous l'avons déjà appris, la
méthode head embarquée sur un
objet Python (combinaison_freq) permet de ne retenir que les quelques premières lignes spécifiées en argument (crn).
- Valider la formule par le raccourci clavier CTRL + Entrée,
- A gauche de la barre de formule, cliquer sur la flèche orientée vers le bas,
- Dans les propositions, choisir Valeur Excel,

Nous obtenons bien une extraction des premières paires (Département / Ville) les plus fréquemment répétées dans cette base de données. Voilà donc pour ces formules d'analyses statistiques tout à fait remarquables grâce Ã
Python dans
Excel.