Pour partager cette vidéo sur les réseaux sociaux ou sur un site, voici son url :
Sujets que vous pourriez aussi aimer :Extraire quelques lignes
Dans ce nouveau volet, nous allons découvrir des
méthodes Python permettant d'
extraire seulement quelques lignes d'un tableau source, de différentes façons.
Classeur Excel à télécharger
Nous suggérons d'appuyer l'étude sur un
classeur Excel existant.
Nous découvrons un tableau des scores obtenus par des candidats appartenant à des équipes.
Sur la droite, des cases et grilles vides sont en attente des
formules Python d'extraction.
Le DataFrame
Comme il est de coutume, avant de dégainer les
méthodes Python, nous devons construire le
DataFrame destiné à encapsuler et à représenter les données du tableau.
- Cliquer sur la première case vide pour sélectionner la cellule F3,
- Réaliser le raccourci clavier CTRL + ALT + MAJ + P pour activer Python,
- Taper le début de syntaxe suivant : tab=,
Tab est le nom que nous donnons à notre
DataFrame. C'est sur ce nom que nous pourrons ensuite appliquer les
méthodes Python.
- Sélectionner alors toutes les données du tableau, soit la plage de cellules B3:D33,
Il en résulte la syntaxe suivante :
tab=xl("B3:D33", headers=True),
- Valider cette syntaxe par le raccourci clavier CTRL + Entrée,
Nous obtenons bien un nouveau
DataFrame en lieu et place. Et si vous cliquez sur son préfixe ([PY]), vous obtenez un aperçu des données embarquées.
Quelques premières lignes
C'est la
méthode python head qui permet de prélever seulement quelques premières lignes d'un tableau. Et nous allons la découvrir.
- Cliquer sur la première case de la grille du dessous pour sélectionner la cellule F6,
- Réaliser le raccourci clavier CTRL + ALT + MAJ + P pour activer Python,
- Puis, construire la syntaxe suivante : tab.head(),
- Valider alors la formule par le raccourci clavier CTRL + Entrée,
Nous obtenons un nouveau
DataFrame mais nous souhaitons le transformer en tableau de données.
- A gauche de la barre de formule, cliquer sur la flèche dirigée vers le bas,
- Dans les options, choisir Valeur Excel,
Comme vous pouvez l'apprécier, en l'absence de paramètre passé à la
méthode head, après les entêtes restitués, nous obtenons l'
extraction des 5 premières lignes du tableau d'origine.
Mais nous pouvons influer sur cette quantité. Avec cette syntaxe par exemple :
tab.head(3), nous obtenons l'
extraction seulement des trois premières lignes, après les entêtes.
Quelques dernières lignes
Pour extraire seulement
quelques lignes d'un tableau mais en
partant de la fin, c'est cette fois la
méthode Python tail qui entre en jeu. Son fonctionnement est identique à celui de la méthode head.
- Cliquer sur la première case de la deuxième grille vide pour sélectionner la cellule F14,
- Réaliser le raccourci clavier CTRL + ALT + MAJ + P pour activer Python,
- Construire la syntaxe suivante : tab.tail(),
- Valider la formule par le raccourci clavier CTRL + Entrée,
- Puis, transformer le DataFrame en valeur Excel,
Cette fois, ce sont les
5 dernières lignes qui sont extraites. Mais une information supplémentaire les accompagne en première colonne. Il s'agit des positions respectives de ces lignes dans le tableau d'origine. Là aussi, nous pouvons influer sur la quantité à extraire. Avec cette syntaxe par exemple :
tab.tail(3), nous réalisons l'
extraction seulement des 3 dernières lignes du tableau.
Quelques lignes au hasard
Il est aussi possible de demander une
extraction aléatoire de quelques lignes d'un tableau. Pour cela, c'est maintenant la
méthode Python sample qui entre en jeu.
- Cliquer sur la première case de la troisième grille vide pour sélectionner la cellule F22,
- Réaliser le raccourci clavier CTRL + ALT + MAJ + P pour activer Python,
- Construire la syntaxe suivante : tab.sample(3),
- Valider la formule par le raccourci clavier CTRL + Entrée,
- Puis, transformer le DataFrame en valeur Excel,
Nous obtenons bien une extraction de trois lignes choisies aléatoirement dans le tableau, accompagnées de leurs positions respectives.
Extraire les 3 meilleurs
Grâce à ce que nous avons appris et notamment grâce à la
méthode head embarquée dans un raisonnement judicieux, il est possible de réaliser l'extraction seulement des
trois meilleurs résultats. Pour cela, il est question d'appliquer cette
méthode head sur un tableau préalablement réorganisé dans l'
ordre décroissant sur les points. Et comme nous l'avons appris à l'occasion du volet précédent, c'est la
méthode Python sort_values qui permet de
trier un tableau à notre guise.
- Cliquer sur la case de la première formule pour sélectionner la cellule F6,
- Adapter sa syntaxe comme suit : tab.sort_values("Points", ascending=False).head(3),
Sur l'
objet tab représentant les données structurées du tableau source, nous engageons la
méthode Python sort_values pour trier les lignes dans l'
ordre décroissant (ascending=False) sur la
colonne des points ("Points"). Et sur ces données réorganisées, grâce à la
méthode Python head en cascade, nous ne conservons que les
3 premières lignes, soit les
3 meilleurs candidats.
Vous pouvez le constater en validant la
formule Python par le
raccourci clavier CTRL + Entrée.