Indexation de tables
Données tabulaires et format
Le stockage de données tabulaires sous forme de fichiers peut s’effectuer avec différents formats ouverts ou propriétaires, le plus connu est le format CSV.
- Un format propriétaire nécessite un logiciel spécifique pour être lisible, contrairement à un format ouvert dont les spécifications techniques sont publiques avec un accès illimité aux données.
- Dans un fichier, l’emploi d’un séparateur permet de stocker des données individuelles de longueur variable. Il en existe de nombreuses variantes :
le point-virgule, qui est moins susceptible d’entrer dans la composition des données élémentaires elles-mêmes ;
la virgule est utilisée comme séparateur décimal ;
le point parfois comme séparateur de milliers ;
les tabulations, le format est souvent appelé TSV, mais nous pouvons utiliser le fomat CSV ou texte en précisant le délimiteur par \t.
Acquisition de données tabulaires
Stockage en mémoire de données tabulaires
- En stockant l’ensemble des données dans une liste, nous pouvons accéder aux données individuelles avec la notation indexée, en utilisant un double index : le premier désigne la ligne souhaitée, le second l’élément dans la ligne.
- Nous pouvons aussi stocker nos données dans des tuples et permet uniquement leur lecture car elles sont non mutables.
- Les listes étant mutables, le stockage en liste de listes, autorise en revanche une éventuelle mise à jour des données individuelles.
Recherche dans une table
Recherche avec connecteurs propositionnels
Recherche avec opérateur d’appartenance
Cohérence et normalisation des données
- La cohérence des données est importante car elle conditionne la qualité des recherches et des traitements qui peuvent être effectués ensuite.
- En l’absence de garanties sur la cohérence à la source des données acquises, il sera nécessaire d’inclure des vérifications ou des transformations préalables.
- Les éventuels caractères de type espace présents en début ou en fin de chaine sont généralement supprimés systématiquement dans le cadre d’une normalisation. Des opérations complémentaires spécifiques peuvent être appliquées en fonction du profil des données d’origine.
Tri et fusion de tables
Tri
- Les fonctionnalités de tri permettent de réorganiser des ensembles de données tabulaires selon différents critères, à des fins de traitements ou de présentation de ces données, selon les besoins.
- Python propose deux solutions de tri :
Le tri sur place avec la méthode sort() qui effectue un tri en place et ne retourne rien ;
Le tri avec la fonction sorted() qui retourne une nouvelle liste triée à partir de la liste passée en argument.
- Dans son cas d’usage le plus simple, la fonction sorted() prend en argument la liste qu’on souhaite trier :
Le tri se fait sur les éléments successifs de chaque sous-liste ;
Un paramètre optionnel permet de trier facilement la liste en ordre inverse ;
Dispose aussi d’un paramètre key permettant de spécifier une clé de tri pour personnaliser l’ordre dans lequel les données sont triées.
Fusion de tables