Pandas est une bibliothèque Python qui fournit des structures de données et des outils d'analyse de données hautes performances et faciles à utiliser. C'est l'une des bibliothèques Python les plus populaires pour la science des données.

Que ce que c’est Pandas?

Le nom  » Pandas  » est en fait la contraction du terme  » Panel Data « , désignant les ensembles de données incluant des observations sur de multiples périodes temporelles.

Pandas est une bibliothèque Python qui fournit des structures de données et des outils d'analyse de données hautes performances et faciles à utiliser. C'est l'une des bibliothèques Python les plus populaires pour la science des données.

Pourquoi utiliser Pandas? Les avantages de Pandas

Les avantages de Pandas sont nombreux , on peut citer entre autres :

  • C'est une bibliothèque open source et gratuite, ce qui la rend accessible à tous.
  • Elle est facile à apprendre et à prendre en main ;
  • Elle a une communauté très large et active ;
  • on peut facilement lire et écrire ces dataframes à partir ou vers un fichier tabulé(CSV ou Excel) ;
  • elle fournit des performances élevées grâce à l'utilisation de la vectorisation, c'est-à-dire en utilisant les unités vectorielles de l'ordinateur pour fournir un moyen efficace de gérer de très grands ensembles de données ;
  • elle prend en charge la lecture à partir d'une variété de formats, y compris CSV, Excel, HDF5, MATLAB, Stata, bases de données SQL telles que PostgreSQL ou SQLite3 (ou même d'autres cadres de données Pandas), etc ;
  • elle prend en charge aussi, l'écriture dans des fichiers CSV dans divers formats, y compris les feuilles de calcul Excel.

Les principaux composants de Pandas:

Les principaux composants de la bibliothèque Pandas sont :

  • DataFrame :

Les dataframes sont au cœur de Pandas. Il s'agit essentiellement d'un tableau de données bidimensionnel étiqueté. Les dataframes peuvent être créés à partir d'une grande variété de sources, notamment des fichiers CSV, des feuilles de calcul Excel, des bases de données SQL, etc.

  • Série

Une série est un tableau étiqueté unidimensionnel pouvant contenir tout type de données (entiers, chaînes de caractères, nombres à virgule flottante, objets Python, etc.). Les étiquettes des axes représentent l’index de la série. Pour être plus simple, une série n’est rien d’autre qu’une colonne dans une feuille Excel.

Comment installer Pandas?

La façon la plus simple d’installer non seulement Panda, mais aussi Python et ses bibliothèques les plus populaires (IPython, NumPy, Matplotlib, ...) est d’utiliser Anaconda, une distribution Python multiplateforme (Linux, macOS, Windows) pour l’analyse de données et le calcul scientifique.

Prochain article: Apprendre à utiliser Pandas

Notre prochain article, nous allons manipuler Pandas avec des données réelles.

Vous avez aimé cet article ? Rejoignez le Bootcamp

Si vous voulez aller plus loin, inscrivez-vous à notre prochaine cohorte.