Análisis de datos con pandas profiling en python

Pandas profiling

Pandas profiling en python

La librería pandas profiling en python ha estado por ahí desde 2016, aunque me parece que es injustamente impopular, pues ofrece la posibilidad de obtener una vista muy rápida y resumida de un conjunto de datos, mismo que puedes aprovechar de manera muy ventajosa cuando se trata de análisis de datos. Y aun con estas ventajas, su uso no es tan extensivo.

¿Qué tipo de resultados ofrece pandas profiling?

Usando este script como ejemplo:


El archivo en CSV está disponible en este link:

https://docs.google.com/spreadsheets/d/1jTcWC3YdDB6ICEV0Fm8KZT4uJ72RGSYnauQ2iWTmRtA/edit#gid=1014670818

El perfil que se genera con esta librería contiene 6 seccciones: overview, variables, interactions, correlations, missing values, sample. A continuación puedes ver ejemplos muy cortos de cada sección.

Pandas profiling overview

Esta sección incluye detalles técnicos del análisis (reproduction):

Pandas profiling overview (reproduction)

Incluye también advertencias generales acerca de los tipos de datos y highlights por cada campo:

Pandas profiling overview (warnings)

Y también incluye estadísticas generales del conjunto de datos:

Pandas profiling overview (statistics)

Pandas profiling variables

Notarás que algunas variables están “opacas”, esto significa que no hay mayores insights para esta variable:

Pandas profiling variables

Y para las variables que sí haya detalles, ofrece dos vistas: i) la inicial, y la complementaria (al dar click en “toggle details”):

Pandas profiling variables

En la vista complementaria puedes encontrar más detalles. Entre otros, una distribución para cada variable:

Pandas profiling variables

Pandas profiling interactions

Cuando los datos así lo permiten, podrá ver un análisis de las interacciones que pueden contener tus datos:

Pandas profiling interactions

Pandas profiling correlations

En esta sección podrás ver la representación gráfica de las matrices de correlación más conocidas. También hay una referencia para cada caso:

Pandas profiling correlations

Pandas profiling missing values

En esta sección tienes al alcance una representación visual de la existencia de valores nulos para cada variable.

Pandas profiling missing values

Y por último, en la parte final encuentras una muestra de cómo luce la tabla. En general es muy últil para explorar conjuntos de datos, especialmente cuando te resultan completamente ajenos. Aquí puedes descargar el ejemplo que acabo de describir (tienes que descargarlo antes de abrirlo): https://drive.google.com/file/d/16QepslWHx8RfbPSjFDvg_wrv7jtAY8nn/view?usp=sharing.

Suerte!

Copyright © Todos los derechos reservados | FDI Tecnología y Finanzas, SAS de CV. De no existir previa autorización, queda expresamente prohibida la Publicación, retransmisión, edición y cualquier otro uso de los contenidos.