Pandas profiling en python
La librería pandas profiling en python ha estado por ahí desde 2016, aunque me parece que es injustamente impopular, pues ofrece la posibilidad de obtener una vista muy rápida y resumida de un conjunto de datos, mismo que puedes aprovechar de manera muy ventajosa cuando se trata de análisis de datos. Y aun con estas ventajas, su uso no es tan extensivo.
¿Qué tipo de resultados ofrece pandas profiling?
Usando este script como ejemplo:
El archivo en CSV está disponible en este link:
El perfil que se genera con esta librería contiene 6 seccciones: overview, variables, interactions, correlations, missing values, sample. A continuación puedes ver ejemplos muy cortos de cada sección.
Pandas profiling overview
Esta sección incluye detalles técnicos del análisis (reproduction):
Incluye también advertencias generales acerca de los tipos de datos y highlights por cada campo:
Y también incluye estadísticas generales del conjunto de datos:
Pandas profiling variables
Notarás que algunas variables están “opacas”, esto significa que no hay mayores insights para esta variable:
Y para las variables que sí haya detalles, ofrece dos vistas: i) la inicial, y la complementaria (al dar click en “toggle details”):
En la vista complementaria puedes encontrar más detalles. Entre otros, una distribución para cada variable:
Pandas profiling interactions
Cuando los datos así lo permiten, podrá ver un análisis de las interacciones que pueden contener tus datos:
Pandas profiling correlations
En esta sección podrás ver la representación gráfica de las matrices de correlación más conocidas. También hay una referencia para cada caso:
Pandas profiling missing values
En esta sección tienes al alcance una representación visual de la existencia de valores nulos para cada variable.
Y por último, en la parte final encuentras una muestra de cómo luce la tabla. En general es muy últil para explorar conjuntos de datos, especialmente cuando te resultan completamente ajenos. Aquí puedes descargar el ejemplo que acabo de describir (tienes que descargarlo antes de abrirlo): https://drive.google.com/file/d/16QepslWHx8RfbPSjFDvg_wrv7jtAY8nn/view?usp=sharing.
Suerte!