Estadísticas del robo de hidocarburos en México. Datos abiertos de la PGR (I): averiguaciones previas.

Acerca de los datos y otras decepciones

Navegando por el portal de los datos abiertos de la PGR, encontré una joya: Conjunto de datos de incidencia de delitos de robo de hidrocarburos a nivel nacional (https://datos.gob.mx/busca/dataset/robo-de-hidrocarburos). Pero encontré que los datos no solamente no están ordenados, sino mucho peor: están organizados en un formato terrible y hasta violento a la vista. Pocas veces he visto informes tan feos y poco amigables para el análisis (y vaya que he visto informes feos).




Y ni qué decir del tipo de archivo: un archivo con extensión RAR. ¿De verdad? ¿Será que quieren mantener los datos lejos de quien trate de analizarlos? No lo sabemos. Lo que sí puedo asegurar, es que este es un excelente proyecto para el blog: llevar un montón de datos sucios e ilegibles, a un formato donde los podamos analizar. Las tecnologías a usar para este post: Excel y Power BI.

0. Extraer información del archivo.

El enlace ofrece para descarga el archivo RoboHidrocarburos.rar. Si no tienes un compresor que lea estos archivos, puedes usar uno en línea (hay varios, solo googléalo). Cuando lo “destapes”, verás que incluye varios CSV (archivos separados por comas).

1. La lectura y reorganización de los datos.

Para esta publicación solamente incluí los datos de averiguaciones previas. Los datos pasaron por varios procesos. En este archivo ( robo de hidrocarburos (i) ) puedes ver cómo avancé de los datos desordenados a una tabla de datos legible y lista para el análisis. ¿Cómo determinar si los datos están ordenados o desordenados? Aquí seguimos tres reglas (ref: http://vita.had.co.nz/papers/tidy-data.pdf):

i) Cada columna es una variable.
ii). Cada fila es una observación.
iii) Una tabla representa una unidad de observación.

Al final hice una conciliación con los totales (no checamos para 2017, hay un par de registros que no están acumulados en los totales). Las columnas están sombreadas en gris en el tab 0. Recuerda que este proceso solo fue elaborado de esta manera para fines explicativos. Otra opción es hacer algunos ajustes en Excel, y después procesar en R (mucho más rápido y preciso).

Para que tengas una mejor noción de los cambios que se realizaron a estos datos: los datos está apilados, lo que hicimos fue desagregarlos, primero deshaciendo la columna única en campos (año, mes, delegación, delito), y después avancé descomponiendo las columnas, convirtiéndolas en observaciones (más que en representarlas como campos). El archivo va paso a paso.

2. Análisis de la información.

Para continuar con el análisis, usaremos Power BI (al final de la página está el enlace para descargar el archivo en versión desktop). Puedes ver debajo de estas líneas un par de gráficos, mostrando los totales.

¿Qué has notado? En principio, los totales son sorprendentes: pasamos de +200 averiguaciones previas en 2006, a más de 3 mil en 2018: en números redondos, 15 veces más averiguaciones (un cambio de 1,500%). Es cierto que desde 2015 se ha tenido una reducción, pero el número no es menor.

Aunque en todas las delegaciones de la PGR parece haber un número de averiguaciones previas en descenso, esto no parece ocurrir en algunos estados, especialmente: Jalisco, Tamaulipas, Estado de México, Puebla y Guanajuato. Parece que el problema está muy bien localizado. Puedes filtrar el reporte para estos estados y notarás este comportamiento. Ve a la página 2 del reporte, y revisa el treemap para los últimos dos años (2017-2018). Los estados mencionados representan más de la mitad de todas las averiguaciones.

En publicaciones posteriores mostraré el resto de los datos disponibles para este tema. Desde luego, puedes distribuir los datos libremente, y te agradeceré una referencia a este sitio.




Descarga archivo de trabajo:  robo_de_hidrocarburos_power_bi

Copyright © Todos los derechos reservados | FDI Tecnología y Finanzas, SAS de CV. De no existir previa autorización, queda expresamente prohibida la Publicación, retransmisión, edición y cualquier otro uso de los contenidos.

Leave a Reply

Your email address will not be published. Required fields are marked *