El discurso de AMLO en la toma de posesión: text mining (I).

El evento.

Hoy tomó posesión el nuevo presidente de México. En la toma de posesión, dio un (largo) discurso, que ya está ciculando en la red, y me pareció interesante empezar un nuevo proyecto con estos datos. Se trata de hacer “text mining”, es decir, analizar y encontrar patrones en los textos. Aquí empezaré con las palabras en lo individual. A partir de las cuales, generé dos wordclouds. En un post siguiente, analizaré otros patrones en el mismo texto.


Primera lista.

La primera lista, consiste del texto en bruto. Es decir, todas las palabras del discurso, solo quitamos signos de puntuación y espacios. Total de palabras: 6113. De esta lista, fue que generé esta imagen.

Y esta es la frecuencia de las primeras 50 palabras (según el número de apariciones):



Segunda lista.

Como lo puedes notar, hay muchas palabras que no dicen mucho del discurso. Son preposiciones, y otras palabras sin significado relevante. Para obtener una mejor imagen del discurso, filtré la lista quitando aquellas paabras que no me decían mucho. Con la nueva lista, se obtiene este nuevo wordcloud:

Y esta es la frecuencia de las primeras 50 palabras (según el número de apariciones):

La palabra “NO” aparece 70 veces en el discurso. Parece que es mucho más lo que tenemos que dejar de hacer. Descarga aquí el archivo de trabajo: discurso_de_AMLO

Considera que en la elaboración de los wordclouds aún hay algunos problemas de estilo que pueden resultar en gráficos imprecisos. Esto ocurre en todas las herramientas disponibles: Power BI, online services, R, etc. Tal vez puedas encontrar algo distinto con los mismos datos puedes intentarlo. Aún así me parece una herramienta simple para analizar un texto.


Copyright © Todos los derechos reservados | FDI Tecnología y Finanzas, SAS de CV. De no existir previa autorización, queda expresamente prohibida la Publicación, retransmisión, edición y cualquier otro uso de los contenidos.

Leave a Reply

Your email address will not be published. Required fields are marked *