Awesome
Diarios de Sesiones de Diputados y Senadores uruguayas: scraping y text mining
Éste es el código que usé para este artículo de mi blog donde scrapeo los Diarios de Sesiones de Diputados y Senadores de Uruguay desde enero de 2017 hasta marzo de 2018, y de este otro artículo donde analizo el texto de las sesiones
Archivos disponibles en csv (desde enero de 2017 hasta marzo de 2018):
La información a partir de la cual se construyeron los archivos proviene del sitio web del parlamento.
Paquetes destacados:
robotstxt
de rOpenSci, para ver si la sección del sitio web que quiero navegar permite ser accedida por un robot 🤖;rvest
, para explorar la web y descargar los Diarios de Sesiones;pdftools
también de rOpenSci, para extraer el contenido de los archivos en formato pdf;tidytext
para analizar el texto de una manera tidy.
Lexicon de sentimiento
Utilicé este lexicon de sentimiento en mi análisis. No hay muchas opciones disponibles para el idioma español, y los resultados obtenidos tenían sentido.
No hice un análisis profundo del lexicon, pero tiene evidentes limitaciones:
- tiene muy pocos términos (476 positivas de 871 en total);
- la mayoría (si no todos) los adjetivos que considera son masculinos.
Contenido:
- Scraping.
- Frecuencia y largo de las sesiones de Diputados y Senadores.
- Palabras más usadas en las sesiones de ambas Cámaras.
- Palabras más usadas con sentimiento negativo y positivo, en ambas cámaras.
- Análisis de sentimiento por mes y en cada sesión, para ambas Cámaras.
- Análisis de temas tratados en ambas cámaras, mediante el cálculo del tf-idf.