Awesome

Diarios de Sesiones de Diputados y Senadores uruguayas: scraping y text mining

Éste es el código que usé para este artículo de mi blog donde scrapeo los Diarios de Sesiones de Diputados y Senadores de Uruguay desde enero de 2017 hasta marzo de 2018, y de este otro artículo donde analizo el texto de las sesiones

Archivos disponibles en csv (desde enero de 2017 hasta marzo de 2018):

La información a partir de la cual se construyeron los archivos proviene del sitio web del parlamento.

Paquetes destacados:

robotstxt de rOpenSci, para ver si la sección del sitio web que quiero navegar permite ser accedida por un robot 🤖;
rvest, para explorar la web y descargar los Diarios de Sesiones;
pdftools también de rOpenSci, para extraer el contenido de los archivos en formato pdf;
tidytext para analizar el texto de una manera tidy.

Lexicon de sentimiento

Utilicé este lexicon de sentimiento en mi análisis. No hay muchas opciones disponibles para el idioma español, y los resultados obtenidos tenían sentido.

No hice un análisis profundo del lexicon, pero tiene evidentes limitaciones: