- Home
- Actividades y Extensión
- Actividades
- Herramientas informáticas para el estudio de discursos publicados en Facebook
Herramientas informáticas para el estudio de discursos publicados en Facebook
En el marco del PICT “Prensa, redes sociales en Internet y sistema de interacción social sobre medios. Análisis de las modalidades de circulación de las noticias de periódicos nacionales online en Facebook y en Twitter” se han desarrollado tres herramientas informáticas mediante las cuales ha sido posible automatizar al menos una parte de los procedimientos de análisis de posteos que los diarios Clarín y La Nación publican en Facebook, gracias a la mediación de tecnologías que no requieren la intervención constante de operadores humanos. Se trata de herramientas computacionales que cuentan con registro de Copyright, bajo titularidad compartida entre el Consejo Nacional de Investigaciones Científicas y Técnicas (Conicet), la Universidad Nacional de Rosario (UNR) y la Universidad Tecnológica Nacional (UTN), sede Rosario.
Las tres herramientas en cuestión son de software libre y fueron desarrolladas en el marco de un proyecto de investigación interdisciplinario que se propone articular las labores propias de del análisis sociosemiótico con métodos computacionales provistos por la ingeniería en sistemas de información orientada a la minería de datos. Las mismas pueden ser utilizadas en el marco de investigaciones afines a la arriba mencionada.
Herramienta “Buscar Títulos Facebook”
Permite acceder automáticamente a un conjunto de posteos de Facebook para extraer los hashtags, menciones y títulos de enlace que los componen, y vuelca la información recolectada en un archivo de texto.
Esta herramienta está conformada por un script en lenguaje Python. El mismo recorre un archivo CSV que contiene una lista de links a posteos de Facebook, navega y recupera automáticamente el código HTML de cada posteo para luego procesarlo mediante la biblioteca Beautiful Soup y exportar los datos antes mencionados.
Link: https://github.com/Departamento-Sistemas-UTNFRRO/buscarTitulosFacebook
Herramienta “Buscar En Portales Diarios”
Dado un conjunto de enlaces a noticias publicadas en periódicos online permite recolectar automáticamente datos del portal importantes para su análisis: fecha, hora de publicación, título, volanta, bajada, copete, sección del diario donde se publicó y cuerpo del texto.
Esta herramienta colabora con el proceso de comparar el contenido de los posteos que los diarios realizan en sus cuentas oficiales en Facebook con el publicado originalmente en los portales de los medios en cuestión. Para acceder a las publicaciones realizadas por los diarios en sus respectivos sitios web, se recurrió a procesos de ingeniería inversa. Entre las ventajas de la herramienta desarrollada puede mencionarse que, además de ofrecer una forma relativamente sencilla de recolectar información de manera automática, la misma posibilita realizar un gran número de peticiones de información a los portales salteando las limitaciones con las que nos toparíamos si ingresáramos manualmente. Estas restricciones de acceso fueron incorporadas en abril de 2017 en el caso de clarin.com y en agosto de ese mismo año en el caso de lanacion.com, y consisten en un máximo de 10 notas libres por mes para lectores no suscritos.
Esta herramienta está conformada por un script en lenguaje Python. El mismo recorre un archivo CSV que contiene una lista de links al contenido publicado en los portales de Clarín y La Nación, navega y recupera automáticamente el código HTML de cada uno para luego procesarlo mediante la biblioteca Beautiful Soup y exportar los datos antes mencionados.
Link: https://github.com/Departamento-Sistemas-UTNFRRO/buscarEnPortalesDiarios
Herramienta “Buscar Links Rotos”
Dado un conjunto de enlaces rotos a noticias publicadas en periódicos online, automatiza la búsqueda en Google de los mismos. Realiza esta tarea concatenando el título del posteo en Facebook más el portal al que pertenece y toma los primeros 5 resultados de la búsqueda. Una vez obtenida esta tupla, el software filtra aquellos resultados cuya fecha de publicación en el portal coincide o es anterior a la obtenida en la red social Facebook. A continuación, elije el link de la siguiente manera:
- Si hay un solo link devuelve ese;
- Si hay más de un link, el software los tokeniza y aplica distancia TF/IDF sobre los mismos y devuelve el link más cercano al texto buscado;
- Si no hay links continua con el siguiente.
Link: https://github.com/Departamento-Sistemas-UTNFRRO/buscarLinksRotos
Equipo de desarrollo
Autores: Ana Laura Cardoso (UTN) y José Rostagno (UTN).
Coordinadores: Dra. Natalia Raimondo Anselmino (CONICET, UNR) y Dra. Guillermo Leale (UTN).
Contacto: nraimondo@conicet.gov.ar