Desarrollo de un modelo “bias-aware” de recomendación de contenido para usuarios de twitter con uso de estrategias de aprendizaje automático y minería de texto.

Guerra Almeida, Cleopatra Yomara

Por favor, use este identificador para citar o enlazar este ítem: http://bibdigital.epn.edu.ec/handle/15000/25271

Título:	Desarrollo de un modelo “bias-aware” de recomendación de contenido para usuarios de twitter con uso de estrategias de aprendizaje automático y minería de texto.
Autor:	Guerra Almeida, Cleopatra Yomara
Director:	Recalde Cerda, Lorena Katherine
Palabras clave:	ORDENADOR CIENCIAS DE LA COMPUTACIÓN APRENDIZAJE AUTOMÁTICO INTELIGENCIA ARTIFICIAL
Fecha de publicación:	16-ene-2024
Editorial:	Quito : EPN, 2024.
Citación:	Guerra Almeida, C.Y.(2024). Desarrollo de un modelo “bias-aware” de recomendación de contenido para usuarios de twitter con uso de estrategias de aprendizaje automático y minería de texto.143 páginas. Quito : EPN, 2024.
Resumen:	This project proposes the development of a model that allows reducing bias in Twitter content recommendations based on bias analysis strategies. The objective is to detect, simplify, minimize, and achieve a certain degree of impartiality during the execution of algorithms that identify bias in Recommendation Systems. With the development of the bias-aware model, this work aims to evaluate and demonstrate the existence of bias. The corpus used in this project corresponds to the National Strike that occurred in June 2022 and the Crossed Death in June 2023. The procedure begins with data cleaning, employing techniques such as tokenization, removal of stopwords, elimination of duplicate tweets, among others. Once the data is cleaned, word2vec is used to create vectors of 50, 100, and 200 dimensions. Next, the k-means algorithm is applied to identify clusters. The centroids of each cluster are calculated, and once the political cluster is determined, tweets containing political content are labeled. Then, different classification algorithms such as SVM, decision trees, KNN, and Naive Bayes are evaluated for the different dimensions. Finally, a model is proposed that will use a new political dictionary formed from the minimum distances of words in the political cluster to other clusters. With this new cluster, the algorithm evaluation procedure is repeated. The metrics used include Accuracy, F1-score, Recall, Precision, F2, and F0.5
Descripción:	Este proyecto propone el desarrollo de un modelo que permita disminuir el sesgo en las recomendaciones de contenido de Twitter basado en estrategias de análisis de sesgo. El objetivo es que se pueda detectar, simplificar, minimizar y alcanzar cierto grado de imparcialidad durante la ejecución de los algoritmos que permiten identificar el sesgo en los Sistemas de Recomendación. Con el desarrollo del modelo bias-aware, este trabajo persigue evaluar y demostrar la existencia de sesgo. El corpus con el que se trabaja corresponde al Paro Nacional que se dio en junio 2022 y la Muerte Cruzada en junio 2023. El procedimiento empieza con la limpieza de los datos, se emplea técnicas como: tokenización, eliminación de stopwords, tweets duplicados, entre otras. Cuando los datos se encuentran limpios se emplea word2vec para crear vectores de 50, 100 y 200 dimensiones. A continuación, se aplica el algoritmo k-means para identificar clústers. Se calculan los centroides de cada clúster y una vez que se determina el clúster de política se etiqueta los tweets que tienen contenido político. Luego se evalúa con diferentes algoritmos de clasificación como: SVM, árboles de decisión, KNN y Naive Bayes para las diferentes dimensiones. Finalmente, se propone un modelo que empleará un nuevo diccionario de política formado a partir de las distancias mínimas de las palabras del clúster de política a los otros clústers. Con este nuevo clúster se repite el procedimiento de evaluación de algoritmos. Las métricas empleadas son: Accuracy, F1-score, Recall, Precisión, F2 y F0.5.
URI:	http://bibdigital.epn.edu.ec/handle/15000/25271
Tipo:	masterThesis
Aparece en las colecciones:	Tesis Maestría en Ciencias de la Computación y Comercio Electrónico (FIS)

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
CD 13900.pdf		6,43 MB	Adobe PDF	Visualizar/Abrir

Muestra el registro Dublin Core completo del ítem

BIBDIGITAL