Please use this identifier to cite or link to this item:
http://bibdigital.epn.edu.ec/handle/15000/25744
Title: | Desarrollo de un modelo de síntesis y ranking de hechos relevantes aplicado a medios de prensa digitales en base a minería de datos y retroalimentación del usuario final. |
Authors: | Cevallos Salas, Fernando Andrés |
Director: | Recalde Cerda, Lorena Katherine |
Keywords: | APRENDIZAJE DE MÁQUINA INTELIGENCIA ARTIFICIAL MODELOS DE LENGUAJE PRENSA DIGITAL SISTEMA DE INFORMACIÓN |
Issue Date: | 19-Aug-2024 |
Publisher: | Quito : EPN, 2024. |
Citation: | Cevallos Salas, F.A.(2024).Desarrollo de un modelo de síntesis y ranking de hechos relevantes aplicado a medios de prensa digitales en base a minería de datos y retroalimentación del usuario final.102 páginas. Quito : EPN, 2024. |
Abstract: | Internet users’ growth, which has been increased even more during the COVID-19 pandemic, along with the exponential growth of electronic news, has generated the need to create new tools which allow analyzing and synthesizing the ideas which want to be transmitted. In this project a model for news clustering, synthesis of relevant facts and ranking is presented. The model is based on data mining practices using large language models (LLM) and machine learning (ML), and allows feedback based on the end user's assessment. The model, based on several factors, creates a composite metric that allows filtering the information that is considered useful and valuable knowledge for the end user. The development of this model has been carried out following the reference framework of the Cross Industry Standard Process for Data Mining methodology. The CRISP-DM methodology has allowed gradual progress while being able to refine the results based on the input and output variables of each of the phases followed. Obtained results after implementing the developed models have been satisfactory. A total of 7,761 clusters of related news stories have been generated, and the relevant content for the end user has been synthesized. It can be deduced from the analysis that the average of the content after being scored is 54.13 in a scale of 100 points. At the same time, a regression model was built to predict the authority that the news story would generate on the Internet, the prediction score obtained has been of 91.85%. |
Description: | El crecimiento de usuarios en Internet, incrementado más aún durante la pandemia de COVID-19, a la par del crecimiento exponencial de noticias electrónicas; han generado la necesidad de crear nuevas herramientas que permitan analizar y sintetizar las ideas que buscan transmitirse a través de estas noticias. El presente proyecto de titulación presenta un modelo para clusterización de noticias, síntesis de hechos relevantes y ranking. El modelo se fundamenta en prácticas de minería de datos haciendo uso de modelos Large Language Models (LLMs) y Machine Learning (ML), y permite la retroalimentación en base a la valoración del usuario final. El modelo conforma una métrica compuesta que permite filtrar la información que se considera útil y un conocimiento valioso para el usuario. El desarrollo de este modelo ha sido realizado siguiendo el marco de referencia de la metodología Cross Industry Standard Process for Data Mining. Esto ha permitido un avance gradual para poder ir afinando los resultados en base a las variables de entrada y salida de cada una de las fases seguidas. Los resultados obtenidos tras implementar los modelos desarrollados han sido satisfactorios. Se generaron 7.761 clústers de diarios afines y se ha podido sintetizar el contenido relevante para el usuario. Se deduce del análisis que la media del contenido tras ser puntuado es de 54,13 sobre 100 puntos. A la vez se construyó un modelo de regresión para poder predecir la autoridad que generaría en Internet el titular con un score de predicción del 91,85%. |
URI: | http://bibdigital.epn.edu.ec/handle/15000/25744 |
Type: | Trabajo de Integración Curricular |
Appears in Collections: | Tesis MAESTRÍA EN SISTEMAS DE INFORMACIÓN MENCIÓN INTELIGENCIA DE NEGOCIOS Y ANALÍTICA DE DATOS MASIVOS (FIS) |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
CD 14382.pdf | 2 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.