Please use this identifier to cite or link to this item:
http://bibdigital.epn.edu.ec/handle/15000/17913
Title: | Implementación de un sistema para el análisis de sentimientos en un conjunto de datos |
Authors: | Vinlasaca Viera, Jorge Gustavo |
Keywords: | BASES DE DATOS SISTEMAS DISTRIBUIDOS MINERIA DE OPINION ALGORITMOS DE CLASIFICACION ANALISIS DE SENTIMIENTOS |
Issue Date: | 16-Aug-2017 |
Publisher: | Quito, 2017. |
Citation: | Vinlasaca Viera, J. G. (2017). Implementación de un sistema para el análisis de sentimientos en un conjunto de datos. 120 hojas. Quito : EPN. |
Abstract: | In this work is presented the design and implementation of a system to perform sentiment analysis over a dada set. In chapter one, the theoretical framework is established, for which a brief summary of Twitter, the fundamental concepts of sentiment analysis, Hadoop and its components, the Mahout library, and Complement Naïve Bayes Classifier Algorithm, are made. In chapter two, a summary of the design and implementation of the four main components of the system: data collector, data preprocessor, cluster to run Hadoop and analyze data, and results collector is presented. In chapter three, the test of the system are presented, for which five classification models were trained and the one with the best performance was evaluated using additional data; later an analysis of the evaluations’ results was carried out. Finally, in chapter four, the conclusions obtained and the recommendations that could contribute to future works are presented. |
Description: | El presente trabajo presenta el diseño e implementación de un sistema para el análisis de sentimientos en un conjunto de datos. En el capítulo uno se establecen los fundamentos teóricos, para lo cual se realiza una breve resumen de Twitter, los conceptos fundamentales del análisis de sentimientos, Hadoop y sus componentes, la biblioteca Mahout, y el algoritmo de clasificación Naïve Bayes Complementario. En el capítulo dos se presenta un resumen del diseño e implementación de los cuatro componentes principales del sistema: recolector de datos, preprocesador de datos, clúster para ejecutar Hadoop y analizar datos, y recolector de resultados. En el capítulo tres se presentan las pruebas de funcionamiento para lo cual se entrenaron cinco modelos de clasificación y se evaluó el comportamiento de aquel que presentó una mayor eficiencia utilizando datos adicionales; posteriormente se realizó un análisis de los resultados obtenidos. Finalmente, en el capítulo cuatro se presentan las conclusiones obtenidas y se presentan recomendaciones que podrían aportar para la realización de futuros trabajos. |
URI: | http://bibdigital.epn.edu.ec/handle/15000/17913 |
Type: | bachelorThesis |
Appears in Collections: | Tesis Electrónica y Redes de Información (IER) |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
CD-8106.pdf | 6,11 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.