Por favor, use este identificador para citar o enlazar este ítem: http://bibdigital.epn.edu.ec/handle/15000/25089
Título: Desarrollo de dos modelos de clasificación usando boosting y redes neuronales para codificar las actividades económicas y ocupaciones de investigaciones sociodemográficas del INEC.
Autor: Méndez Moreno, Diana Carolina
Director: Benalcázar Palacios, Marco Enrique
Palabras clave: SISTEMA DE INFORMACIÓN
CODIFICACIÓN AUTOMÁTICA
BOOSTING
REDES NEURONALES
CLASIFICACIÓN DEL TEXTO
Fecha de publicación: sep-2023
Editorial: Quito : EPN, 2023.
Citación: Méndez Moreno, D.C. (2023). Desarrollo de dos modelos de clasificación usando boosting y redes neuronales para codificar las actividades económicas y ocupaciones de investigaciones sociodemográficas del INEC. 80 páginas. Quito : EPN.
Resumen: In statistical offices and institutions that collect data on the labor characteristics of individuals, the textual variables economic activity and occupation are coded. This activity serves to facilitate data processing and generate relevant indicators for government planning. At the National Institute of Statistics and Census of Ecuador (INEC), coding is carried out by people trained for this activity. This type of coding, called manual coding, requires a large number of people and can take a long time depending on the amount of data. For example, in the 2010 Population and Housing Census, coding was performed by 310 people lasting 5 months. Because of this, in this master's thesis two classification models were developed to automatically code the economic activities and occupations of sociodemographic research of INEC. For the development of the models, we used Xgboost and Artificial Neural Networks of Feedforward and LSTM type algorithms. The best performing models were obtained using Feedforward Neural Networks, with an accuracy of 95.18% for economic activity and 86.85% for occupations. Compared to manual coding, the implementation of these models to automatically code around 15,000 economic activities and occupations, allowed the reduction time from days to minutes. Furthermore, considering a combined approach (automatic and manual), in which the error rate of the models was less than 5%, the time was reduced to a quarter regarding manual coding and the number of personnel to half.
Descripción: En las oficinas estadísticas e instituciones que recopilan datos de las características laborales de las personas, se realiza la codificación de las variables textuales actividad económica y ocupación. Dicha actividad sirve para facilitar el procesamiento de los datos y generar indicadores relevantes para la planificación gubernamental. En el Instituto Nacional de Estadística y Censos de Ecuador (INEC), la codificación es realizada por personas entrenadas para esta actividad. Este tipo de codificación denominada manual requiere de un gran número de personas y puede durar tiempos extensos dependiendo de la cantidad de datos. Por ejemplo, en el Censo de Población y Vivienda del 2010 la codificación fue realizada por 310 personas durante 5 meses. Por lo mencionado, en esta tesis de maestría se desarrolló dos modelos de clasificación para codificar automáticamente las actividades económicas y ocupaciones de investigaciones sociodemográficas del INEC. Para el desarrollo de los modelos se utilizó los algoritmos Xgboost y Redes Neuronales Artificiales de tipo Feedforward y LSTM. Los modelos con mejor rendimiento se obtuvieron usando las Redes Neuronales Feedforward, con una exactitud de 95.18% para actividad económica y 86.85% para ocupaciones. En comparación con la codificación manual, la implementación de los modelos para codificar automáticamente alrededor de 15.000 actividades económicas y ocupaciones permitió reducir el tiempo de días a minutos. Además, considerando un enfoque combinado (automático y manual), en el cual la tasa de error de los modelos fue menor al 5%, el tiempo se redujo a la cuarta parte y la cantidad de personal a la mitad respecto a la codificación manual.
URI: http://bibdigital.epn.edu.ec/handle/15000/25089
Tipo: Trabajo de Integración Curricular
Aparece en las colecciones:Tesis MAESTRÍA EN SISTEMAS DE INFORMACIÓN MENCIÓN INTELIGENCIA DE NEGOCIOS Y ANALÍTICA DE DATOS MASIVOS (FIS)

Ficheros en este ítem:
Fichero Descripción TamañoFormato 
CD 13597.pdf2,9 MBAdobe PDFVisualizar/Abrir


Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.