Por favor, use este identificador para citar o enlazar este ítem: http://bibdigital.epn.edu.ec/handle/15000/25089
Registro completo de metadatos
Campo DCValorLengua/Idioma
dc.contributor.authorMéndez Moreno, Diana Carolina-
dc.contributor.editorBenalcázar Palacios, Marco Enrique-
dc.date.accessioned2023-11-15T20:28:00Z-
dc.date.available2023-11-15T20:28:00Z-
dc.date.issued2023-09-
dc.identifier.citationMéndez Moreno, D.C. (2023). Desarrollo de dos modelos de clasificación usando boosting y redes neuronales para codificar las actividades económicas y ocupaciones de investigaciones sociodemográficas del INEC. 80 páginas. Quito : EPN.es_ES
dc.identifier.otherT-MVE 1075/CD 13597-
dc.identifier.urihttp://bibdigital.epn.edu.ec/handle/15000/25089-
dc.descriptionEn las oficinas estadísticas e instituciones que recopilan datos de las características laborales de las personas, se realiza la codificación de las variables textuales actividad económica y ocupación. Dicha actividad sirve para facilitar el procesamiento de los datos y generar indicadores relevantes para la planificación gubernamental. En el Instituto Nacional de Estadística y Censos de Ecuador (INEC), la codificación es realizada por personas entrenadas para esta actividad. Este tipo de codificación denominada manual requiere de un gran número de personas y puede durar tiempos extensos dependiendo de la cantidad de datos. Por ejemplo, en el Censo de Población y Vivienda del 2010 la codificación fue realizada por 310 personas durante 5 meses. Por lo mencionado, en esta tesis de maestría se desarrolló dos modelos de clasificación para codificar automáticamente las actividades económicas y ocupaciones de investigaciones sociodemográficas del INEC. Para el desarrollo de los modelos se utilizó los algoritmos Xgboost y Redes Neuronales Artificiales de tipo Feedforward y LSTM. Los modelos con mejor rendimiento se obtuvieron usando las Redes Neuronales Feedforward, con una exactitud de 95.18% para actividad económica y 86.85% para ocupaciones. En comparación con la codificación manual, la implementación de los modelos para codificar automáticamente alrededor de 15.000 actividades económicas y ocupaciones permitió reducir el tiempo de días a minutos. Además, considerando un enfoque combinado (automático y manual), en el cual la tasa de error de los modelos fue menor al 5%, el tiempo se redujo a la cuarta parte y la cantidad de personal a la mitad respecto a la codificación manual.es_ES
dc.description.abstractIn statistical offices and institutions that collect data on the labor characteristics of individuals, the textual variables economic activity and occupation are coded. This activity serves to facilitate data processing and generate relevant indicators for government planning. At the National Institute of Statistics and Census of Ecuador (INEC), coding is carried out by people trained for this activity. This type of coding, called manual coding, requires a large number of people and can take a long time depending on the amount of data. For example, in the 2010 Population and Housing Census, coding was performed by 310 people lasting 5 months. Because of this, in this master's thesis two classification models were developed to automatically code the economic activities and occupations of sociodemographic research of INEC. For the development of the models, we used Xgboost and Artificial Neural Networks of Feedforward and LSTM type algorithms. The best performing models were obtained using Feedforward Neural Networks, with an accuracy of 95.18% for economic activity and 86.85% for occupations. Compared to manual coding, the implementation of these models to automatically code around 15,000 economic activities and occupations, allowed the reduction time from days to minutes. Furthermore, considering a combined approach (automatic and manual), in which the error rate of the models was less than 5%, the time was reduced to a quarter regarding manual coding and the number of personnel to half.es_ES
dc.language.isospaes_ES
dc.publisherQuito : EPN, 2023.es_ES
dc.rightsopenAccesses_ES
dc.subjectSISTEMA DE INFORMACIÓNes_ES
dc.subjectCODIFICACIÓN AUTOMÁTICAes_ES
dc.subjectBOOSTINGes_ES
dc.subjectREDES NEURONALESes_ES
dc.subjectCLASIFICACIÓN DEL TEXTOes_ES
dc.titleDesarrollo de dos modelos de clasificación usando boosting y redes neuronales para codificar las actividades económicas y ocupaciones de investigaciones sociodemográficas del INEC.es_ES
dc.typeTrabajo de Integración Curriculares_ES
Aparece en las colecciones:Tesis MAESTRÍA EN SISTEMAS DE INFORMACIÓN MENCIÓN INTELIGENCIA DE NEGOCIOS Y ANALÍTICA DE DATOS MASIVOS (FIS)

Ficheros en este ítem:
Fichero Descripción TamañoFormato 
CD 13597.pdf2,9 MBAdobe PDFVisualizar/Abrir


Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.