Por favor, use este identificador para citar o enlazar este ítem: http://bibdigital.epn.edu.ec/handle/15000/21828
Título: Construcción de una base de datos para análisis del diseño de página de documentos digitales.
Autor: Gallardo Albarracín, Marco Fernando
Palabras clave: DOCUMENTOS
PROCESAMIENTO DIGITAL DE IMÁGENES
Fecha de publicación: 1-sep-2021
Editorial: Quito, 2021
Citación: Gallardo Albarracín, M. F. (2021). Construcción de una base de datos para análisis del diseño de página de documentos digitales. 77 hojas. Quito : EPN.
Resumen: The present work waises the creation of a Data Set for the document layout analysis (DLA) by automatic annotation. The objectives of the project were met through a five-phase methodology: collection of base files, preprocessing, data extraction, cleaning of the data set and creating the data sheet. The collection of base files considered a significant number of scientific articles from the free digital repository arxiv.com (in .tex format) by its varied content of tables, figures, images, equations, among others. The discharged elements were adapted (preprocessing), for which each section is colored to extract the information of 12 types of regions present in the document wording. By automatic annotation, the data extraction process was carried out, where the digital image processing techniques are highlighted (e.g., arithmetic operations between images and morphological processing). The resulting data have been validated by collaborators and in relevant cases the records have been cleaned. Finally, the data set has a data sheet with relevant information in decision making for potential users such as: motivation, composition, uses, maintenance, etc.
Descripción: El presente trabajo de titulación plantea la creación de un conjunto de datos para el análisis del diseño de página de documentos (DLA) mediante anotación automática. Los objetivos del proyecto se cumplieron mediante una metodología de cinco fases: Recolección de archivos base, Preprocesamiento, Extracción de datos, Limpieza del conjunto de datos y Creación de la hoja de datos. La recolección de archivos base consideró un número importante de artículos científicos del repositorio digital libre Arxiv.com (en formato .tex) por su variado contenido de tablas, figuras, imágenes, ecuaciones, entre otros. Se adecuaron los elementos descargados (Preprocesamiento), resaltando con color cada sección para extraer la información de 12 tipos de regiones presentes en la redacción de documentos. Mediante anotación automática se realizó el proceso de extracción de datos, en donde se destacan las técnicas de procesamiento digital de imágenes (e.g., operaciones aritméticas entre imágenes y procesamiento morfológico). Los datos resultantes se han validado por anotadores humanos y en los casos pertinentes los registros se han limpiado. Finalmente, el conjunto de datos se acompaña por una hoja de datos con información relevante en la toma de decisiones de los posibles usuarios como: motivación, composición, usos, mantenimiento, etc.
URI: http://bibdigital.epn.edu.ec/handle/15000/21828
Tipo: bachelorThesis
Aparece en las colecciones:Tesis Electrónica y Telecomunicaciones (IET)

Ficheros en este ítem:
Fichero Descripción TamañoFormato 
CD 11318.pdf1,64 MBAdobe PDFVisualizar/Abrir


Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.