Por favor, use este identificador para citar o enlazar este ítem: http://bibdigital.epn.edu.ec/handle/15000/24449
Título: Desarrollo de un corpus paralelo de texto e imágenes en el idioma japonés para futuros trabajos de investigación en procesamiento de lenguaje natural japonés obtenido a través de un corpus referencial y un corpus ocr: generación de un corpus paralelo en el idioma japonés obtenido a través de un corpus referencial y un corpus ocr.
Autor: Rueda Vanegas, Jhoann Sebastián
Palabras clave: ORDENADOR
ARCHIVO OCR
CORPUS
HMM
CRF
DIFF
Fecha de publicación: ago-2022
Editorial: Quito : EPN, 2022.
Citación: Rueda Vanegas, J.S. (2022). Desarrollo de un corpus paralelo de texto e imágenes en el idioma japonés para futuros trabajos de investigación en procesamiento de lenguaje natural japonés obtenido a través de un corpus referencial y un corpus ocr: generación de un corpus paralelo en el idioma japonés obtenido a través de un corpus referencial y un corpus ocr. 38 páginas. Quito : EPN.
Resumen: The present work consists of the investigation on the process to generate a parallel corpus given that data were received in plain text files in Japanese language, the project consists of the cleaning of the data to generate a referential corpus, after that it is sought to pass the data through an OCR tool, in order to generate misspellings due to the process that the OCR tool implements internally. Once the two files, the reference files and those generated by the OCR tool with spelling errors, are normalized both files in order to compare them with the diff tool to determine the similarity that exists between each reference file and its respective OCR file. When the expected similarity percentage is reached, the next part is to align the reference files and the OCR files at line level and this will form the result which is the parallel corpus.
Descripción: El presente trabajo consiste en la investigación sobre el proceso para generar un corpus paralelo dado que se recibieron datos en archivos de texto plano en el idioma japonés, el proyecto consta de la limpieza de los datos para generar un corpus referencial, posterior a ello se busca pasar los datos por una herramienta OCR, con el fin de generar errores ortográficos debido al proceso que implementa internamente la herramienta OCR. Al tener los dos archivos, los de referencia y los generados por la herramienta OCR con errores ortográficos, se normalizan ambos archivos con el fin de compararlos con la herramienta diff para determinar la similitud que existe entre cada archivo referencial y su respectivo archivo OCR. Cuando se alcance el porcentaje de similitud esperado, la siguiente parte es alinear los archivos de referencia y los archivos OCR a nivel de líneas y esto conformará el resultado que es el corpus paralelo.
URI: http://bibdigital.epn.edu.ec/handle/15000/24449
Tipo: bachelorThesis
Aparece en las colecciones:TIC - Ingeniería en Ciencias de la Computación

Ficheros en este ítem:
Fichero Descripción TamañoFormato 
CD 13373.pdf1,25 MBAdobe PDFVisualizar/Abrir


Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.