Please use this identifier to cite or link to this item:
http://bibdigital.epn.edu.ec/handle/15000/23425
Title: | Desarrollo de un corpus paralelo de texto e imágenes en el idioma japonés para futuros trabajos de investigación en procesamiento de lenguaje natural : creación de un corpus paralelo para el idioma japonés. |
Authors: | Carrión Zelaya, Eduardo Benjamin |
Keywords: | COMPUTACIÓN CORPUS PARALELO ALINEACIÓN CORPUS JAPONÉS GENERACIÓN DE IMÁGENES |
Issue Date: | Oct-2022 |
Publisher: | Quito : EPN, 2022. |
Citation: | Carrión Zelaya, E. B.(2022).Desarrollo de un corpus paralelo de texto e imágenes en el idioma japonés para futuros trabajos de investigación en procesamiento de lenguaje natural : creación de un corpus paralelo para el idioma japonés. 30 páginas. Quito : EPN. |
Abstract: | The presented work aims at creating a parallel corpus of Japanese texts. This corpus starts with a set of files that go through an initial cleaning that produces the reference corpus. Based on this corpus, a parallel corpus is obtained with the insertion of spelling errors. These errors are simulated by what is known as a noisy channel. An OCR system is used to simulate this noisy channel. The errors of this OCR system represent the noisy channel. Following the error production process, an alignment is performed in order to have a localization of the produced errors. |
Description: | Él trabajo presentdo tiene como fin la creación de un corpus paralelo constituido por textos en Japones. Este corpus inicia con un conjunto de archivos que pasan por una limpieza inicial para producir el corpus de referencia. En base a este corpus se busca obtener otro corpus paralelo con la inserción de errores de tipo ortográfico. Estos errores son simulados por lo que se conoce como un canal ruidoso. Para la simulación de este canal ruidoso se hace uso de un sistema OCR ya a que los fallos de este sistema representan el canal ruidoso. A continuación del proceso de producción de errores se realiza un alineamiento para poder tener una localización de los errores producidos. |
URI: | http://bibdigital.epn.edu.ec/handle/15000/23425 |
Type: | bachelorThesis |
Appears in Collections: | TIC - Ingeniería en Ciencias de la Computación |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
CD 12836.pdf | 1,38 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.