Por favor, use este identificador para citar o enlazar este ítem: http://bibdigital.epn.edu.ec/handle/15000/23425
Título: Desarrollo de un corpus paralelo de texto e imágenes en el idioma japonés para futuros trabajos de investigación en procesamiento de lenguaje natural : creación de un corpus paralelo para el idioma japonés.
Autor: Carrión Zelaya, Eduardo Benjamin
Palabras clave: COMPUTACIÓN
CORPUS PARALELO
ALINEACIÓN
CORPUS JAPONÉS
GENERACIÓN DE IMÁGENES
Fecha de publicación: oct-2022
Editorial: Quito : EPN, 2022.
Citación: Carrión Zelaya, E. B.(2022).Desarrollo de un corpus paralelo de texto e imágenes en el idioma japonés para futuros trabajos de investigación en procesamiento de lenguaje natural : creación de un corpus paralelo para el idioma japonés. 30 páginas. Quito : EPN.
Resumen: The presented work aims at creating a parallel corpus of Japanese texts. This corpus starts with a set of files that go through an initial cleaning that produces the reference corpus. Based on this corpus, a parallel corpus is obtained with the insertion of spelling errors. These errors are simulated by what is known as a noisy channel. An OCR system is used to simulate this noisy channel. The errors of this OCR system represent the noisy channel. Following the error production process, an alignment is performed in order to have a localization of the produced errors.
Descripción: Él trabajo presentdo tiene como fin la creación de un corpus paralelo constituido por textos en Japones. Este corpus inicia con un conjunto de archivos que pasan por una limpieza inicial para producir el corpus de referencia. En base a este corpus se busca obtener otro corpus paralelo con la inserción de errores de tipo ortográfico. Estos errores son simulados por lo que se conoce como un canal ruidoso. Para la simulación de este canal ruidoso se hace uso de un sistema OCR ya a que los fallos de este sistema representan el canal ruidoso. A continuación del proceso de producción de errores se realiza un alineamiento para poder tener una localización de los errores producidos.
URI: http://bibdigital.epn.edu.ec/handle/15000/23425
Tipo: bachelorThesis
Aparece en las colecciones:TIC - Ingeniería en Ciencias de la Computación

Ficheros en este ítem:
Fichero Descripción TamañoFormato 
CD 12836.pdf1,38 MBAdobe PDFVisualizar/Abrir


Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.