Bitte benutzen Sie diese Kennung, um auf die Ressource zu verweisen: http://bibdigital.epn.edu.ec/handle/15000/23425
Titel: Desarrollo de un corpus paralelo de texto e imágenes en el idioma japonés para futuros trabajos de investigación en procesamiento de lenguaje natural : creación de un corpus paralelo para el idioma japonés.
Autor(en): Carrión Zelaya, Eduardo Benjamin
Stichwörter: COMPUTACIÓN
CORPUS PARALELO
ALINEACIÓN
CORPUS JAPONÉS
GENERACIÓN DE IMÁGENES
Erscheinungsdatum: Okt-2022
Herausgeber: Quito : EPN, 2022.
Zitierform: Carrión Zelaya, E. B.(2022).Desarrollo de un corpus paralelo de texto e imágenes en el idioma japonés para futuros trabajos de investigación en procesamiento de lenguaje natural : creación de un corpus paralelo para el idioma japonés. 30 páginas. Quito : EPN.
Zusammenfassung: The presented work aims at creating a parallel corpus of Japanese texts. This corpus starts with a set of files that go through an initial cleaning that produces the reference corpus. Based on this corpus, a parallel corpus is obtained with the insertion of spelling errors. These errors are simulated by what is known as a noisy channel. An OCR system is used to simulate this noisy channel. The errors of this OCR system represent the noisy channel. Following the error production process, an alignment is performed in order to have a localization of the produced errors.
Beschreibung: Él trabajo presentdo tiene como fin la creación de un corpus paralelo constituido por textos en Japones. Este corpus inicia con un conjunto de archivos que pasan por una limpieza inicial para producir el corpus de referencia. En base a este corpus se busca obtener otro corpus paralelo con la inserción de errores de tipo ortográfico. Estos errores son simulados por lo que se conoce como un canal ruidoso. Para la simulación de este canal ruidoso se hace uso de un sistema OCR ya a que los fallos de este sistema representan el canal ruidoso. A continuación del proceso de producción de errores se realiza un alineamiento para poder tener una localización de los errores producidos.
URI: http://bibdigital.epn.edu.ec/handle/15000/23425
Art: bachelorThesis
Enthalten in den Sammlungen:TIC - Ingeniería en Ciencias de la Computación

Dateien zu dieser Ressource:
Datei Beschreibung GrößeFormat 
CD 12836.pdf1,38 MBAdobe PDFÖffnen/Anzeigen


Alle Ressourcen in diesem Repository sind urheberrechtlich geschützt.