Please use this identifier to cite or link to this item: http://bibdigital.epn.edu.ec/handle/15000/25350
Title: Desarrollo y aplicación de un modelo computacional para el procesamiento de lenguaje natural : detección de errores ortográficos en textos obtenidos por reconocimiento de caracteres ópticos (OCR) mediante Representaciones de Codificador Bidireccional de Transformers (BERT).
Authors: Chilán Rivera, Michael Leonardo
Keywords: CIENCIAS DE LA COMPUTACIÓN
MODELO COMPUTACIONAL
RECONOCIMIENTO DE CARACTERES ÓPTICOS
DETECCIÓN DE ERRORES ORTOGRÁFICOS
Issue Date: 8-Apr-2024
Publisher: Quito : EPN, 2024.
Citation: Chilán Rivera, M.L.(2024).Desarrollo y aplicación de un modelo computacional para el procesamiento de lenguaje natural : detección de errores ortográficos en textos obtenidos por reconocimiento de caracteres ópticos (OCR) mediante Representaciones de Codificador Bidireccional de Transformers (BERT).78 páginas. Quito : EPN, 2024.
Abstract: This work focuses on natural language processing (NLP) tasks, specifically addressing the processing and alignment of a parallel corpus by identifying the necessary tags for applications in the development of a supervised model for detecting spelling errors obtained through an OCT tool. To achieve this goal, the Fine-Tuning technique is applied to leverage the encoder of a pre-trained Transformer architecture model, known as Bidirectional Encoder of Transformers (BERT). In this manner, the model is utilized to process information and contextualize the received data, forming a specific architecture for the decoder. The decoder is constructed with the required layers to structure the classification layer, which aims to assign classes accordingly to words, categorizing then as either correct or incorrect.
Description: El presente trabajo está enfocado en el procesamiento de lenguaje natural (NLP), abordando las tareas de procesamiento y alineación de un corpus paralelo identificando las etiquetas que son requeridas para aplicarlas en el desarrollo del modelo supervisado para la Detección de errores ortográficos obtenidos mediante una herramienta OCR. Para cumplir con este enfoque, se aplica la técnica del Ajuste Fino para aprovechar el codificador de un modelo previamente entrenado de arquitectura Transformer, conocido como Codificador Bidireccional de Transformers BERT. De esta manera se utiliza el modelo para procesar la información y contextualizar los datos que recibe, formando una arquitectura específica para el decodificador que está conformado con las capas requeridas para la estructuración de la capa clasificadora, la cual tiene como objetivo asignar las clases según corresponda a las palabras, clases que están catalogadas como correctas e incorrectas.
URI: http://bibdigital.epn.edu.ec/handle/15000/25350
Type: Trabajo de Integración Curricular
Appears in Collections:TIC - Ingeniería en Ciencias de la Computación

Files in This Item:
File Description SizeFormat 
CD 14032.pdf2,54 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.