Por favor, use este identificador para citar o enlazar este ítem: http://bibdigital.epn.edu.ec/handle/15000/25350
Título: Desarrollo y aplicación de un modelo computacional para el procesamiento de lenguaje natural : detección de errores ortográficos en textos obtenidos por reconocimiento de caracteres ópticos (OCR) mediante Representaciones de Codificador Bidireccional de Transformers (BERT).
Autor: Chilán Rivera, Michael Leonardo
Palabras clave: CIENCIAS DE LA COMPUTACIÓN
MODELO COMPUTACIONAL
RECONOCIMIENTO DE CARACTERES ÓPTICOS
DETECCIÓN DE ERRORES ORTOGRÁFICOS
Fecha de publicación: 8-abr-2024
Editorial: Quito : EPN, 2024.
Citación: Chilán Rivera, M.L.(2024).Desarrollo y aplicación de un modelo computacional para el procesamiento de lenguaje natural : detección de errores ortográficos en textos obtenidos por reconocimiento de caracteres ópticos (OCR) mediante Representaciones de Codificador Bidireccional de Transformers (BERT).78 páginas. Quito : EPN, 2024.
Resumen: This work focuses on natural language processing (NLP) tasks, specifically addressing the processing and alignment of a parallel corpus by identifying the necessary tags for applications in the development of a supervised model for detecting spelling errors obtained through an OCT tool. To achieve this goal, the Fine-Tuning technique is applied to leverage the encoder of a pre-trained Transformer architecture model, known as Bidirectional Encoder of Transformers (BERT). In this manner, the model is utilized to process information and contextualize the received data, forming a specific architecture for the decoder. The decoder is constructed with the required layers to structure the classification layer, which aims to assign classes accordingly to words, categorizing then as either correct or incorrect.
Descripción: El presente trabajo está enfocado en el procesamiento de lenguaje natural (NLP), abordando las tareas de procesamiento y alineación de un corpus paralelo identificando las etiquetas que son requeridas para aplicarlas en el desarrollo del modelo supervisado para la Detección de errores ortográficos obtenidos mediante una herramienta OCR. Para cumplir con este enfoque, se aplica la técnica del Ajuste Fino para aprovechar el codificador de un modelo previamente entrenado de arquitectura Transformer, conocido como Codificador Bidireccional de Transformers BERT. De esta manera se utiliza el modelo para procesar la información y contextualizar los datos que recibe, formando una arquitectura específica para el decodificador que está conformado con las capas requeridas para la estructuración de la capa clasificadora, la cual tiene como objetivo asignar las clases según corresponda a las palabras, clases que están catalogadas como correctas e incorrectas.
URI: http://bibdigital.epn.edu.ec/handle/15000/25350
Tipo: Trabajo de Integración Curricular
Aparece en las colecciones:TIC - Ingeniería en Ciencias de la Computación

Ficheros en este ítem:
Fichero Descripción TamañoFormato 
CD 14032.pdf2,54 MBAdobe PDFVisualizar/Abrir


Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.