Por favor, use este identificador para citar o enlazar este ítem: http://bibdigital.epn.edu.ec/handle/15000/21567
Título: Generación de un conjunto de datos sintéticos mediante técnicas de aprendizaje automático para análisis de fraude
Autor: Narváez Tello, Carlos Andrés
Olmedo Vélez, Verónica Elizabeth
Palabras clave: INTELIGENCIA ARTIFICIAL
SISTEMAS INFORMÁTICOS
REDES NEURONALES
Fecha de publicación: 31-mar-2021
Editorial: Quito, 2021.
Citación: Narváez Tello, C. A. & Olmedo Vélez, V. E. (2021). Generación de un conjunto de datos sintéticos mediante técnicas de aprendizaje automático para análisis de fraude. 70 hojas. Quito : EPN.
Resumen: Today, fraud-related activities are growing at a dizzying rate, causing substantial economic losses every year. For an adequate analysis of this phenomenon, it is necessary to have data that evidences this behavior, but since these are scarce and difficult to find, the gene- ration of synthetic data for its study is a viable option. Machine Learning (ML) techniques were used for the generation of text, specifically deep learning models such as Recurrent Neural Network (RNN) and Long Short Term Memory Networks (LSTM) supported by the theory of the fraud triangle proposed by Donald R. Cressey, to build a synthetic data set that allows its analysis. The RNN works with many copies of itself; each sends a message to its successor, which reduces precision when generating sentences; besides, it faces the disappearance gradient problem. The LSTM model aims to solve this problem; these networks can maintain long-term interrelationships by expanding their memory to learn from past experiences, making them perfect for generating text. The results obtained indicate that the data generation architecture proposed using the LSTM algorithm provides better sentence generation performances. The data’s readability is superior with an efficiency of 70 % compared to the RNN algorithm approach reached 40 %. Using this technique (LSTM), it was possible to synthesize a set of understandable data related to the fraud triangle to allow the fraud study to be carried out effectively.
Descripción: En la actualidad, actividades relacionadas con fraude crecen a un ritmo vertiginoso, causan- do enormes pérdidas económicas cada año. Para un adecuado análisis de este fenómeno es necesario disponer de datos que evidencien dicho comportamiento, pero debido a que estos son escasos y difíciles de encontrar la generación de datos sintéticos para su estudio es una opción que se debe considerar. Para la generación de texto, se usaron técnicas de Machine Learning (ML), específicamente modelos de aprendizaje profundo como Recurrent Neural Network (RNN) y Long Short Term Memory Networks (LSTM) apoyados en la teoría del triángulo del fraude propuesta por Donald R. Cressey, para construir un con- junto de datos sintético que permita su análisis. La RNN trabaja con múltiples copias de sí misma, cada una emite un mensaje a su sucesor, lo que resta precisión al momento de generar frases, además, enfrenta el problema del gradiente de desaparición. El modelo LSTM se propone para resolver este problema, porque estas redes son capaces de mantener interrelaciones a largo plazo al ampliar su memoria para aprender de experiencias pasadas, lo que las hace perfectas para generar texto. Los resultados obtenidos indican que la arquitectura de generación de datos propuesta mediante el algoritmo LSTM proporciona un mejor rendimiento en la generación de frases y la legibilidad de los datos es superior con una eficiencia del 70 % en comparación con el enfoque del algoritmo RNN la cual alcanzó un 40 %. Mediante esta técnica (LSTM) se logró sintetizar un conjunto de datos entendible y relacionado con el triángulo del fraude que permitirá realizar el estudio del fraude con efectividad.
URI: http://bibdigital.epn.edu.ec/handle/15000/21567
Tipo: bachelorThesis
Aparece en las colecciones:Tesis Sistemas Informáticos y de Computación (ISIS)

Ficheros en este ítem:
Fichero Descripción TamañoFormato 
CD 11066.pdf5,99 MBAdobe PDFVisualizar/Abrir


Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.