Generación de un conjunto de datos sintéticos mediante técnicas de aprendizaje automático para análisis de fraude

Narváez Tello, Carlos Andrés; Olmedo Vélez, Verónica Elizabeth

Please use this identifier to cite or link to this item: http://bibdigital.epn.edu.ec/handle/15000/21567

Title:	Generación de un conjunto de datos sintéticos mediante técnicas de aprendizaje automático para análisis de fraude
Authors:	Narváez Tello, Carlos Andrés Olmedo Vélez, Verónica Elizabeth
Keywords:	INTELIGENCIA ARTIFICIAL SISTEMAS INFORMÁTICOS REDES NEURONALES
Issue Date:	31-Mar-2021
Publisher:	Quito, 2021.
Citation:	Narváez Tello, C. A. & Olmedo Vélez, V. E. (2021). Generación de un conjunto de datos sintéticos mediante técnicas de aprendizaje automático para análisis de fraude. 70 hojas. Quito : EPN.
Abstract:	Today, fraud-related activities are growing at a dizzying rate, causing substantial economic losses every year. For an adequate analysis of this phenomenon, it is necessary to have data that evidences this behavior, but since these are scarce and difficult to find, the gene- ration of synthetic data for its study is a viable option. Machine Learning (ML) techniques were used for the generation of text, specifically deep learning models such as Recurrent Neural Network (RNN) and Long Short Term Memory Networks (LSTM) supported by the theory of the fraud triangle proposed by Donald R. Cressey, to build a synthetic data set that allows its analysis. The RNN works with many copies of itself; each sends a message to its successor, which reduces precision when generating sentences; besides, it faces the disappearance gradient problem. The LSTM model aims to solve this problem; these networks can maintain long-term interrelationships by expanding their memory to learn from past experiences, making them perfect for generating text. The results obtained indicate that the data generation architecture proposed using the LSTM algorithm provides better sentence generation performances. The data’s readability is superior with an efficiency of 70 % compared to the RNN algorithm approach reached 40 %. Using this technique (LSTM), it was possible to synthesize a set of understandable data related to the fraud triangle to allow the fraud study to be carried out effectively.
Description:	En la actualidad, actividades relacionadas con fraude crecen a un ritmo vertiginoso, causan- do enormes pérdidas económicas cada año. Para un adecuado análisis de este fenómeno es necesario disponer de datos que evidencien dicho comportamiento, pero debido a que estos son escasos y difíciles de encontrar la generación de datos sintéticos para su estudio es una opción que se debe considerar. Para la generación de texto, se usaron técnicas de Machine Learning (ML), específicamente modelos de aprendizaje profundo como Recurrent Neural Network (RNN) y Long Short Term Memory Networks (LSTM) apoyados en la teoría del triángulo del fraude propuesta por Donald R. Cressey, para construir un con- junto de datos sintético que permita su análisis. La RNN trabaja con múltiples copias de sí misma, cada una emite un mensaje a su sucesor, lo que resta precisión al momento de generar frases, además, enfrenta el problema del gradiente de desaparición. El modelo LSTM se propone para resolver este problema, porque estas redes son capaces de mantener interrelaciones a largo plazo al ampliar su memoria para aprender de experiencias pasadas, lo que las hace perfectas para generar texto. Los resultados obtenidos indican que la arquitectura de generación de datos propuesta mediante el algoritmo LSTM proporciona un mejor rendimiento en la generación de frases y la legibilidad de los datos es superior con una eficiencia del 70 % en comparación con el enfoque del algoritmo RNN la cual alcanzó un 40 %. Mediante esta técnica (LSTM) se logró sintetizar un conjunto de datos entendible y relacionado con el triángulo del fraude que permitirá realizar el estudio del fraude con efectividad.
URI:	http://bibdigital.epn.edu.ec/handle/15000/21567
Type:	bachelorThesis
Appears in Collections:	Tesis Sistemas Informáticos y de Computación (ISIS)

Files in This Item:

File	Description	Size	Format
CD 11066.pdf		5,99 MB	Adobe PDF	View/Open

Show full item record

BIBDIGITAL