Por favor, use este identificador para citar o enlazar este ítem: http://bibdigital.epn.edu.ec/handle/15000/22525
Título: Análisis y diseño de un modelo predictivo para detección de phishing basado en url y corpus del correo electrónico.
Autor: Albán Toapanta, Dolores Fernanda
Palabras clave: PHISHING
ATAQUES CIBERNÉTICOS
INFORMÁTICA
Fecha de publicación: feb-2022
Editorial: Quito : EPN, 2022
Citación: Albán Toapanta, D.F. (2022). Análisis y diseño de un modelo predictivo para detección de phishing basado en url y corpus del correo electrónico. 117 páginas. Quito : EPN.
Resumen: One of the most reported cybercrimes worldwide is phishing, for this reason, various anti-phishing systems (APS) are currently being developed to identify this attack in online communication systems. Despite the best efforts, this attack continues unabated, having as causes, the erroneous detection in the zero-day attack, the high computational cost and the high rates of forgery. Although the Machine Learning (ML) approach has achieved a favorable accuracy rate, the choice and performance of the feature vector should be considered a key point to obtain a high level of accuracy. In this work, we propose a predictive model based on ML and analyze the efficiency of some anti-phishing schemes that served to understand this issue. The proposed model consists of a feature selection module that is used for the construction of the final vector. These characteristics are extracted from the URL, the web page properties and the email corpus, using a system based on incremental components to present the resulting vector. The system uses classification models, Random Forest and Naïve Bayes, which have been trained on the vector of traits. The experiments were based on datasets comprised of phishing and benign instances. Using cross-validation, the experimental results indicate a precision of 97.5% for the bases mentioned in other works, while for the approach of this research at the local level a precision of 96.5% was obtained.
Descripción: Uno de los delitos cibernéticos más reportados a nivel mundial es el phishing, por esta razón, actualmente se está desarrollando diversos sistemas anti-phishing (APS) para identificar este ataque en sistemas de comunicación en línea. A pesar de los esfuerzos, este ataque continúa sin cesar, teniendo como causas: la detección errónea en el ataque de día cero, el alto costo computacional y las tasas altas de falsificación. Aunque el enfoque de Machine Learning (ML) ha logrado una tasa de precisión favorable, se debe considerar que la elección y el rendimiento del vector de características es un punto clave para obtener un nivel de precisión elevado. En este trabajo, proponemos un modelo predictivo basado en ML y analizar la eficiencia de algunos esquemas anti-phishing que sirvieron para entender esta temática. El modelo propuesto consta de un módulo de selección de características que se utiliza para la construcción del vector final. Estas características se extraen de la URL, las propiedades de la página web y del corpus de correo electrónico, utilizando un sistema basado en componentes incrementales para presentar el vector resultante. El sistema utiliza modelos de clasificación, Random Forest y Naïve Bayes, que han sido entrenados en el vector de rasgos. Los experimentos se basaron en dataset compuestas por instancias de phishing y benignas. Utilizando la validación cruzada, los resultados experimentales indican una precisión del 97,5% para las bases mencionadas en otros trabajos, mientras que para el abordaje de esta investigación a nivel local se obtuvo una precisión del 96,5%.
URI: http://bibdigital.epn.edu.ec/handle/15000/22525
Tipo: bachelorThesis
Aparece en las colecciones:Tesis Matemáticas (MAT)

Ficheros en este ítem:
Fichero Descripción TamañoFormato 
CD 12024.pdf1,44 MBAdobe PDFVisualizar/Abrir


Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.