Por favor, use este identificador para citar o enlazar este ítem:
http://bibdigital.epn.edu.ec/handle/15000/25743
Título: | Detección de ataques de phishing basada en aprendizaje profundo y procesamiento del lenguaje natural. |
Autor: | Benavides Astudillo, Diego Eduardo |
Director: | Fuertes Díaz, Walter Marcelo |
Palabras clave: | INGENIERÍA SOCIAL APRENDIZAJE PROFUNDO LENGUAJE NATURAL INFORMÁTICA |
Fecha de publicación: | 16-ago-2024 |
Editorial: | Quito : EPN, 2024. |
Citación: | Benavides Astudillo, D.E.(2024). Detección de ataques de phishing basada en aprendizaje profundo y procesamiento del lenguaje natural. 116 páginas. Quito : EPN, 2024. |
Resumen: | Phishing is a type of Social Engineering cyber-attack that aims to deceive end users, usually using web pages. The most common method to detect this type of attack is by comparing the URLs with a blacklist of URLs already identified as phishing pages. However, the main problem is when new phishing pages appear that are not registered on the blacklist. Currently, one of the most common ways to detect these previously unidentified phishing pages is by analyzing the content of the web pages, that is, by entering words non sequentially into deep learning algorithms, regardless of the sequence of the text entered in Deep Learning algorithms. The main objective of this thesis is to propose a model that detects phishing attacks based on the text of suspicious web pages, using Deep Learning, Natural Language Processing, and Word Embedding with the GloVe dictionary. In this way, we take advantage of the semantic and syntactic richness of the text on the analyzed page. To achieve the main objective, we conducted a literature review, evaluated people’s personality and behavioral traits, and implemented, evaluated, and refined the phishing detection model. Finally, we made a Chrome extension called NDLP to detect these attacks. It was determined that the model works because the four evaluated algorithms, LSTM, BiLSTM, GRU, and BiGRU, obtained over 96.70% mean accuracy, and the algorithm that gave the best results was BiGRU, which achieved 97.39%. |
Descripción: | Phishing es un tipo de ciberataque de Ingeniería Social que tiene como objetivo engañar a los usuarios finales, normalmente utilizando páginas web. El método más común para detectar a este tipo de ataques es por medio de comparar las direcciones URLs con una blacklist de URLs ya identificadas como páginas de phishing. Sin embargo, el principal problema es cuando aparecen páginas de phishing nuevas no registradas en la blacklist. Actualmente, una de las formas más comunes de detectar estas páginas de phishing no identificadas con anterioridad, es analizando el contenido de las páginas web, es decir, ingresando palabras de forma no secuencial en algoritmos de aprendizaje profundo, sin importar la secuencia del texto ingresado en los algoritmos de Deep Learning. El objetivo general de esta tesis es proponer un modelo que detecte ataques de phishing basándose en el texto de páginas web sospechosas, utilizando Deep Learning, Procesamiento de Lenguaje Natural y Word Embedding con GloVe dictionary. De esta forma aprovechamos la riqueza semántica y sintáctica del texto de la página analizada. Para lograr nuestro objetivo se realizó una revisión de la literatura, se evaluaron los rasgos de personalidad y comportamiento de las personas, se implementó y afinó el modelo de detección de phishing, y finalmente se hizo una extensión en Chrome llamada NDLP para detectar estos ataques. Se determinó que el modelo funciona pues los cuatro algoritmos evaluados LSTM, BiLSTM, GRU, and BiGRU obtuvieron sobre el 96.70% de mean accuracy, y que el algoritmo que dio mejores resultados fue BiGRU que logró 97.39%. de mean accuracy. |
URI: | http://bibdigital.epn.edu.ec/handle/15000/25743 |
Tipo: | doctoralThesis |
Aparece en las colecciones: | Tesis Doctorado en Informática (FIS) |
Ficheros en este ítem:
Fichero | Descripción | Tamaño | Formato | |
---|---|---|---|---|
CD 14381.pdf | 5,95 MB | Adobe PDF | Visualizar/Abrir |
Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.