Desarrollo de un modelo clasificador de malware con algoritmos de aprendizaje automático.

Portilla Jaimes, Jaime Andres.

Repositorio Institucional

Universidad de Pamplona

Preservamos, organizamos y difundimos la producción académica, científica, investigativa y cultural de la Universidad de Pamplona, garantizando el acceso abierto al conocimiento generado por nuestra comunidad universitaria.

Explorar colecciones

Por favor, use este identificador para citar o enlazar este ítem: https://repositoriodspace.unipamplona.edu.co/jspui/handle/20.500.12744/754

Título :	Desarrollo de un modelo clasificador de malware con algoritmos de aprendizaje automático.
Autor :	Portilla Jaimes, Jaime Andres.
Palabras clave :	Defense in depth. Network security. Perimeter security. Intrusion detection. DoS and DDoS attack detection. Network traffic analysis. Machine Learning algorithms: Multiclass Classification.
Fecha de publicación :	2022
Editorial :	Universidad de Pamplona – Facultad de Ingenierías y Arquitectura.
Citación :	Portilla Jaimes, J. A. (2021). Desarrollo de un modelo clasificador de malware con algoritmos de aprendizaje automático [Trabajo de Grado Pregrado, Universidad de Pamplona]. Repositorio Hulago Universidad de Pamplona. http://repositoriodspace.unipamplona.edu.co/jspui/handle/20.500.12744/754
Resumen :	The technologies, processes, methodologies, tools and tactics contemplated by defense in depth (DiD) and specifically in its two layers of network security and perimeter security, require skills to timely control periodic cybercrime threats in an increasingly broad landscape of vulnerabilities and attacks. Just considering the DoS and DDoS distributed denial of service attacks, which are characterized in this project, results in the end with a dataset of 10 different families or classes of DoS and DDoS attacks, which together with benign traffic is sought to detect and classify into eleven 11 multiclasses by using techniques based on supervised machine learning (Machine Learning). The labeled dataset, is a collection of the years 2017, 2018 and 2019, which contains the attributes of the captured network traffic and is used with CICFlowMeter provided by researchers from Canadian Institute for Cybersecurity of University of New Brunswick CIC - UNB, and whose data is suitable to be the input data for the algorithms and machine learning techniques to be implemented in this project. A multiclass detector and classifier model was designed thanks to the learning of 20 different algorithms, trained and applying cross validation to know their performance and behavior, discarding most of them, and settling on only five algorithms: Random Forests RF, Extreme Tree ET, Decision Tree DT and 2 different ways of applying the novel XGBoost. Thus, data that is not part of the training set, has not been seen, and has real labels given, are evaluated by means of metrics and performance results, to obtain the best of the five. The results obtained from the best of the five learning algorithms, corresponds to the Random Forests. Thus, we have managed to obtain in our final model design a performance, very good judging the reader himself. First with the normal test data set 10% of the total set, for a total of 1'359,628 network traffic flows: accuracy[f1- socre] of 1.00; macro avg[precision] 0.98; macro avg[recall] 0.99; macro avg[f1- socre] 0.98; weighted avg[precision] 1.00; weighted avg[recall] 1.00; weighted avg[f1-socre] 1.00. With a logistic loss lloss_RF of 0.0656859. Hamming loss of 0.0045166.
Descripción :	Las tecnologías, procesos, metodologías, herramientas y tácticas que contempla la defensa en profundidad (DiD) y específicamente en sus dos capas de seguridad de las redes y seguridad perimetral, requieren habilidades para controlar oportunamente periódicas amenazas del cibercrimen en un panorama cada vez más amplio ante vulnerabilidades y ataques. Solo considerando los ataques de denegación de servicios DoS y distribuidos DDoS, que se caracterizan en este proyecto, resulta al final con un conjunto de datos de 10 familias o clases diferentes de ataques DoS y DDoS, que junto a un tráfico benigno se busca detectar y clasificar en once 11 multiclases mediante el uso de técnicas basadas en aprendizaje automático supervisado (Machine Learning). El conjunto de datos etiquetado, es una colección de los años 2017, 2018 y 2019, que contiene los atributos del tráfico de red capturado y es usado con CICFlowMeter proveído por investigadores de Canadian Institute for Cybersecurity de University of New Brunswick CIC – UNB, y cuyos datos están aptos para ser la data de entrada de los algoritmos y técnicas de aprendizaje automático a implementar en este proyecto. Se diseñó un modelo detector y clasificador multiclase gracias al aprendizaje de 20 algoritmos diferentes, entrenados y aplicando validación cruzada para conocer su desempeño y comportamiento, descartando la mayoría, y estableciéndonos en solo 5 algoritmos: Bosques Aleatorios RF, Árbol Extremo ET, Árbol de Decisión DT y 2 formas diferentes de aplicar el novedoso XGBoost. Así, se evalúan mediante métricas y resultados de rendimiento, data que no hace parte del conjunto de entrenamiento, no ha sido vista, y que cuenta con etiquetas reales dadas, para obtener en el mejor de ellos los 5. Los resultados obtenidos del mejor de los 5 algoritmos de aprendizaje, corresponde al de Bosques Aleatorios. Así se ha logrado obtener en nuestro diseño de modelo final un rendimiento, muy bueno juzgando el lector mismo. Primero con el conjunto de datos de prueba normal 10% del conjunto total, para un total de 1’359.628 flujos de tráfico de red: accuracy[f1-socre] de 1.00; macro avg[precision] 0,98; macro avg[recall] 0,99; macro avg[f1-socre] 0,98; weighted avg[precision] 1,00; weighted avg[recall] 1,00; weighted avg[f1-socre] 1,00. Con una Perdida logistica lloss_RF de 0.0656859. Perdida de Hamming de 0.0045166.
URI :	http://repositoriodspace.unipamplona.edu.co/jspui/handle/20.500.12744/754
Aparece en las colecciones:	Ingeniería en Telecomunicaciones

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
Portilla_2021_TG.pdf	Portilla_2021_TG	5,83 MB	Adobe PDF	Visualizar/Abrir

Mostrar el registro Dublin Core completo del ítem