• Repositorio Institucional Universidad de Pamplona
  • Trabajos de pregrado y especialización
  • Facultad de Ingenierías y Arquitectura
  • Ingeniería en Telecomunicaciones
  • Please use this identifier to cite or link to this item: http://repositoriodspace.unipamplona.edu.co/jspui/handle/20.500.12744/754
    Title: Desarrollo de un modelo clasificador de malware con algoritmos de aprendizaje automático.
    Authors: Portilla Jaimes, Jaime Andres.
    Keywords: Defense in depth.
    Network security.
    Perimeter security.
    Intrusion detection.
    DoS and DDoS attack detection.
    Network traffic analysis.
    Machine Learning algorithms: Multiclass Classification.
    Issue Date: 2022
    Publisher: Universidad de Pamplona – Facultad de Ingenierías y Arquitectura.
    Citation: Portilla Jaimes, J. A. (2021). Desarrollo de un modelo clasificador de malware con algoritmos de aprendizaje automático [Trabajo de Grado Pregrado, Universidad de Pamplona]. Repositorio Hulago Universidad de Pamplona. http://repositoriodspace.unipamplona.edu.co/jspui/handle/20.500.12744/754
    Abstract: The technologies, processes, methodologies, tools and tactics contemplated by defense in depth (DiD) and specifically in its two layers of network security and perimeter security, require skills to timely control periodic cybercrime threats in an increasingly broad landscape of vulnerabilities and attacks. Just considering the DoS and DDoS distributed denial of service attacks, which are characterized in this project, results in the end with a dataset of 10 different families or classes of DoS and DDoS attacks, which together with benign traffic is sought to detect and classify into eleven 11 multiclasses by using techniques based on supervised machine learning (Machine Learning). The labeled dataset, is a collection of the years 2017, 2018 and 2019, which contains the attributes of the captured network traffic and is used with CICFlowMeter provided by researchers from Canadian Institute for Cybersecurity of University of New Brunswick CIC - UNB, and whose data is suitable to be the input data for the algorithms and machine learning techniques to be implemented in this project. A multiclass detector and classifier model was designed thanks to the learning of 20 different algorithms, trained and applying cross validation to know their performance and behavior, discarding most of them, and settling on only five algorithms: Random Forests RF, Extreme Tree ET, Decision Tree DT and 2 different ways of applying the novel XGBoost. Thus, data that is not part of the training set, has not been seen, and has real labels given, are evaluated by means of metrics and performance results, to obtain the best of the five. The results obtained from the best of the five learning algorithms, corresponds to the Random Forests. Thus, we have managed to obtain in our final model design a performance, very good judging the reader himself. First with the normal test data set 10% of the total set, for a total of 1'359,628 network traffic flows: accuracy[f1- socre] of 1.00; macro avg[precision] 0.98; macro avg[recall] 0.99; macro avg[f1- socre] 0.98; weighted avg[precision] 1.00; weighted avg[recall] 1.00; weighted avg[f1-socre] 1.00. With a logistic loss lloss_RF of 0.0656859. Hamming loss of 0.0045166.
    Description: Las tecnologías, procesos, metodologías, herramientas y tácticas que contempla la defensa en profundidad (DiD) y específicamente en sus dos capas de seguridad de las redes y seguridad perimetral, requieren habilidades para controlar oportunamente periódicas amenazas del cibercrimen en un panorama cada vez más amplio ante vulnerabilidades y ataques. Solo considerando los ataques de denegación de servicios DoS y distribuidos DDoS, que se caracterizan en este proyecto, resulta al final con un conjunto de datos de 10 familias o clases diferentes de ataques DoS y DDoS, que junto a un tráfico benigno se busca detectar y clasificar en once 11 multiclases mediante el uso de técnicas basadas en aprendizaje automático supervisado (Machine Learning). El conjunto de datos etiquetado, es una colección de los años 2017, 2018 y 2019, que contiene los atributos del tráfico de red capturado y es usado con CICFlowMeter proveído por investigadores de Canadian Institute for Cybersecurity de University of New Brunswick CIC – UNB, y cuyos datos están aptos para ser la data de entrada de los algoritmos y técnicas de aprendizaje automático a implementar en este proyecto. Se diseñó un modelo detector y clasificador multiclase gracias al aprendizaje de 20 algoritmos diferentes, entrenados y aplicando validación cruzada para conocer su desempeño y comportamiento, descartando la mayoría, y estableciéndonos en solo 5 algoritmos: Bosques Aleatorios RF, Árbol Extremo ET, Árbol de Decisión DT y 2 formas diferentes de aplicar el novedoso XGBoost. Así, se evalúan mediante métricas y resultados de rendimiento, data que no hace parte del conjunto de entrenamiento, no ha sido vista, y que cuenta con etiquetas reales dadas, para obtener en el mejor de ellos los 5. Los resultados obtenidos del mejor de los 5 algoritmos de aprendizaje, corresponde al de Bosques Aleatorios. Así se ha logrado obtener en nuestro diseño de modelo final un rendimiento, muy bueno juzgando el lector mismo. Primero con el conjunto de datos de prueba normal 10% del conjunto total, para un total de 1’359.628 flujos de tráfico de red: accuracy[f1-socre] de 1.00; macro avg[precision] 0,98; macro avg[recall] 0,99; macro avg[f1-socre] 0,98; weighted avg[precision] 1,00; weighted avg[recall] 1,00; weighted avg[f1-socre] 1,00. Con una Perdida logistica lloss_RF de 0.0656859. Perdida de Hamming de 0.0045166.
    URI: http://repositoriodspace.unipamplona.edu.co/jspui/handle/20.500.12744/754
    Appears in Collections:Ingeniería en Telecomunicaciones

    Files in This Item:
    File Description SizeFormat 
    Portilla_2021_TG.pdfPortilla_2021_TG5,83 MBAdobe PDFView/Open


    Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.