Saltear al contenido principal

Detección de Ataques en Entornos Industriales

La modernización de la industria requiere el despliegue de redes de comunicación para permitir la operación y monitorización de diversos procesos, como la distribución de agua o la generación de electricidad. Este conjunto de redes pertenece a lo que se conoce comúnmente como la Tecnología de Operaciones (OT) y es susceptible a sufrir ciberataques, que pueden producir brechas de confidencialidad, daños físicos a las infraestructuras industriales y parones en la producción, comúnmente con graves consecuencias sociales. 

Originalmente, las redes OT fueron diseñadas para operar de manera aislada. Los operadores podían basar su protección en la separación física con otro tipo de redes (IT), así como en la falta de información de acceso público sobre los entornos, protocolos y máquinas empleadas: la “seguridad por oscuridad”. Sin embargo, las instalaciones industriales modernas están basadas en la convergencia de los mundos OT e IT con el objetivo de aumentar su eficiencia, y reducir costes y riesgos. Esto implica una ruptura con el tipo de seguridad tradicional con el que se podía contar anteriormente al facilitar el acceso a las redes OT mediante el uso de sistemas interoperables, la conexión remota a las máquinas, el empleo de protocolos conocidos, etc. Estos cambios hacen que los sistemas industriales sean más vulnerables a las amenazas existentes.

Ante este panorama, se hace evidente la necesidad de desarrollar nuevos sistemas de ciberseguridad orientados a las necesidades de las redes industriales. Por esto, la protección de los entornos industriales es una de las líneas de trabajo en el marco de la Red Nacional de Excelencia ÉGIDA.

Existen múltiples formas de abarcar la detección de ataques en redes de comunicación. Una opción común es la implementación de reglas, que permiten alertar ante la aparición de nuevas IPs o puertos no habituales. De forma más específica, existen algoritmos basados en firmas que buscan patrones coincidentes con extractos de ataques conocidos. Mientras que esta clase de sistemas son muy eficientes identificando ataques concretos y tienen un índice bajo de falsos positivos, no son capaces de detectar ataques nuevos o variaciones de los mismos. 

Los detectores de anomalías, por otra parte, modelan el comportamiento normal de un sistema e informan de una amenaza cuando detectan alguna desviación atípica. Por tanto, son capaces de identificar ataques sin disponer de información previa sobre ellos, bajo la suposición de que el tráfico anómalo es malicioso. Habitualmente, estos sistemas se construyen aplicando técnicas de Machine Learning, ya que proporcionan modelos inteligentes que no requieren instrucciones explícitas para su funcionamiento.

Un defecto común de los detectores de anomalías es la cantidad de falsos positivos que pueden producir, comparándolos con técnicas deterministas. Por esta razón, su uso es especialmente interesante en el contexto de la industria, ya que las comunicaciones tienden a ser más estables y sencillas de modelar, y las predicciones más fiables.

En cuanto a las variables de entrada que pueden usar estos modelos, es habitual seleccionar los flujos que forman el tráfico, que recogen los campos fundamentales de la comunicación entre máquinas: sus IPs y puertos, protocolo, número de paquetes intercambiados, o la duración de la conversación, entre otros. El análisis de estas variables es suficiente para detectar un gran número de ataques, entre ellos los de denegación de servicio. Por ejemplo, los ataques tipo flooding intentan saturar una máquina enviando múltiples paquetes (TCP SYN-Flooding, ARP flooding [1], [2]) y, por tanto, sus flujos tendrán un valor muy alto (anómalo) de paquetes. Por otra parte, para detectar ataques centrados en el contenido de los paquetes, como una SQL injection [3], también se puede analizar su payload.

En Gradiant, tenemos experiencia trabajando con una selección de modelos de detección de anomalías, a nivel del estado del arte.

Uno de estos tipos son los algoritmos basados en árboles de decisión como el Isolation Forest [4] o el Extended Isolation Forest [5]. Estos realizan particiones sobre el tráfico de entrada hasta que todas las observaciones quedan aisladas, es decir, en nodos terminales. Estas divisiones se deciden en función de atributos escogidos de forma aleatoria por el algoritmo. De esta forma, los paquetes con características muy distintas al resto quedarán aislados en pocas divisiones, al inicio del árbol, permitiendo al algoritmo clasificarlas como anomalías.

Por supuesto, también existen propuestas que emplean redes neuronales en sus modelos. Una opción muy estudiada es el Autoencoder [6], una red neuronal que entrena aprendiendo a codificar los datos de entrada y a reconstruirlos después. Un error de reconstrucción grande permite al algoritmo detectar datos anómalos. 

En cuanto a algoritmos basados en payload cabe destacar Anagram [7]. Este algoritmo divide cada payload en subsecuencias consecutivas denominadas n-gramas. En la etapa de entrenamiento se registran los n-gramas de cada payload, y se asigna una puntuación a cada paquete en función de la cantidad de n-gramas no conocidos que lo formen. Aparte, se ha planteado el uso innovador de técnicas de procesado de lenguaje natural aplicadas a los bytes de los payloads.

En todos los modelos mencionados es necesario fijar un threshold o umbral a partir del cual los paquetes se consideran anómalos, un valor difícil de optimizar que depende altamente del tipo de tráfico. 

A pesar de la importancia de la detección de amenazas en redes OT, el estado del arte abarca mayormente redes no industriales, hecho potenciado por la falta de tráfico industrial accesible para el entrenamiento de nuevos modelos de detección de anomalías. Por ello, desde Gradiant se busca impulsar este campo de investigación.

Referencias

[1] Y. Purwanto, Kuspriyanto, Hendrawan, and B. Rahardjo, “Traffic anomaly detection in DDos flooding attack,” in 2014 8th International Conference on Telecommunication Systems Services and Applications (TSSA), Oct. 2014, pp. 1–6. doi: 10.1109/TSSA.2014.7065953.

[2] V. A. Siris and F. Papagalou, “Application of anomaly detection algorithms for detecting SYN flooding attacks,” Computer Communications, vol. 29, no. 9. pp. 1433–1442, 2006. doi: 10.1016/j.comcom.2005.09.008.

[3] J. Clarke, SQL Injection Attacks and Defense. Elsevier, 2009. [Online]. Available: https://play.google.com/store/books/details?id=Spm7UgBwzjIC

[4] F. T. Liu, K. M. Ting, and Z.-H. Zhou, “Isolation Forest,” in 2008 Eighth IEEE International Conference on Data Mining, Dec. 2008, pp. 413–422. doi: 10.1109/ICDM.2008.17.

[5] S. Hariri, M. C. Kind, and R. J. Brunner, “Extended Isolation Forest,” IEEE Trans. Knowl. Data Eng., vol. 33, no. 4, pp. 1479–1489, Apr. 2021, doi: 10.1109/tkde.2019.2947676.

[6] M. A. Kramer, “Nonlinear principal component analysis using autoassociative neural networks,” AIChE J., vol. 37, no. 2, pp. 233–243, Feb. 1991, doi: 10.1002/aic.690370209.

[7] K. Wang, J. J. Parekh, and S. J. Stolfo, “Anagram: A Content Anomaly Detector Resistant to Mimicry Attack”.

Volver arriba