¿Un lobo con piel de husky? IA y ciberseguridad
Si uno echa un vistazo crítico entre bastidores a los mensajes publicitarios, se da cuenta en primer lugar de que el término "Inteligencia Artificial" se utiliza con mucha liberalidad en los departamentos de marketing. Los productos "potenciados por IA" solo suelen utilizar un aspecto de la IA, a saber, el aprendizaje automático.
El aprendizaje automático no es especialmente nuevo ni innovador en el ámbito de la ciberseguridad.
Desde hace más de 10 años, los fabricantes de antimalware utilizan el aprendizaje automático para analizar un gran número de nuevas variantes de malware y generar firmas de detección, que ahora están totalmente automatizadas.
Los algoritmos de aprendizaje automático se utilizan en el campo de la detección de SPAM y phishing desde hace 20 años, aunque no de forma exclusiva.
Es importante entender que todos estos campos de aplicación no suelen implicar el "aprendizaje profundo", es decir, el uso de redes neuronales artificiales multicapa. Estas todavía consumen demasiada memoria y CPU para su uso en sistemas servidor o cliente cuyo principal campo de aplicación no sea la red neuronal.
El algoritmo de aprendizaje automático para la ciberseguridad no existe: el aprendizaje automático está muy bien adaptado para actuar en un campo de tareas estrechamente definido.
La ciberseguridad, e incluso una sección tan pequeña como la seguridad de los puntos finales, abarca una multitud de posibles vectores y métodos de ataque. No existe una "solución única para todos" en la bolsa de trucos de la IA.
¿Los algoritmos de aprendizaje automático mejoran "por sí solos" con el tiempo? Es cierto que el aprendizaje automático se vuelve cada vez mejor con grandes cantidades de datos cualificados; en otras palabras, "aprende".
Datos cualificados significa que, además de los datos reales, el algoritmo también necesita la información de si, por ejemplo, estos archivos están infectados o son inofensivos, o si un correo electrónico es jamón o spam.
Esto significa que entrenar los algoritmos únicamente por parte del cliente suele estar fuera de lugar, porque muy pocos "usuarios normales" son capaces de distinguir un archivo infectado por malware de un archivo limpio, por ejemplo -al menos mientras el malware (por ejemplo, ransomware) no se haya activado-.
¿Pueden las soluciones de IA sustituir ya hoy a las soluciones de seguridad clásicas? Solo los muy, muy valientes -o muy temerarios- deberían apostar por este caballo.
Los métodos deterministas como los filtros IP clásicos y/o los métodos de concordancia de patrones siguen siendo muy superiores para la gran mayoría de los campos de aplicación, tanto en términos de rendimiento como de precisión de las soluciones de IA. En función del ámbito de aplicación, también es posible y sensato sopesar el uso de procedimientos deterministas en el procedimiento de lista negra o lista blanca.
El aprendizaje automático y los grandes datos (de entrenamiento), ¿mejoran necesariamente los resultados? La calidad de los resultados de un clasificador basado en aprendizaje automático, especialmente en el ámbito del aprendizaje profundo, depende no solo del algoritmo, sino también -o incluso de forma más crucial- de los datos con los que se ha entrenado.
Desgraciadamente, los usuarios y usuarios finales no podemos ver cómo el algoritmo de aprendizaje automático de ciberseguridad toma decisiones. Si pudiéramos, como los científicos de la Universidad de Washington, podríamos descubrir casos como el del husky que fue identificado erróneamente como un lobo.
La razón es que la mayoría de las imágenes de lobos con las que se entrenó el sistema mostraban lobos en la nieve. La visualización de la base de decisión del algoritmo demostró así que el animal sobre la nieve sólo desempeñaba un papel secundario en la decisión. La presencia de nieve era decisiva.