Sin embargo, este supuesto suele incumplirse peligrosamente en casos prácticos de alto riesgo, en los que los usuarios pueden suministrar intencionadamente datos falsos que incumplan el supuesto estadístico.
[6] En la Conferencia sobre Spam del MIT, celebrada en enero de 2004, John Graham-Cumming demostró que un filtro antispam de aprendizaje automático podía utilizarse para derrotar a otro filtro antispam de aprendizaje automático si éste aprendía por sí mismo qué palabras añadir a un correo electrónico no deseado para que no fuera clasificado como tal.
[7] En 2004, Nilesh Dalvi y otros observaron que los clasificadores lineales utilizados en los filtros de correo spam podían ser derrotados mediante simples "ataques de evasión", ya que los responsables del spam (en inglés, spammers) insertaban "palabras buenas" en sus correos electrónicos no deseados.
En 2006, Marco Barreno y colaboradores publicaron Can Machine Learning Be Secure?
En 2012, las redes neuronales profundas comenzaron a dominar los problemas de visión por ordenador.
A partir de 2014, Christian Szegedy y otros demostraron que las redes neuronales profundas podían ser burladas por atacantes, empleando una vez más un ataque basado en gradientes para crear perturbaciones antagónicas.
[10][11] Recientemente, se ha observado que los ataques antagónicos son más difíciles de producir en el entorno práctico debido a las diferentes restricciones ambientales que anulan el efecto de los ruidos.
Algunos investigadores demostraron que cambiando solo un píxel era posible engañar a los algoritmos de aprendizaje profundo.
[26] Se demostró que la imagen de un perro retocada por una máquina parecía un gato tanto para los ordenadores como para los humanos.
[34] Asimismo, los investigadores pueden crear entradas de audio antagónicas para disfrazar comandos dirigidos a asistentes inteligentes en audio de apariencia benigna;[35] hay literatura paralela que explora la percepción humana ante tales estímulos.
Un atacante puede envenenar estos datos inyectando muestras maliciosas durante su funcionamiento que posteriormente afecten al reformación.
Así, en el aprendizaje federado los dispositivos periféricos colaboran con un servidor central, normalmente enviando gradientes o parámetros de modelos.
[62][63] Esto puede causar problemas cuando los datos de formación o el propio modelo son sensibles y confidenciales.
[64] Lo preocupante es que a veces esto se puede conseguir incluso sin conocer los parámetros de un modelo objetivo o sin tener acceso a ellos, lo que plantea problemas de seguridad para los modelos formados con datos confidenciales, incluidos, entre otros, los historiales médicos y/o la información de identificación personal.
A menudo se usa una forma de "ruido" especialmente diseñado para provocar las clasificaciones erróneas.
Según los autores de la investigación, el Ataque Cuadrado propuesto requería menos consultas que los ataques de caja negra basados en puntuaciones más actualizados en el momento.
[80] El Ataque Triple Salto (en inglés, HopSkipJump Attack) Este ataque de caja negra también se propuso como un ataque eficiente de consulta, pero que se basa únicamente en el acceso a cualquier clase de salida predicha por una entrada.
El ataque propuesto se divide en dos enfoques diferentes, dirigido y no dirigido, pero ambos se construyen a partir de la idea general de añadir perturbaciones mínimas que conduzcan a un resultado diferente del modelo.
Para resolver este problema, el ataque propone la siguiente función límite
Esto puede simplificarse aún más para visualizar mejor el límite entre los distintos ejemplos antagónicos potenciales:[81]
Con esta función límite, el ataque sigue entonces un algoritmo iterativo para encontrar ejemplos antagónicos
Los autores de Triple Salto demuestran que este algoritmo iterativo convergerá, llevando a
[81] Sin embargo, como Triple Salto es un ataque de caja negra propuesto y el algoritmo iterativo anterior requiere el cálculo de un gradiente en el segundo paso iterativo (al que los ataques de caja negra no tienen acceso), los autores proponen una solución para el cálculo del gradiente que sólo requiere las predicciones de salida del modelo.
[81] Mediante la generación de muchos vectores aleatorios en todas las direcciones, denotados como
[84] El ataque se denominó Método del Signo de Gradiente Rápido (FGSM, por sus siglas en inglés), y consiste en añadir a la imagen una cantidad lineal de ruido imperceptible y hacer que un modelo la clasifique incorrectamente.
Este ruido se calcula multiplicando el signo del gradiente con respecto a la imagen que queremos perturbar por una pequeña constante épsilon.
[87] El ataque propuesto por Carlini y Wagner comienza intentando resolver una difícil ecuación de optimización no lineal:[63]
Cuando se sustituye, esta ecuación puede considerarse como la búsqueda de una clase objetivo que es más segura que la siguiente clase más probable por una cantidad constante:[63]
[63][87][88][89] Diversos investigadores han propuesto un planteamiento en varios pasos para proteger el aprendizaje automático.
[11] Se han propuesto varios mecanismos de defensa contra la evasión, el envenenamiento y los ataques a la privacidad, incluyendo: