Sin embargo, incluso si la caja está bien diseñada, una IA suficientemente inteligente podría persuadir o engañar a sus guardianes humanos para que la liberen, o podría ser capaz de "hackear" su salida de la caja.
El profesor Roman Yampolskiy se inspira en el campo de la seguridad informática y propone que una "AI box" podría, como un virus potencial, ejecutarse dentro de una "máquina virtual" que limite el acceso a su propia red y al hardware del sistema operativo.
[7] Incluso una conversación informal con los operadores de la computadora, o con un guardia humano, podría permitir a una IA tan inteligente desplegar trucos psicológicos, que van desde la amistad hasta el chantaje, para convencer a un portero humano, de manera veraz o engañosa, de que permitirle un mayor acceso al mundo exterior es lo mejor para el portero.
Hay que tener en cuenta que, a nivel técnico, ningún sistema puede estar completamente aislado y seguir siendo útil: incluso si los operadores se abstienen de permitir que la IA se comunique y en su lugar simplemente ejecutan la IA para observar su dinámica interna, la IA podría alterar estratégicamente sus dinámicas para influir en los observadores.
[7] El experimento AI-box es un experimento informal ideado por Eliezer Yudkowsky para intentar demostrar que una IA adecuadamente avanzada puede convencer, o quizás incluso engañar o coaccionar, a un ser humano para que la "libere" voluntariamente, utilizando solo comunicación basada en texto.
[9] Debido a las reglas del experimento,[8] no reveló la transcripción ni sus exitosas tácticas de persuasión/coacción.
Yudkowsky dijo después que lo había probado contra otros tres y perdió dos veces.
[6] La película de 2015 Ex Machina presenta una IA con un cuerpo humanoide femenino involucrada en un experimento social con un humano masculino en un edificio confinado que actúa como una "AI box" física.