Al año siguiente, el sistema había avanzado hasta el punto de actuar como un equipo completo de cinco personas, y empezó a jugar contra equipos profesionales y a demostrar su capacidad para derrotarlos.
Al elegir un juego tan complejo como Dota 2 para estudiar el aprendizaje automático, OpenAI pensó que podría capturar con mayor precisión la imprevisibilidad y la continuidad que se observan en el mundo real, construyendo así sistemas de resolución de problemas más generales.
Los algoritmos y el código utilizados por OpenAI Five acabaron siendo tomados prestados por otra red neuronal en desarrollo por la empresa, una que controlaba una mano robótica física.
[4][5] OpenAI utilizó una metodología llamada aprendizaje por refuerzo, ya que los bots aprenden con el tiempo jugando contra sí mismos cientos de veces al día durante meses, en los que son recompensados por acciones como matar a un enemigo y destruir torres.
[12][13] Aunque los bots perdieron ambos partidos, OpenAI siguió considerándolo una aventura exitosa, afirmando que jugar contra algunos de los mejores jugadores de Dota 2 les permitió analizar y ajustar sus algoritmos para futuras partidas.
[15] Ese mismo mes tuvo lugar un evento en línea de cuatro días para jugar contra los bots, abierto al público.
Estado del juego parcialmente observado: Los jugadores y sus aliados sólo pueden ver el mapa directamente a su alrededor.
El resto está cubierto por una niebla de guerra que oculta las unidades enemigas y sus movimientos.
Sin contar los aspectos perpetuos del juego, hay una media de ~1.000 acciones válidas cada tick.
The Verge informó que "el objetivo con este tipo de investigación de IA no es solo aplastar a los humanos en varios juegos solo para demostrar que se puede hacer.
[30] La esperanza de OpenAI era que la tecnología pudiera tener aplicaciones fuera del ámbito digital.