Hemos observado a agentes descubriendo progresivamente el uso de herramientas más complejas mientras juegan un simple juego de escondite. A través del entrenamiento en nuestro nuevo entorno simulado de escondite, los agentes construyen una serie de seis estrategias y contraestrategias distintas, algunas de las cuales no sabíamos que nuestro entorno apoyaba. La complejidad emergente auto-supervisada en este simple entorno sugiere además que la co-adaptación de múltiples agentes puede producir algún día un comportamiento extremadamente complejo e inteligente.