6.6.2 Switch Riddle

첫 experiment로 영감을 받은 것은 다음과 같습니다.

" 100명의 죄수가 새로 감옥으로 들어왔는데, 소장이 그들에게 내일부터 다 독방에 들어갈 것이고, 서로 communication은 불가능할 것이라고 알립니다. 소장은 각 날 죄수를 랜덤으로 중앙 심문실로 부를 수 있습니다. 이때 방에는 전구와 스위치만 있습니다. 죄수는 현재 전구의 상태를 볼 수 있습니다. 만약 그가 원하면 불을 켜거나 끌 수 있습니다. 가만히도 있을 수 있습니다. 이 때 죄수들은 어느날 모든 죄수들이 이 방에 한 번씩은 들어왔는지 알아내야합니다. 만약 맞춘다면, 모든 죄수는 풀어지지만, 아니면 모두 사형입니다. 내일 까지 죄수들끼리 그들이 어떤 룰을 세워야 그들이 완전히 모두 다 심문실에 들어갔음을 알 수 있을까"에 대한 문제 입니다.

Architecture

Complexity

지수 곱의 특성에 의해 지수가 등비 수열의 합 형태로 나타난 모습입니다.이게 한 agent의 action space인데, agent가 다수라면, 이를 그대로 곱하는 것과 같으므로 지수적으로 증가하는데, 이 복잡도를 Big-O를 사용하여 표현면 다음과 같습니다.

Experimental Result

위 그림의 그림 (a)는 agent가 3명이었을 때를 나타냅니다. 5k step 이후 모든 method가 optimal policy를 찾았습니다. 이때, parameter sharing하는 DIAL이 RIAL보다 빠르게 optimal에 도달하는 것을 볼 수 있었습니다. 이때, 둘다 parameter sharing이 모두 속도를 증가시킴을 알 수 있었습니다. (b)에서도 DIAL이 빠르게 수렴함을 볼 수 있습니다. 그리고, RIAL에 parameter sharing이 없는 것은 학습하지 않은 결과와 비슷함을 보아 학습이 이루어지지않고 있음을 알 수 있습니다. 그리고 parameter sharing이 communication을 할 때 굉장히 큰 역할을 했는데, 이는 보내고 받아들이는 channel의 정보가 비슷해야 학습이 잘 이루어진다고 추측하고 있습니다. 또한 agent가 3명일때, DIAL에 대해 분석하는데, 그림 (c)를 보면, optimal strategy를 찾아내었습니다.

Last updated