7.4.6 Hyperparamters

Matrix Game 실험에선, Batch size 32와 Adam optimizer를 tensorflow 기본 setting을 하여 진행되었습니다.

Hanabi 실험에선 RMSProp를 $\epsilon = 10^{-10}$ 와 momentum 0, decay 를 0.99로 사용했고, $\gamma$ 는 0.99로 사용하였습니다. baseline loss는 0.25를 곱해 policy-gradient loss에 더했습니다. population based training을 통해 learning rate와 entropy ragularization parameter를 구했습니다.

이후 learning rate와 entropy regularization parameter가 어떻게 선택되었는지, PBT를 어떻게 진행했는지에 대해 설명합니다.

BAD agent는 100번의 self-consistent iteration을 통해 학습되었는데, 이 때, factorized belief는 가끔 실제 deck의 상황과 안맞을 수 있는데 이 때문에 잘못된 hand를 지워가며 sampling하였습니다.

Previous7.4.5 Architecture Details for Baselines and Method Next7.4.7 Results on Hanabi

Last updated 4 years ago

Was this helpful?