7.4.6 Hyperparamters
Last updated
Last updated
Matrix Game 실험에선, Batch size 32와 Adam optimizer를 tensorflow 기본 setting을 하여 진행되었습니다.
Hanabi 실험에선 RMSProp를 와 momentum 0, decay 를 0.99로 사용했고, 는 0.99로 사용하였습니다. baseline loss는 0.25를 곱해 policy-gradient loss에 더했습니다. population based training을 통해 learning rate와 entropy ragularization parameter를 구했습니다.
이후 learning rate와 entropy regularization parameter가 어떻게 선택되었는지, PBT를 어떻게 진행했는지에 대해 설명합니다.
BAD agent는 100번의 self-consistent iteration을 통해 학습되었는데, 이 때, factorized belief는 가끔 실제 deck의 상황과 안맞을 수 있는데 이 때문에 잘못된 hand를 지워가며 sampling하였습니다.