7.4.6 Hyperparamters

Matrix Game 실험에선, Batch size 32와 Adam optimizer를 tensorflow 기본 setting을 하여 진행되었습니다.

Hanabi 실험에선 RMSProp를 ϵ=1010 \epsilon = 10^{-10}와 momentum 0, decay 를 0.99로 사용했고, γ\gamma 는 0.99로 사용하였습니다. baseline loss는 0.25를 곱해 policy-gradient loss에 더했습니다. population based training을 통해 learning rate와 entropy ragularization parameter를 구했습니다.

이후 learning rate와 entropy regularization parameter가 어떻게 선택되었는지, PBT를 어떻게 진행했는지에 대해 설명합니다.

BAD agent는 100번의 self-consistent iteration을 통해 학습되었는데, 이 때, factorized belief는 가끔 실제 deck의 상황과 안맞을 수 있는데 이 때문에 잘못된 hand를 지워가며 sampling하였습니다.

Last updated

Was this helpful?