7.4.5 Architecture Details for Baselines and Method

여기서는 학습을 위해 Importance-Weighted Actor-Learner Architecture를 사용하였는데 이 framework에서 actor는 계속 trajectories를 만들고, learner는 gradient update만 진행하는 구조입니다. trajectories를 만드느라 사용된 policy는 gradient update할 때 여러번 사용될 수 있는데, 이에 대한 분포를 맞춰주기 위해 V-trace가 사용되었습니다.

BAD agent는 모든 observation을 input으로 가지는 MLP로 구성되어 있으며, baseline을 계산하기 위해, 같은 MLP를 가졌지만, agent의 자신의 패까지볼 수 있도록 만들었습니다.

모든 agent에 대해 illegal action은 logit을 큰 negative value를 줌으로써 masking을 하여 sampling되지않도록하였고, no-action외엔 다른 action은 가만히 있을 수 없습니다.

Last updated