7.5.2 Research on Hanabi

수많은 Hanabi에 대한 연구가 진행되었습니다. Baffier는 이 Hanabi에서의 최적의 전략은 자기가 자신의 패를 볼 수 있다고 해도 NP-hard임을 보였습니다. hat game과 비슷하게 encoding하는 방식은 기본적으로 5인도 해결할 수 있지만, 2인용에서는 17.8점밖에 얻지 못했습니다. Walton의 연구는 Monte-Carlo tree search와 rule based method를 사용했지만, BAD보다 50% 낮은 성능을 보였고, Osawa도 heuristic한 rule을 만들어 해결하려했으나 이는 결국 heuristic한 방법이고, 결국 BAD보다 좋지않은 결과를 얻었습니다.

BAD 2인용 Hanabi에서 가장 좋은 성능을 얻은 agent에 대해 SmartBot으로 이름붙였는데 이는 링크에서 확인할 수 있습니다. 이는 평균적으로 23.09점을 얻는 SOTA를 달성하였습니다.