9.6 Related Work

gradient 추정에 대한 연구는 잘 이루어졌지만, 많은 방법들이 서로 독립적으로 다른 필드에서 명명되고 연구되어왔습니다. 그리고 1차 gradient에만 많이 치우쳐져있습니다. Fu의 연구에서는 simulation optimization관점에서 전체적인 방법에 대해 설명합니다. 여기서의 Score function estimator는 likelihood ratio estimator나 REINFORCE라는 이름으로 많은 분에서 주목을 받았습니다. RL에서 policy gradient method는 아주 성공적이었고 이는 variance를 줄이는 테크닉과 함께 잘 사용되었습니다. SF estimator는 stochastic system을 분석하는데 많이 이용되었습니다.

이러한 접근은 Schulman의 연구에서 공식화되었으나, 이를 실용적이고 정확한 높은 차수의 gradient를 구하기 위해 사용한 경우는 처음일 것이라고 합니다. 이 연구는 이런 높은 차수의 gradient 계산을 필요로하는 meta learning등에 요긴하게 쓰일 것으로 예상합니다.

Previous9.5.2 DiCE For multi-agent RL Next9.7 Conclusion & Future Work

Last updated 5 years ago