강화학습에서 분산

machinelearning

#1

강화학습에서 분산

  • 무작위성은 우리가 일상적인 일이며 우리가 세상을 경험하는 방식에 중대한 영향을 줍니다.
  • 시행 착오로 배우고 보상에 의해 동기 부여되는 강화학습(RL) 응용 프로그램도 마찬가지입니다.
  • 일반적으로 RL 알고리즘은 작업에서 여러 번의 시도를 통해 얻는 평균 보상을 예측하고
  • 이 예측을 사용하여 행동 방법을 결정합니다.
  • 그러나 환경에서의 임의적 간섭은 시스템이 받는 보상의 정확한 양을 변경함으로써 행동을 바꿀 수 있습니다.

A Distributional Perspective on Reinforcement Learning

link

  • 이 논문에서 우리는 평균 뿐만 아니라 value distribution라 부르는 이 보상의 전체 변화를 모델링 할 수 있음을 보여줍니다.
  • 그 결과 RL 시스템은 이전 모델보다 더 정확하고 빠르게 학습 할 수 있게 되었으며, 더 중요하게는 강화학습 전체를 다시 생각할 수 있는 가능성을 열어줍니다.
  • 강화학습에서는 평균 시간을 예측하기 위해 Bellman 방정식을 사용합니다.
  • 특히 Bellman의 방정식은 현재 평균 예측과 곧 미래가 되는 평균에 대한 예측을 할 수 있습니다.

Deep Q-Network

link

  • 새로운 아이디어로 Deep Q-Network 에이전트에서 구현 했습니다.
  • 단일 평균 보상 산출을 51개의 가능한 값으로 분배합니다.
  • 유일한 다른 변화는 Bellman (평균) 방정식에서 그 분산 방정식으로의 전환을 반영하는 새로운 학습 규칙입니다.

원문