Udacity Deep RL Nanodegree — Policy Based Methods

7 min readAug 17, 2020

Policy-Based Methods

이전까지 우리는 state가 주어질 때 action의 가치(기대보상)을 판단하고 그 중에서 정책에 따라(Q-Learning, Expected Sarsa 같은) action을 선택했다. 하지만 Policy-Based Methods는 action value를 판단하지 않고 state가 주어질 때 곧바로 action을 선택하는 방법이다. 즉 Action Value를 예측하지 않고 최적의 Action의 확률을 예측한다.

action이 이산적이라면(예: 가위바위보) softmax를 이용한 다음 가장 높은 값을 출력하고, 만약 연속적인 값이라면(예: 로봇의 각 관절에 가해지는 힘) tanh같은 활성화함수를 사용한다. (결정적)

Gradient Ascent(Hill Climbing)

딥러닝에서 사용하는 Gradient Descent(경사하강법)과는 반대이다. 이는 일반적인 신경망은 prediction loss를 0으로 최대한 줄이는 것을 목표로 하지만, 강화학습은 Reward를 최대한으로 하는 것을 원하기 때문이다. 딥러닝과 마찬가지로 Local Maximum의 문제가 나타날 수 있다.

gradient ascent 가중치 갱신 수식, g는 expected reward를 theta로 미분

gradient ascent를 이용해서 가중치를 갱신하는 방법을 Policy Gradient Method라고 한다. Gradient Ascent 외에도 가중치를 갱신하는 여러 방법이 있지만 아무래도 주로 다루게 되는건 Gradient Ascent이다.

장점

간단하다
확률기반의 정책이 필요할때 좋다
연속적인 공간에서 사용 가능하다.

The Big Picture

우리의 목표는 state에서 좋은 reward를 주는 action은 더 높은 확률이 나오고, 나쁜 reward를 주는 action의 확률은 낮아지도록 모델을 만드는 것이다. 한 에피소드에서 겪은 states, actions를 모두 모아서 trajectory라고 하고 그리스문자 τ(tau)로 표시한다. 이 때 우리의 목표는 아래의 식으로 표현되는 expected return U(θ)을 가장 큰 값으로 만들어줄 weight인 θ를 찾는 것이다. U(θ)는 곧 objective function이다

위 식에서 R(τ)는 에피소드의 보상의 총합이다. P(τ; θ)는 trajectory 내의 모든 state, action 이 policy θ내에서 발생할 확률의 곱이다. 가중치 갱신이 한 에피소드를 다 진행한 뒤에(1 trajectory마다) 이루어지면 이것을 REINFORCE method라고 한다.

Beyond Reinforce

REINFORCE Method의 단점

비효율적이다: policy를 한번 실행하고, 갱신하고, trajectory는 버린다
gradient가 noisy하다. 우연히 수집된 trajectory가 정책과는 무관할 수 있다.
명확하게 신용할 수 없다(no clear credit assignment): trajectory 중간에는 잘못된 선택도 있을텐데, 오직 최종 output만을 갖고 평가를 한다. 때문에 잘못된 action도 좋은 reward로 평가받는다

Noise Reduction

noise를 줄이는 방법

하나의 trajectory만 갖고 가중치를 갱신하지 말고, 동시에 여러 trajectory를 만든 다음(여러 에피소드를 진행해본 다음) 이들의 평균으로 가중치를 갱신하자.
objective function을 계산할 때, 각 trajectory의 reward는 reward간의 정규화된 값을 이용하자. 왜냐면 예를 들어 1이라는 보상이 좋아보이지만, 전체 episode를 봤을 때 그저그런 보상이거나 정말 좋은 보상일 수 있다. 이것을 분포로 파악할 수 있게 한다.

여러 trajectory 를 이용한 objective function의 미분식

Reward Normalization, 이는 Batch Normalization의 원리와 같다.

normalization은 결과적으로 보상을 좋은 보상/나쁜 보상으로 나누고, 보상 값이 너무 크거나 작지 않도록 만들어준다.

Credit Assignment

Markov Process에서 현재의 선택은 오직 미래의 보상만 관련이 있을 뿐, 현재의 선택이 과거의 보상을 바꾸지는 않는다. 즉 action의 가치는 미래 보상의 합이되어야 한다. 하지만 위 Objective function은 모든 보상의 합이므로 특정 action의 과거의 보상까지 합쳐져있다. 따라서 action의 미래보상의 합만을 적용해야한다.