모두를위한 강화학습(Sung Kim): 4강 6강 정리

4강 Dummy Q-Learning

Frozen Lake: Even if you know the way, ask.(아는 길도, 물어가라). Agent가 어떤 갈림길에 섰을 때 어떻게 판단해야하는가는 Q함수에 달려있다. Q함수란 state와 action을 입력으로 받으면, 어떤 reward를 출력으로 주는 함수이다. 따라서 state-action value 함수라고도 부른다. 따라서 학습이란 것은 이러한 q함수를 찾는 것이라고 할 수 있다. 이러한 q 함수를 어떻게 이용하는가를 결정하는 과정을 policy라고 하며 강의에선 policy를 greedy방식(max argument를 선택)을 선택했다. Q중에 가장 높은 값을 Max Q라하고, 이 Q를 출력하는 action을 선택하는 것을 optimal policy라고 한다. 강화학습에서는 policy는 pi로, 그 정책이 optimal한 값이면 *(스타)를 붙여서 표현한다. a라는 액션을 취할 때 s'으로 간다고 하면, 일단 s'의 reward는 알고있다고 가정한다. 이렇게 가정하면 R_t와 R_t+1과의 관계식을 표현할 수 있다. 믿음을 가지고 학습을 하면 리워드를 얻는 순간부터 다음과 같은 Q테이블의 값이 생성된다. 그리고 agent가 goal에 도달할 수 있게 된다. 그러나 이것이 optimal한 path는 아니다. 알고리즘의 총 정리.

6강 exploit & exploration and discounted reward

exploit은 기존에 평점이 높은 맛집을 탐구하는 것이고, explore는 더 좋은 맛집을 찾기위해 새로운 식당을 탐험하는 것이다. 대표적인 것이 E-greedy이다. 어느정도 Epoch이 돈 뒤에 e값이 서서히 줄어들어 0에 수렴하도록 하는 것이 decaying E-greedy이다. 다른 방법은 Random noise를 추가하여 argmax를 하는 방법이 있다. 이렇게 하면 다음과 같은 2번 길을 찾을 수 있게된다. Discounted future reward는 step이 많아질수록 reward가 줄어들기 때문에 결국 Q함수 값이 최단거리일수록 높은 값이 된다. 이러한 q함수가 어떤 값에 수렴할 때는 이것이 deterministic world이고, 상태가 유한할 때이다.

마곡 리더스 코딩

모두를위한 강화학습(Sung Kim): 4강 6강 정리

4강 Dummy Q-Learning

6강 exploit & exploration and discounted reward

티스토리툴바