4강 Dummy Q-Learning
Frozen Lake: Even if you know the way, ask.(아는 길도, 물어가라). Agent가 어떤 갈림길에 섰을 때 어떻게 판단해야하는가는 Q함수에 달려있다. Q함수란 state와 action을 입력으로 받으면, 어떤 reward를 출력으로 주는 함수이다. 따라서 state-action value 함수라고도 부른다. 따라서 학습이란 것은 이러한 q함수를 찾는 것이라고 할 수 있다. 이러한 q 함수를 어떻게 이용하는가를 결정하는 과정을 policy라고 하며 강의에선 policy를 greedy방식(max argument를 선택)을 선택했다. Q중에 가장 높은 값을 Max Q라하고, 이 Q를 출력하는 action을 선택하는 것을 optimal policy라고 한다. 강화학습에서는 policy는 pi로, 그 정책이 optimal한 값이면 *(스타)를 붙여서 표현한다. a라는 액션을 취할 때 s'으로 간다고 하면, 일단 s'의 reward는 알고있다고 가정한다. 이렇게 가정하면 R_t와 R_t+1과의 관계식을 표현할 수 있다. 믿음을 가지고 학습을 하면 리워드를 얻는 순간부터 다음과 같은 Q테이블의 값이 생성된다. 그리고 agent가 goal에 도달할 수 있게 된다. 그러나 이것이 optimal한 path는 아니다. 알고리즘의 총 정리.
6강 exploit & exploration and discounted reward
exploit은 기존에 평점이 높은 맛집을 탐구하는 것이고, explore는 더 좋은 맛집을 찾기위해 새로운 식당을 탐험하는 것이다. 대표적인 것이 E-greedy이다. 어느정도 Epoch이 돈 뒤에 e값이 서서히 줄어들어 0에 수렴하도록 하는 것이 decaying E-greedy이다. 다른 방법은 Random noise를 추가하여 argmax를 하는 방법이 있다. 이렇게 하면 다음과 같은 2번 길을 찾을 수 있게된다. Discounted future reward는 step이 많아질수록 reward가 줄어들기 때문에 결국 Q함수 값이 최단거리일수록 높은 값이 된다. 이러한 q함수가 어떤 값에 수렴할 때는 이것이 deterministic world이고, 상태가 유한할 때이다.