본문 바로가기

컴퓨터공학/강화학습

(1)

모두를위한 강화학습(Sung Kim): 4강 6강 정리 4강 Dummy Q-Learning Frozen Lake: Even if you know the way, ask.(아는 길도, 물어가라). Agent가 어떤 갈림길에 섰을 때 어떻게 판단해야하는가는 Q함수에 달려있다. Q함수란 state와 action을 입력으로 받으면, 어떤 reward를 출력으로 주는 함수이다. 따라서 state-action value 함수라고도 부른다. 따라서 학습이란 것은 이러한 q함수를 찾는 것이라고 할 수 있다. 이러한 q 함수를 어떻게 이용하는가를 결정하는 과정을 policy라고 하며 강의에선 policy를 greedy방식(max argument를 선택)을 선택했다. Q중에 가장 높은 값을 Max Q라하고, 이 Q를 출력하는 action을 선택하는 것을 optimal poli..

이전 1 다음

티스토리툴바