David Silver 박사님의 강화 학습 논문을 바탕으로 학습을 진행하였습니다
1장에서는 강화 학습에 대한 전반적인 내용과 기본 단어들을 위주로 알아 볼 것이며
이 정의들은 앞으로의 강화 학습에 있어 매우 중요하기 때문에 확실히 알아 두어야 할 것 이며
David Silver 박사님의 강화 학습 논문 내용을 인용 하겠 습니다.
기계학습에 관하여 생각해 볼 경우 기계학습을 크게 지도학습/비지도학습/강화학습 으로 나누어 볼 수 있으며
이 중 강화학습에 대하여 이야기를 진행하겠습니다
강화 학습이란?
가장 중요한 특징으로는 오직 reward만 존재하며 정답을 알려주지 않는다는 점에 있습니다
강화학습을 진행하는 사람은 오직 agent에게 행동에 대한 reward 만 제공해주고
agent가 경험을 통해 목적으로 가는 방법을 학습한다는 느낌입니다
따라서 강화 학습을 진행함에 따라 agent가 사람의 능력을 넘어설 가능성이 존재합니다
또한 feedback이 즉각적이지 않을 수 있습니다
해당 부분에 대하여 추후 강의에서 다룰 예정이며 지금은 agent의 action에 대한 feedback이 즉각적이지 않을수 있음을
고려해야 한다는 것만 알 고 있으면 될 것입니다
시간이 매우 중요합니다 각 샘플들이 독립적이지 않으며 샘플들의 순서가 중요합니다
agent의 반응이 앞으로 받을 데이터에도 영향을 줍니다
위 4가지가 강화학습의 큰 특징이라고 말할 수 있습니다
자주 사용되고 중요한 용어들에 대한 설명입니다
agent -우리가 학습 시키려는 주체입니다 agent를 제외한 나머지 부분은 enviroment라고 부를 수 있을 것입니다
action -agent의 행동입니다 다음 상황을 야기합니다
reward -보상입니다 주로 t번째 시간의 보상을 Rt로 나타내며 스칼라값으로 존재합니다
agent의 목적은 총 받는 reward의 양을 최대화 시키는 것 입니다
goal -목적치 입니다 agent는 최종적으로 받을 reward의 총합을 늘리는 action을 선택합니다
해당 action은 즉각적인 reward보단 long term reward를 올려야 할 것입니다
observation -action에 의한 결과입니다 enviroment에서 agent에게 보여집니다
agent의 입장에서는 1개의 action 을 주고 1개의 reward,1개의 observation을 받습니다
enviroment 입장에서는 1개의 action 을 받고 1개의 reward와 observation을 줍니다
history 말 그대로 기록입니다 주로 action(A),observation(O),reward(R)에 대한 정보를 표기합니다
state 다음 행동을 결정하는 정보입니다 St로 나타내어지며 state는 history에 근거한 함수입니다
Enviroment satate 은 $S_{t}^{e}$ 로 표기되며 t시간의 enviroment state를 말합니다
이는 reward 와 observation을 결정합니다
$S_{t}^{a}$ 는 agent의 state를 말하며 agent가 action을 위해 참고하는 부분입니다
다음은 Markov state입니다
이며 이는 다음 결정에 있어서 직전의 state만 참고하는 상태를 뜻합니다
같은 상태이지만 각 목적에 의해서도 Markov state인지 아닌지도 달라질 수 있다 생각합니다
agent의 구성 요소로는
policy - agent의 행동에 대한 규정 state입력시 action으로 출력하며 $\pi (s)$로 표기합니다
determin policy는 action에 대한 state값 자체를 출력하며
stochastic poliy는 action에 대한 state 확률을 출력합니다
value function -현재 상황의 가치를 이야기 합니다 미래에 총 받을 reward를 합산한다 생각하면 됩니다
model - 환경을 예측하는 것입니다 여기서 모델이란 전체 구성을 다 안다는 것이 아닌 현재 action을 진행할 경우
그 다음 state와 reward를 예측한다는 의미입니다
RL agent 분류로는
-value based
-policy based
-actor critic(policy+value function)
-model free
-model based 가 있습니다
또한 강화학습은
-reinforce learning : enviroment를 모른체로 policy를 보며 개선하는 방식
-planning :enviroment,reward,state를 변화를 알고 있고 계획해가는 형식 으로 나누어 집니다
exploration - 미지의 영역에서 정보를 습득
exploitation - 이미 습득된 정보로부터 최적의 선택을 하는것
prediction-미래를 평가하는 것이며 value function학습이 주요합니다
conrtol-미래를 최적화 하는것 입니다.best policy를 찾는 의미 입니다
또한 알아두어야 할 것 입니다