본문 바로가기

reinforcement learning

[David Silver reinforcement learning] -1

David Silver 박사님의 강화 학습 논문을 바탕으로 학습을 진행하였습니다

1장에서는 강화 학습에 대한 전반적인 내용과 기본 단어들을 위주로 알아 볼 것이며 

이 정의들은 앞으로의 강화 학습에 있어 매우 중요하기 때문에 확실히 알아 두어야 할 것 이며

David Silver 박사님의 강화 학습 논문 내용을 인용 하겠 습니다.

 

기계학습에 관하여 생각해 볼 경우 기계학습을 크게 지도학습/비지도학습/강화학습 으로 나누어 볼 수 있으며

이 중 강화학습에 대하여 이야기를 진행하겠습니다

 

강화 학습이란?

가장 중요한 특징으로는 오직 reward만 존재하며 정답을 알려주지 않는다는 점에 있습니다

강화학습을 진행하는 사람은 오직 agent에게 행동에 대한 reward 만 제공해주고 

agent가 경험을 통해 목적으로 가는 방법을 학습한다는 느낌입니다

따라서 강화 학습을 진행함에 따라 agent가 사람의 능력을 넘어설 가능성이 존재합니다

 

또한 feedback이 즉각적이지 않을 수 있습니다

해당 부분에 대하여 추후 강의에서 다룰 예정이며 지금은 agent의 action에 대한 feedback이 즉각적이지 않을수 있음을 

고려해야 한다는 것만 알 고 있으면 될 것입니다

 

시간이 매우 중요합니다 각 샘플들이 독립적이지 않으며 샘플들의 순서가 중요합니다

 

agent의 반응이 앞으로 받을 데이터에도 영향을 줍니다 

 

위 4가지가 강화학습의 큰 특징이라고 말할 수 있습니다

 

자주 사용되고 중요한 용어들에 대한 설명입니다

 

agent             -우리가 학습 시키려는 주체입니다 agent를 제외한 나머지 부분은 enviroment라고 부를 수 있을 것입니다

action            -agent의 행동입니다 다음 상황을 야기합니다

reward           -보상입니다  주로 t번째 시간의 보상을 Rt로 나타내며 스칼라값으로 존재합니다

                        agent의 목적은 총 받는 reward의 양을 최대화 시키는 것 입니다

   goal             -목적치 입니다 agent는 최종적으로 받을 reward의 총합을 늘리는 action을 선택합니다 

                        해당 action은 즉각적인 reward보단 long term reward를 올려야 할 것입니다

observation   -action에 의한 결과입니다 enviroment에서 agent에게 보여집니다

 

agent의 입장에서는 1개의 action 을 주고 1개의 reward,1개의 observation을 받습니다

enviroment 입장에서는 1개의 action 을 받고 1개의 reward와 observation을 줍니다

 

history    말 그대로 기록입니다 주로 action(A),observation(O),reward(R)에 대한 정보를 표기합니다

state       다음 행동을 결정하는 정보입니다 St로 나타내어지며 state는 history에 근거한 함수입니다

Enviroment satate 은  $S_{t}^{e}$ 로 표기되며  t시간의 enviroment state를 말합니다

이는 reward 와 observation을 결정합니다

$S_{t}^{a}$ 는 agent의 state를 말하며 agent가 action을 위해 참고하는 부분입니다

다음은 Markov state입니다 

이며 이는 다음 결정에 있어서 직전의 state만 참고하는 상태를 뜻합니다

같은 상태이지만 각 목적에 의해서도 Markov state인지 아닌지도 달라질 수 있다 생각합니다

 

agent의 구성 요소로는

policy - agent의 행동에 대한 규정 state입력시 action으로 출력하며 $\pi (s)$로 표기합니다

             determin policy는 action에 대한 state값 자체를 출력하며

             stochastic poliy는 action에 대한 state 확률을 출력합니다

 

value function  -현재 상황의 가치를 이야기 합니다 미래에 총 받을 reward를 합산한다 생각하면 됩니다

 

model  -  환경을 예측하는 것입니다 여기서 모델이란 전체 구성을 다 안다는 것이 아닌 현재 action을 진행할 경우

그 다음 state와 reward를 예측한다는 의미입니다

 

RL agent 분류로는 

-value based 

-policy based

-actor critic(policy+value function)

-model free

-model based   가 있습니다

 

또한 강화학습은

-reinforce learning : enviroment를 모른체로 policy를 보며 개선하는 방식

-planning :enviroment,reward,state를 변화를 알고 있고 계획해가는 형식 으로 나누어 집니다

 

exploration - 미지의 영역에서 정보를 습득

exploitation - 이미 습득된 정보로부터 최적의 선택을 하는것

prediction-미래를 평가하는 것이며 value function학습이 주요합니다

conrtol-미래를 최적화 하는것 입니다.best policy를 찾는 의미 입니다

또한 알아두어야 할 것 입니다