1.6.3. 강화 학습(Reinforcement Learning)
강화 학습(Reinforcement Learning)은 앞서 살펴본 지도 학습(Supervised Learning)과 비지도 학습(Unsupervised Learning)과는 약간은 다른 종류의 학습 알고리즘입니다.
다른 알고리즘들이 데이터(data)가 주어진 정적인 상태(static environment)에서 학습을 진행하였다면, 강화 학습(Reinforcement Learning)은 에이전트가 주어진 환경(state)에 대해 어떤 행동(action)을 취하고 이로부터 어떤 보상(reward)을 얻으면서 학습을 진행합니다. 이때, 에이전트는 보상(reward)을 최대화(maximize)하도록 학습이 진행됩니다. 즉, 강화학습은 일종의 동적인 상태(dynamic environment)에서 데이터를 수집하는 과정까지 포함되어 있는 알고리즘입니다. 지도학습은 목표 라벨이 있고 비지도 학습은 라벨이 아예 없는데, 강화학습은 가끔씩 시간이 지연되는 성과(Reward) 라벨들을 가지고 있습니다. 상황에 맞는 State, Reward, Environment, Action 등의 최적화된 설계가 구현에서 중요한 항목이 됩니다.
강화학습의 대표적인 알고리즘은 Q-Learning이 있고, 딥러닝과 결합하여 Deep-Q-Network(DQN) 방법으로도 사용됩니다.
Last updated