개요
머신러닝을 크게 3가지로 나누었을 때, 그 마지막 순서인 강화학습(Reinforcement Learning)에 대해서 알아보겠습니다.
목차
1. 강화학습(Reinforcement Learning), 상태(State), 행동(Action), 보상(Reward)
2. 강화학습 알고리즘
1. 강화학습, 상태, 행동, 보상
강화학습(Reinforcement Learning)은 머신이 임의적으로 주어진 환경 속에서 행동해야 하는 수칙을 학습시키는 것이라고 할 수 있습니다. 이런 강화학습의 궁극적인 목표는 환경과 상호작용할 수 있는 Agent를 학습시키는 것 입니다. 이 Agent는 여러 특정 상활들이라 불리는 상태(State)에 맞닿았을 때, 여러가지 행동할 수 있는 행동(Action)을 취하면서 학습해 나갑니다. Agent는 취한 행동에 따라 + 혹은 -의 보상(Reward)을 돌려받으며, 이것이 강화학습의 기초적인 이미지 입니다.
따라서 Agent는 최대한 높은 보상을 받을 수 있게 행동하며, 이를 위해 음(-)이 되는 행동은 피하고 (+)가 되는 행동들을 하려고 노력하게 됩니다. 이 때문에 강화학습이라는 말이 붙기도 하였습니다.
2. 강화학습 알고리즘
강화학습 알고리즘에는 가치 함수(Value function), 모델(Model), 비모델/모델 기반(Model-free, Model-based), 벨만 방정식(The Bellman Equation)등 다양한 알고리즘들이 있습니다. 자세한 사항은 각각의 알고리즘 게시물에 포스팅 하도록 하겠습니다.
'python' 카테고리의 다른 글
2. Python에서 List Comprehension (0) | 2021.01.13 |
---|---|
1. python 작은 팁 모음! (추가 예정) (0) | 2021.01.13 |
3. 머신러닝의 종류, 비지도학습(Unsupervised Learning) (0) | 2021.01.07 |
2. 머신러닝의 종류, 지도학습(Supervised Learning) (0) | 2021.01.07 |
1. 머신러닝이란?(정의, 문제 해결 과정, 종류) (0) | 2021.01.06 |
댓글