본문 바로가기
python

2. 머신러닝의 종류, 지도학습(Supervised Learning)

by 장인이 2021. 1. 7.

개요

  머신러닝은 크게 지도학습, 비지도학습, 강화학습으로 나눌 수 있습니다. 이번 게시물에서는 지도학습에 대해, 다음 게시물에서는 비지도학습, 강화학습을 차례대로 확인해 볼 것 입니다.

 

목차

1. 지도학습(Supervised Learning)

  1-1. 데이터 분류(Classification)

  1-2. 회귀(Regression)

 

1. 지도학습(Supervised Learning)

  각각의 머신러닝의 종류마다 구현할 수 있는 다양한 알고리즘들이 있습니다. 우선 지도학습(Supervised Learning)은 크게 데이터 분류(Classification) 회귀(Regression)으로 나눌 수 있습니다.

 

1-1. 데이터 분류(Classification)

  분류(Classification)는 데이터를 특정한 라벨들로 나누는 것을 말합니다. , 입력 값에 대해 특정 값이 맞다/아니다, 혹은 어느 특정 라벨이라고 분류하도록 하는 학습입니다. 분류는 맞다, 아니다로 나누어지는 이진 분류 문제와 개다, 고양이다, 햄스터다 등 2가지 이상으로 분류하는 다중 분류 문제로 나뉘게 됩니다.

 

<K-최근접 이웃(K-Nearest Neighbors)>

  분류 알고리즘으로는 K-최근접 이웃(K-Nearest Neighbors) 알고리즘이 있습니다. 이는 위의 그림과 같이 새로운 데이터를 입력했을 때, 주위에 어떤 종류의 데이터들이 가까이에 있는지 여부에 따라 입력된 데이터를 분류해 주는 알고리즘입니다. 하지만 가장 유사한 데이터 하나만 놓고 판단하기에는 부적절한 경우가 발생할 것입니다. 따라서 입력된 데이터와 근접한 k개의 데이터를 놓고 비교하게 됩니다. 최선의 k값을 찾는 것은 어려운 문제이며, 일반적으로는 데이터 총 개수의 제곱근 값을 사용하고 있습니다.

 

<서포트 벡터 머신(Support Vector Machine, 이하 SVM)>

  또한 서포트 벡터 머신(Support Vector Machine, 이하 SVM) 알고리즘이 있습니다. 위의 그림과 같이 데이터 속성 간에 절정 경계(Decision Boundary)라고 하는 분류를 위한 선을 정의하는 모델입니다. 데이터가 2개의 속성을 띠고 있다면 절정 경계가 선으로, 3개의 속성을 띄고 있다면 하나의 평면으로 이루어져 있을 것입니다. 절정 경계와 데이터 값들의 거리,  마진을 최대화 하는 것이 최적의 절정 경계라고 말할 수 있습니다.

 

1-2. 회귀(Regression)

  회귀(Regression)는 데이터들의 특성(Feature)를 기준으로 연속된 값을 예측하는 것을 말합니다. , 맞다 혹은 아니다로 딱 떨어지는 결과 값이 아닌, 어떤 수나 실수로 결과가 나오는 경우입니다.

 

<선형 회귀(Linear Regression)>

  회귀 알고리즘으로는 선형 회귀(Linear Regression) 알고리즘이 있습니다. 이는 위의 그림과 같이 독립적으로 변할 수 있는 변수를 x(, 입력 데이터)와 이에 의해 종속적으로 값이 변하는 y(, 출력 데이터)를 다루는 것입니다. 따라서 선형 회귀는 한 개 이상의 독립변수 x y 의 선형 관계를 만드는 것을 말합니다. 독립변수의 개수에 따라서 한 개일 경우 단순 선형 회귀 분석(Simple Linear Regression Analysis), 여러 개일 경우 다중 선형 회귀 분석(Multiple Linear Regression Analysis)라고 합니다.

 

<로지스틱 회귀(Logistic Regression)>

  선형 회귀와 비슷하지만, 다른 성격을 띄고 있는 로지스틱 회귀(Logistic Regression)도 있습니다. 이는 위의 그림과 같이 데이터가 어떤 범주에 속할 확률이 특정 0  1 사이의 값이라고 예측하는 것을 말합니다. 선형 회귀와는 다르게 y값의 범위가 0 1 사이여야 함으로, 직선이 아닌 곡선의 형태를 띄고 있다는 점이 특징입니다.

 

댓글