본문 바로가기
공부기록/데이터사이언스

지도 학습과 비지도 학습의 대표 유형

by tankwoong 2024. 3. 22.
반응형

이번 글에서는 지도학습과 비지도학습의 각각의 대표 유형에 대해서 기록하겠다. 지도학습에는 회귀(regression)와 분류(classification)가 있고, 비지도 학습에는 군집화(clustering), 변환(transformation), 연관(association)이 있다. 

지도학습의 범주 : 회귀, 분류

지도학습은 입력값과 그에 대한 정답을 사용해 이 둘의 관계를 분석하고, 예측 모델을 만들어내는 것이다. 

목적에 따라서 회귀문제와 분류문제로 나뉠 수 있는데, 회귀 문제는 예측 결괏값이 연속성을 지닌 경우에 사용한다.

정확한 예측을 통한 미래 값을 추정하는 목적으로 사용하며, 다양한 회귀 알고리즘을 선택할 수 있는 장점이 있는 반면, 정답 데이터 확보의 어려움, 모델 오류의 가능성이 있다.

대표적인 회귀는 선형회귀, 로지스틱회귀가 있는데, 선형회귀는 가장 단순한 회귀 모델이고, 변수 간 선형 관계를 가정한다. 이해 및 구현이 용이하며, 빠른 학습 속도가 장점이지만 비선형 관계 데이터에 적용이 불가능하고, 정확도 감소 가능성이 있다. 

로지스틱회귀는 이분류문제에서 적용되고, 확률 예측 모델을 학습한다. 장점은 분류 정확도 항상에 좋고, 다양한 분야에 활용가능하지만, 데이터 불균형 문제나 과적합 가능성이 있다.

반면 분류문제는 예측 결과값이 비연속적일 경우에 사용한다. 데이터를 여러 범주로 분류하는 모델 학습이며, 정확한 분류를 통해 데이터 그룹화 및 분석을 목적으로 한다. 

대표적인 분류로는 K-최근접 이웃(KNN), SVM(Support Vector Machine)이 있는데, KNN은 유사한 데이터의 범주를 기반으로 새로운 데이터를 분류하는 것이고, 간단하고 직관적인 알고리즘이며, 데이터 전처리 필요가 최소화된다. 단점은 계산량이 증가할 수 있고, 노이즈의 영향을 많이 받을 수 있고, K값의 선택이 중요하다. 

SVM(Support Vector Machine)은 데이터의 최대 마진을 찾아 분류 모델을 학습하는 것이고, 높은 분류 정확도와, 과적합 방지 효과가 있는 반면, 계산량이 증가할 수 있고, 빈선형 데이터 처리의 어려움이 있다. 그리고 파라미터 조정이 민감하다.

지도학습의 대표적인 예로는 스팸 메일 필터, 의료 진단 시스템, 주가 예측, 이미지 인식, 자연어 처리가 있다.

비지도학습의 범주: 군집화, 변환, 연관 

비지도학습은 정답이 없는 데이터로만 학습한다. 크게 3개로 나뉠 수 있는 데 군집화는 비슷한 데이터끼리 묶어주는 방법이다. 데이터 구조 및 패턴을 파악하고, 고객을 세분화하는 것 등의 목적이 있으며, 데이터 간 내재된 관계 발견하고, 시장 세분화 및 마케팅 전략 수립을 할 수 있고, 최적의 군집 수 선택의 어려움이 있으며, 군집 결과 해석이 필요하다.

대표적인 것으로는 K-평균 알고리즘과 계층적 군집화가 있다. K평균 알고리즘은  K개의 군집으로 분류하고, 각 군집의 평균값을 기반으로 하며, 간단하고 효율적인 알고리즘과 빠른 속도가 장점이다.  반면 초기 군집 중심 선택이 중요하고, K 값 선택이 중요하다.

계층적 군집화는 데이터 점진적 합병 또는 분할을 통한 군집을 구성하고, 데이터 간 거리 정보를 활용하고, 유연한 군집 구성이 가능하지만 계산량증가와 계층 구조해석의 어려움이라는 단점이 있다.

변환은 목적에 따라 데이터를 다른 형태로 변환하는 방법으로, 변수 여러개의 특성을 최대한 살려 변수 3개로 압축하는 경우를 예로 들 수 있다. 데이터 차원 감소, 시각화, 이상 탐지 등이 목적이고, 데이터 분석 효율성 향상, 숨겨진 패턴을 발견하는 장점이 있는 반면, 정보 손실 가능성과 변환 선택 방법이 중요하다. 

대표적인 예로는 주성분 분석(PCA)이 있고, 데이터의 주요 변수 추출하고, 데이터 차원 감소를 목표로 한다. 데이터 해석 및 시각화가 용이하며, 계산 효율성 향상의 장점이 있고, 단점으로는 정보가 손실될 수 있다.

연관은 일명 장바구니 분석이라고도 불리며 유사한 구매 목록을 고른 고객끼리 비교하여, 서로 장바구니에 담기지 않은 새로운 아이템을 추천하는 목적 등으로 사용할 수 있다.

비지도학습의 대표적인 예로는 고객 세분화, 이미지 분류, 유전자 발현 분석, 추천 시스템, 이상 탐지 등이 있다. 

 

반응형