Processing math: 100%
본문 바로가기
FastCampus X Upstage AI 부트캠프

머신 러닝 수업 정리

by tankwoong 2024. 5. 28.
반응형

처음 나온 인공지능은 통계기반의 의사결정을 내리는 인공지능 인공지능은 통계 알고리즘을 통해 스스로 개선해서 데이터가 프로그래밍을 수행하도록 지원 머신러닝이 아닌 인공지능은 규칙기반 학습과 추론라고 도 하며 여러번 데이터를 통해 규칙을 도출하여 새로운 데이터에 대해서도 자동화/최적화를 위하여 사용한다. 즉 귀찮아서..

매번 규칙기반 학습을 하기 힘드니깐 머신러닝이 나온 것이다. Neural Network를 통해 깊이 있게 쌓은 모델을 쌓은 기술 블랙박스 모델 

 

지도학습은 레이블된 데이터가 있고, 명확한 목표를 가지며, 예측값과 실제 레이블을 비교하여 평가할 수 있다.

비지도학습은 입력 데이터에 대한 레이블이 없는 상태에서 모델을 학습하는 방법으로, 목표는 데이터의 패턴이나 구조를 발견하는 것이고, 평가가 어렵다.

 

인코딩은 번호로 표현하는 것 임베딩하는 것은 좌표에 벡터로 표현하는 것,

 

cloze학습: 원문에 빈칸을 뚫고, 모델에 넣음 

정형데이터 :테이블 데이터 

MLM

Masked Languaged Model 의 약자로 colze task로 학습 시킨 모델들을 가리키는 말로 알고 있습니다. 예로는 BERT

confusion matrix 

TPTruePositive, FNFalseNegative, False PositiveFP, True NegativeTN

Accuracy = TP+TN/ TP+FN+FP+TN

틀리지 않으면 높아짐

Precision = TP/TP+FP 모델이 예측한 것 중 맞는 것의 비율

 스팸이라고 예측했는데, 실제로 스팸메일인 경우

Recall = TP/TP+FN 맞는 것 중에 맞았다고 예측한 비율 

스팸 메일이라고 한 것 중에, 스펨메일인 경우 

 

과대 적합

모델이 과하게 훈련집단에 학습되어 훈련 집합에 정확히 일치하게 되는 현상

해결방안:

정규화 기법을 사용하여 모델의 복잡도 감소

앙상블 기법: Bagging과 Boosting

프루닝Pruning:결정트리에서 가지치기

더 많은 데이터 수집 혹은 데이터 증강 

 

과소적합

모델이 훈련 집합에 대해서 충분히 학습되지 않아, 훈련 집합을 잘 맞추지 못하는 현상 

 

Lasso 회귀 LassoRegression

L1 정규화를 사용하는 선형회귀, 모델의 손실 함수에 모든 회귀 계수의 절대값합을 패널티로 추가 

패널티 항으로 불필요한 변수의 계수를 0으로 만들고, 변수 선택을 가지고 있으며 희소한 모델을 만든다. 

Lasso회귀는 중요하지 않은 피처의 계수를 0으로 만들어 모델을 단순화하고, 변수 선택을 수행하는 데 유용하다. 

많은 피처 중에서 일부만 중요한 경우, Lasso회귀는 자동으로 불필요한 피처를 제외시키므로 피처 선택이 필요한 경우 사용된다. 피처 수가 많고 희소한 모델이 필요한 경우, 중요한 피처만 선택해 모델을 단순화 할 수 있다. 

다중공선성이 심한 경우 중요한 피처를 놓칠 수 있다.

마케팅 분야에서 고객의 여러가지 특성,,을 통해 특정 제품의 구매 여부를 예측할 경우, Lasso회귀를 사용하여 중요한 몇가지 특성만 선택해 모델을 구축할 수 있다. 

 

 

Ridge 회귀 RidgeRegression

L2정규화를 사용하는 선형회귀로, 모델함수에 모든 회귀 계수의 제곱합을 패널티로 추가한다. 

패널티 항을 통해 큰 계수들의 값을 줄이는 효과가 있으며, 모든 변수를 포함시키면서 과적합을 방지한다. 계수들이 0이 되지 않는다. 모든 변수을 유지하면서 모델의 복잡성을 줄이고, 과적합을 방지하는데 사용한다. 

피처들 간의 상관관계가 높은 경우에는 Ridge 회귀는 계수를 작게 만들어 다중공선성을 완화하고, 피처 선택이 필요하지 않은 경우,에 사용된다. 

변수 선택기능이 없다는 것이 단점이다.

의료 데이터에서 환자의 다양한 생체 측정치,,을 통해 특정 질병의 발생 여부를 예측하는 모델을 만들 경우 모든 피처가 중요하므로 Ridge가 적합할 수 있다.

Elastic Net 회귀 ElasticNetRegression

Lasso와 Ridge 회귀의 장점을 결합하여, 변수 선택과 다중공선성 문제를 동시에 해결할 수 있고, 피처 들간의 상관관계가 높고, 중요한 피처만 선택하고 싶은 경우, Lasso가 선택한 피처의 수가 너무 적거나, 중요한 피처를 놓치는 경우 사용할 수 있다.하이퍼파라미터가 더 많아 최적화가 복잡해질 수 있다.

유전자 데이터 분석에서 수천 개의 유전자 중에 질병과 관련된 몇 가지 유전자를 식별하고자 할 때, 피처들 간의 상관관계가 높고, 중요한 피처만 선택하는 경우 Elastic회귀가 적합할 수 있다.

 

반응형