분류 전체보기128 LightGBM 이상 거래 예측하기 실습 with 데싸 노트 XGBoost 이후 나온 최신 부스팅 모델로, 캐글에서 좋은 퍼포먼스를 많이 보여주어 그 성능을 인정받았으며, 리프 중심 트리 분할 방식을 사용한다. XGBoost보다 빠르고, 높은 정확도를 보이며, 예측에 영향을 미치는 변수의 중요도를 확인할 수 있다. 변수 종류가 많고, 데이터가 클수록 상대적으로 뛰어난 성능을 보여준다. XGBoost와 마찬가지로 복잡한 모델인 만큼, 해석의 어려움이 있고, 하이퍼파라미터 튜닝이 까다롭다. 문제정의 데이터셋을 활용하여 이상거래를 탐지한다. 라이브러리 및 데이터 불러오고, 확인하기 import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns file_url='htt.. 2024. 3. 29. XGBoost 실습 with데싸노트 부스팅은 순차적으로 트리를 만들어 이전 트리보다 더 나은 트리를 만드는 알고리즘이다. 트리 기반을 기반으로 하는 최신 알고리즘으로, 랜덤 포레스트보다 더 나은 속도와 예측력을 보여준다. 변수 종류가 많고 데이터가 클수록 상대적으로 뛰어난 성능을 보여주지만 복잡하므로, 해석의 어려움이 있고, 더 나은 성능을 위한 하이퍼파라미터 튜닝이 까다롭다. 종속변수의 종류와 상관없이 모두 사용할 수 있고, 표로 정리된 데이터의 경우, 거의 모든 상황에 활용가능하다. XGBoost, LightGBM, CatBoost 등이 있는데 XGBoost는 GPU가 제공된다면 사용하지만, CPU만 제공될 때는 LightGBM을 더 많이 사용한다. XGBoost는 손실함수와 모형복잡도까지 고려한다. 문제 정의 스피드데이팅 이벤트 프로.. 2024. 3. 29. 랜덤 포레스트 실습 with 데싸노트 랜덤포레스트(Random Forest) 모델은 독립적인 트리를 여러 개 만들어서 결정 트리의 단점인 오버피팅 문제를 완화시켜 주는 발전된 형태의 트리 모델이다. 여러 모델을 활용하기 때문에 앙상블이라고 부른다. 종속변수가 연속형 데이터와 범주형 데이터인 경우 모두에서 사용할 수 있고, 아웃라이어가 문제가 되는 경우 랜덤 포레스트를 사용할 수 있다. 문제정의: 자동차 모델명, 연식, 마일리지, 성능 등을 통해 중고차 가격을 예측한다. 라이브러리 및 데이터 불러오기, 데이터 확인하기 import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns file_url='https://media.githubuser.. 2024. 3. 27. 나이브 베이즈(Naive Bayes) 실습 with 데싸노트 나이브 베이즈는 베이즈 정리를 활용한 조건부 확률 기반의 분류 모델이다. 딥러닝만큼은 아니지만 간단한 방법으로 자연어처리를 원할 때 사용한다. 범용성이 높지는 않지만 독립변수들이 모두 독립적이라면 충분히 경쟁력 있는 모델이다. 딥러닝을 제외하고 자연어 처리에 가장 적합한 알고리즘이다. 속도도 빠르며, 작은 훈련 셋으로도 잘 예측한다. 범주 형태의 변수가 많을 때 적합하고, 독립변수가 독립적일 경우 그 중요도가 비슷할 때 사용된다. 숫자형 변수가 많을 때는 적합하지 않다. 독립변수가 많을 때 상대적으로 더 작동하고, 독립변수의 상관관계가 없음을 전제로 한다. 문제 정의 스팸문자 여부를 판별해본다. 데이터 불러오기 및 확인 import pandas as pd import numpy as np import m.. 2024. 3. 25. 이전 1 ··· 4 5 6 7 8 9 10 ··· 32 다음