본문 바로가기

분류 전체보기128

지도 학습과 비지도 학습의 대표 유형 이번 글에서는 지도학습과 비지도학습의 각각의 대표 유형에 대해서 기록하겠다. 지도학습에는 회귀(regression)와 분류(classification)가 있고, 비지도 학습에는 군집화(clustering), 변환(transformation), 연관(association)이 있다. 지도학습의 범주 : 회귀, 분류 지도학습은 입력값과 그에 대한 정답을 사용해 이 둘의 관계를 분석하고, 예측 모델을 만들어내는 것이다. 목적에 따라서 회귀문제와 분류문제로 나뉠 수 있는데, 회귀 문제는 예측 결괏값이 연속성을 지닌 경우에 사용한다. 정확한 예측을 통한 미래 값을 추정하는 목적으로 사용하며, 다양한 회귀 알고리즘을 선택할 수 있는 장점이 있는 반면, 정답 데이터 확보의 어려움, 모델 오류의 가능성이 있다. 대표적인.. 2024. 3. 22.
피처 엔지니어링 기법 8가지 피처 엔지니어링은 모델 학습에 입력할 데이터를 더 풍성하고 가치 있게 만드는 작업이다. 즉 좋은 데이터가 들어갈수록 좋은 결과를 얻을 수 있다는 말이다. 각각의 피처 엔지니어링 기법은 아래와 같다. 결측치 처리 데이터 누락으로 인해 많은 데이터를 사용하지 못할 때 사용하고, 데이터가 누락된 부분을 평균, 특정값으로 채우는 방법이다. 아웃라이어처리 선형 모델과 같이 아웃라이어의 영향에 민감한 모델에서 주로 사용하고, 다른 무리들과 크게 벗어나는 아웃라이어를 제거하거나 값을 조정해 튀는 데이터가 없도록 하는 기법이다. 바이닝(Bining) 오버피팅(과적합)으로 모델 성능이 문제 될 때 사용하고, 연속된 수치로 된 데이터를 특정 구간으로 묶는 기법이다. 로그 변환 데이터 형태가 왜곡되어 변환이 필요한 경우 특.. 2024. 3. 22.
데이터 시각화 그래프 종류: seaborn 활용하기 Seaborn 함수로 tips라는 dataset을 가져와서 그래프를 출력하는 공부를 진행하였다. 먼저 seaborn을 임포트 해주고, 선형 그래프를 그려준다. x축은 size로 진행하였고, y는 total_bill로 진행하였다. 그리고 성별을 색조로 표현하였다. 선형그래프는 연속된 변수에 대한 특정 값의 변화를 나타내는데 적합한 그래프이다. 두 번째는 산점도로 표현하였다. 산점도에서는 전체적인 관계 및 그에 대한 분포를 표현할 수 있다. 세 번째는 히스토그램으로 표현하였다. 도수분포표를 나태 내는 그래프로 일정간격으로 나눠서 x축에 대한 값을 y축으로 표현할 수 있다. 네 번째는 박스플롯으로 표현하였다. 데이터의 대략적인 분포(25%,50%, 75%)를 알려주고, 이상치를 간결하게 표현한다. 다섯 번째는.. 2024. 3. 22.
깃허브 vscode다운로드 f1을 누른 후 Git:Clone을 써준다. Clone from Github를 누른다. 깃허브에서 깃주소를 복사한다. 깃허브에서 복사한 주소를 붙여넣는다. 저장할 장소를 지정한다. 잘 받아온 것을 알 수 있다. 2023. 12. 23.