본문 바로가기

분류 전체보기128

K-최근접 이웃(KNN) -데싸노트 K-최근접 이웃(KNN) 모델은 거리 기반 모델로 종속변수가 범주형이며, 개수가 3개 이상인 다중 분류(Multicalssification)를 다룬다. 직관적이고 간단하며, 선형관계를 가정 안 해도 되지만, 데이터가 커질수록 상당히 느려질 수 있고, 아웃라이어(이상치)에 취약하다. 문제 정의 각각의 성분에 따라서 와인등급이 어떻게 되는지 예측하기 데이터 확인하기 import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns file_url = 'https://media.githubusercontent.com/media/musthave-ML10/data_source/main/wine.csv' data=p.. 2024. 3. 24.
로지스틱 회귀(Logistic Regression) 실습하기 - feat 데싸노트 로지스틱 회귀는 분류(Classification) 문제를 예측하고 평가한다. 선형회귀는 연속된 변수를 예측하지만, 로지스틱 회귀는 두 가지로 나누는 분류문제를 다룬다. 계수를 통해 각 변수의 중요성을 쉽게 파악할 수 있지만, 선형관계가 아닌 데이터에 대해서는 예측력이 떨어진다. 두 가지 범주로 나뉜 값을 예측하는 데 사용되며, 분류 문제에서 기준선(Baseline)으로 자주 활용된다. 로지스틱 회귀 실습 1. 문제 정의하기 이름, 성별, 나이, 타겟 번호 등 같은 정보가 실제로 생존에 어떻게 영향을 미치는지 확인 2. 라이브러리 및 데이터 확인 import pandas as pd file_url = 'https://media.githubusercontent.com/media/musthave-ML10/da.. 2024. 3. 24.
Pandas와 Numpy실습 feat 데싸노트 북 Pandas와 Numpy의 차이 Pandas와 Numpy는 데이터 분석에 가장 많이 쓰이는 라이브러리이다. 판다스는 사람에게 친화적이지만, 메모리가 상대적으로 무겁고, 느리며, 데이터 프레임과 시리즈를 자료구조로 사용한다. 반면 넘파이는 기계에게 친화적이고, 메모리가 상대적으로 적게 들며, 배열을 자료구조로 이용하고 빠른 수치계산에 쓰인다. 판다스에서는 인덱스와 칼럼명이 있지만 배열에는 인덱스와 칼럼명이 없다. 판다스는 하나 이상의 자료형을 원소로 가질 수 없고, 넘파이는 같은 자료형만 원소로 가질 수 있다. 판다스는 SQL같은 테이블 형식의 작업을 하며, 2차원 이하의 배열의 데이터에 사용되지만, 넘파이는 행렬 및 벡터 연산 기반에 사용되며 3차원 이상의 배열도 가능하다. 판다스는 SQL, 엑셀파일, .. 2024. 3. 24.
Linear Regression 실습 -데싸 노트 수업 복습 Pandas기본 명령어 및 기본세팅 import pandas as pd pandas를 불러오고, pd로 저장해 준다. data = pd.read_csv('https://raw.githubusercontent.com/DSNote/taling_data/main/insurance.csv') csv 파일을 불러와서 data라는 변수에 저장해 준다. data값은 위와 같은데 너무 긴 것을 알 수 있다. 그래서 사용하는 것이 head(), tail() 함수이다. data.head() head() 함수를 통해 상위 5개만 불러올 수 도 있고 data.tail() tail()이라는 함수를 통해서 하위 5개만 불러올 수 있다. data.info() info() 함수를 통해서는 data의 정보를 알 수 있다. 총 6개의 .. 2024. 3. 22.