본문 바로가기
카테고리 없음

fastcampusxUpstage AI 3기 통계 블로그

by tankwoong 2024. 4. 23.
반응형

부트캠프에서 3일 동안 통계 수업을 진행하는 과정에서 공부한 것을 정리하려고 한다. 이 과정의  목표는 Statistics의 기초개념과 원리, 방법을 토대로 어떻게 수집한 데이터를 요약할 수 있는 기술통계, 어떻게 분석한 데이터를 근거로 모집단의 특성을 추론할 수 있는지를 아는 추리통계, 어떻게 불확실한 미래의 사건을 예측할 수 있는지를 알 수 있는 회귀와 분류를 학습하는 것이다.

 

합의 법칙

두 사건 A와 B가 서로 상호 배타적일 때(동시에 발생할 수 없을 경우), A가 일어나는 경우의 수가 m이고, 사건 B가 일어나는 경우의 수가 n이면, 사건 A 또는 사건 B가 일어나는 경우의 총합은 m+n이다. 

곱의 법칙

두 독립 사건 A와 B가 일을 경우, 사건 A가 일어나는 경우의 수는 m이고, 사건 A의 각각의 결과에 대하여 독립적으로 사건 B가 일어나는 경우가 n이면, 두 사건 A와 B가 동ㅇ시에 일어나는 경우의 수는 mxn이다.

순열

순열은 서로 다른 n개에서 서로 다른 r개를 선택하여 일렬로 나열하는 것으로 n개에서 r개를 택한 순열이라고 하며, 아래와 같이 나타낸다.

n팩토리얼

1부터 n까지 자연수를 차례로 곱한 것을 n팩토리얼이라고 하며, 기호로는 n!처럼 나타냄 

순열의 다른 표현

팩토리얼을 활용하여 수식을 아래와 같이 나타낸다.

Permutation 실습 

import itertools
lists = [1,2,3,4]
a = list(itertools.permutations(lists,2))

len(a)

 

12

itertools는 반복 가능한 데이터 구조를 효율적으로 처리하는 데 유용한 여러 함수와 제네레이터를 제공해 준다. 여기서 제너레티너는 파이썬에서 Iterator를 생성하는 간단하며 강력한 도구를 의미한다.

서로 다른 n개에서 순서와 상관없이 r개를 선택하는 것을 n개에서 r개를 택한 조합이라고 하며𝒏𝑪𝒓로 표현한다.

 

b = list(itertools.combinations(lists,2))
len(b)

itertools는 반복 가능한 데이터 구조를 효율적으로 처리하는 데 유용한 여러 함수와 제네레이터를 제공해 준다. 여기서 제너레티너는 파이썬에서 Iterator를 생성하는 간단하며 강력한 도구를 의미한다.

 

변수

데이터를 통해서 변수의 특징을 파악하고, 여기서 데이터는 연구나 조사의 목적에 맞는 변수를 토대로, 표본으로부터 수집한 자료이다. 역할에 따라서 나뉘는데, 통계 조사를 수행할 경우, 표본의 특성을 표현하기 위한 경우에는 단일 변수 자료를 수집하고, 중요한 연구나 조사의 목적으로 할 때에는 다중 변수 자료를 수집한다.

연속변수는 주어진 범위 내에서 어떤 값도 가질 수 있는 변수로 체중, 키 등이 있고, 비연속 변수는 특정 수치만을 가질 수 있는 변수로 IQ점수 만 나이 등이 있다.

 

척도는 성격에 따라 범주형 척도와 연속형 척도로 구분되는데, 범주형 척도는 구분할 수 있는 척도로 명목척도와 서열척도로 구분하고, 연속형 척도란 연속하는 속성의 데이터를 연구나 조사의 목적에 맞게 구분한 척도이다. 

명목척도는 수나 순서와 관계없이 이름만 붙여지는 척도이고, 남/여, 서울/세종  등이 있다. 서열척도는 연산과는 관련없지만 순서나 서열로 구분할 수 있는 척도로, 1등, 2등, 3등 같은 예시가 있다.

등간척도는 측정한 자료들을 대상으로 합과 차가 가능한 척도로 온도와 리커트 척도 등의 있다. 비율척도는 등간의 성질과 함께 없다의 개념인 0의 값을 가지는 척도이다. 길이, 무게, 체중 등이 있다. 

 

모집단은 통계적 연구대상이 되는 전체집합이고, 비용 시간 문제 때문에 거의 안하는 조사이다. 모수는 모집단을 분석하여 알아낸 결과 수치로 모집단의 특성값이다. 모평균( μ ), 모분산, 모표준편차 등이 있다..

표본은 과학적인 방법으로 모집단을 대표할 수 있는 일부를 추출하여 연구나 조사를 실시하고자 할 때 선택한 모집단의 일부이다. 

 

통계량은 표본을 분석하여 알아낸 결과 수치이고, 표본 평균, 표본 분산, 표본표준편차 등이 있다.

 

 

 

반응형