데이터 분석

[데이터 분석] 주요 확률분포 정규/t/카이제곱/F (5)

강담비 2023. 2. 13. 23:44
반응형

 

 

◼︎ 정규분포(Normal Distribution)

: 추론에 사용되기 때문에 중요
연속확률변수를 기술하는 가장 중요한 확률분포


정규곡선은 종모양
정규분포는 평균을 중심으로 좌우대칭 평균=중앙값=최빈값
정규분포의 형태와 위치는 평균과 표준편차가 결정
정규곡선은 x축에 닿지 않으므로 확률변수 X의 범위는 -무한 < x < +무한
정규곡선 밑의 면적은 1 오른쪽으로 또는 왼쪽으로 곡선 밑의 면적은 0.5
정규곡선 밑의 두 점 사이의 면적은 정규확률변수가 이들 두 점 사이를 취할 확률

◼︎ 중심극한정리

: 표본 평균의 평균은 정규형태를 따른다.

 

◼︎ 표준정규분포(Standard Normal Distribution)

확률변수 Z가 평균 = 0, 분산 = 1인 정규분포
-1.96~1.96안에는 95% 데이터가 있음
Z분포라고도 부르며 Z~N(0, 1)로 표현
서로 다른 평균과 분산을 가진 분포 사이의 비교가 가능

 

확률변수 계산

 

step1 주어진 x값을 평균과 표준편차를 이용하여 z값으로 변환
Z = (x-평균)/표준편차

step2 표준정규분포표 혹은 주어진 z값 정보를 이용하여 확률 확인

◼︎ t분포(Studente's Distribution)

: 보통 표본수가 30개 미만일 때, 모집단의 분산 모를경우 가설검정과 회귀분석시, 선형 회귀 계수 추론 시 활용, 표본을 보고 모집단의 평균을 추론하고 싶을 때 사용

 

정규분포와 유사하게 좌우 대칭 종모양으로 중심은 0
자유도에 따라 형태가 달라짐
- 표본의 수가 충분히 크면 표준정규분포와 거의 같아짐 (표본이 무한에 가까워지면 동일)
- 표본의 수가 적으면 양쪽 꼬리가 더 두터워 짐 (데이터가 중심에 덜 모여 있음)
표본의 수가 적을 경우 (보통 30미만일 경우)의 평균 검정을 위하여 고안된 분포
확률변수 계산

 

◼︎ 카이제곱분포(Chi-squared Distribution)

: 표본의 k개의 표본을 가지고 모집단 분산 추론시, 카이제곱 검정 시,
표준정규분포를 제곱한 값에 대한 분포

k개의 표본의 표본이 서로 독립적인 정규분포를 따를 때, 이들의 제곱합은 자유도가 k인 카이제곱분포 따름

자유도가 k인 카이제곱분포의 평균은 k, 분산은 2k
항상 양수이며, 오른쪽 꼬리 분포로 자유도가 커질 수록 정규분포에 가까워짐

 

카이제곱 분포

 

 

◼︎ F분포 (F Distribution)

: 두 모집단 에서 분산비를 활용해 동질성 여부 검정하거나 평균치 간의 차이 유무 검정(F-검정 분산분석, 회귀분석 )시 활용
두개의 카이제곱분포의 비율
두 분산간의 동질성 여부를 검정하거나 두 개 이상의 평균치 간의 차이 유무를 검정

두 확률변수가 각각 자유도 k1, k2이고  서로 독립적인 카이제곱분포를 따른다고 할 때, 확률변수 F는 자유도가 (k1, k2)인 F분포를 따른다.
항상 양수정규
왼쪽으로 치우친 모양으로 두개의 자유도가 커질 수록 정규분포에 가까워짐

이산확률분포 - 포아송분포
연속확률분포 - 지수분포, 정규분포, t분포, 카이제곱분포, F분포

 

이산확률분포 포아송분포 단위 시공간에서 발생하는 사건의 수(람다)
구간 내 일정한 확률분포와 독립적인 사상 가정
한 시간동안 콜센터에 걸려오는 전화 통화 수
연속확률분포 지수분포 다음 사건이 발생할 때까지의 대기시간 (1/람다)
무기억성 : P(X >= x+y|X >= x) = P(X>=y)
다음 고객이 올 때까지의 대기 시간
정규분포 좌우 대칭의 종모양 분포
대표본 모집단에 대한 추론 시
수능점수 표준화, 6-시그마 등
t분포 정규분포에 유사하나 표본이 적은 경우 사용
소표본인 경우 또는 대표본 경우 모분산 모를 때 사용
모집단 평균 추론 시, 선형 회귀 계수 추론 시
카이제곱분포 표준정규분포를 제곱한 값에 대한 분포
왼쪽으로 치우친 모양으로 자유도에 따라 모양이 다름
모집단 분산 추론 시, 카이제곱 검정 시
F분포 두 개 카이제곱분포의 비윤
왼쪽으로 치우친 모양으로 두개의 자유도에 따라 모양이 다름
두 모집단 분산차이 비교 시, 분산분석, 회귀분석 등