데이터 분석

[데이터 분석] 통계 기본 용어 개념 및 데이터 종류 (1)

강담비 2022. 11. 10. 19:14
반응형

 

 

 

◼︎ 통계 기본 용어

 

 모집단(Population) : 통계분석 방법을 적용할 관심 대상의 전체 집합

 모수(Parameters) : 모집단을 분석하여 얻어지는 결과 수치
 표본(Sample) : 직접적인 조사 대상이 된 모집단의 일부
 통계량(Statistics) : 표본을 분석하여 얻어지는 결과 수치

 

 

 

◼︎ (기술)통계량 의 종류

 

 1-1) 평균(Mean)
 분산의 계산, 모수 추정, 가설 검증 등 통계 분석의 대표적인 값으로 널리 사용됨
 극단적인 값(이상치)에 민감하여, 자료의 수가 적고 극단 값이 여러 개인 경우 대푯값의 기능을 상실

 1-2) 기대값 E(X)
 평균이 수치형 데이터에 대한 대표값이라면, 기대값은 모르는 데이터에 대한 평균값이라 할 수 있음

 


 2) 중앙값(Median) = 중위수
 데이터를 순서대로 나열할 때 가운데 있는 값
 짝수일 경우, 양옆의 수를 더한 후, 2로 나눔
 이상치에 민감하지 않기 대문에 극단적인 이상치가 있는 경우, 평균 대신 대푯값으로 사용될 수 있음

 


 3) 최빈값(Mode)
 데이터 중에서 빈도가 가장 많은 값
 자료에 따라 존재하지 않을 수 있고 유일한 값이 아닐 수도 있음
 질적 변수에도 활용 가능, 즉, 명목, 서열자료에서 대푯값으로 사용

 


 열 = 변수(Variable) = Feature(특성) = Attribute(속성)
 행 = Observation = instance
 값 = Label = class = target

 

 

◼︎ 변이 통계량 (산포도 = 분산도)

 

: 자료가 흩어져 있는 정도(퍼진 정도)를 측정

    두 분포에서 자료의 흩어짐을 비교하는 데 이용

 


 1) 최솟값(Minimum)

 

 2) 최댓값(Maximum)

 

 3) 범위(Range) : 최소값과 최대값의 차이


 4) 분산(Variance)

 모든 편차를 제곱하고 이를 합한 후 자료 개수로 나눈 값

 표본표준편차를 구할 경우 (자료 개수 - 1) 로 나눔
 두 분포에서 자료의 흩어짐을 비교하는 데 이용

 원 자료의 단위와 달라짐


 5) 표준편차(Standard Deviation)

 분산의 제곱근 (루트분산)
 원래 자료의 단위로 환원되어 같은 단위로 측정된 평균이나 다른 통계량과 쉽게 비교할 수 있음


 6) 변동계수(Coefficient of variation, CV) = 상대표준편차
 표준편차를 평균으로 나눈 값
 서로 다른 데이터 간의 편차를 비교하는 방법
 - 모 변동계수(모집단에서), 표본변동계수(표본에서)


 7) 백분위수(Percentile)

 자료를 크기 순으로 정리하여 100등분 하였을 때 각 등분점에 위치하는 자료

 50 백분위수는 중앙값과 같음


 8) 사분위수(Quartile)

 자료를 크기 순으로 정리하여 4등분 하였을 때 각 등분점에 위치하는 자료

 

 Q1 = 1사분위수 = 25백분위수

 Q2 = 2사분위수 = 50백분위수 = 중앙값

 Q3 = 3사분위수 = 75백분위수


 9) 사분위수범위(Inter Quartile Range, IQR)

 1사분위수와 3사분위수의 차이

 

 

* 자유도 

 전체 데이터 중 실질적으로 독립적인 데이터들의 개수

 자유도 = 자료 개수 -1 (일반적으로)

 자유도를 고려하지 않은 표준편차는 실제 값을 과소 평가할 가능성이 높음

 

 

◼︎ 상자수염그림(Box plot)

 

자료분포의 특성을 그래프로 요약하는 방법
최소값, 1사분위수, 2사분위수(중앙값), 3사분위수, 최대값을 표현

 

◼︎ 위치 통계량 (분포의 모양)

 : 데이터분포의 형태와 대칭성을 설명


1) 왜도(skewness) : 분포의 대칭성을 알아보는 측도 // 기울어진 정도(양수 오른쪽 꼬리)
2) 첨도(kurtosis) : 정규분포 대비 봉오리의 높이를 알아보는 측도 // 뽀족한 정도(양수 : 정규분포보다 뾰족)

 

 

◼︎ 자료유형

 

  측정수준 범주특성  
상호배타성
포괄성 분류
(등가성)
서열비교 표준측정단위
덧셈뺄셈
(간격일정)
자연적 0 존재
곱셈나눗셈
(절대0)
측정예시
질적
자료
명목척도 0 X X X 남녀, 정당이름
서열척도 0 0 X X 직급(1급,2급), 상중하, 만족보통불만족
양적
자료
등간척도 0 0 0 X 온도, 직무 만족도(1~5), IQ, 물가지수
비율척도 0 0 0 0 인구증가율, 가구당 소득, 재정자립도

 

 

◼︎ 데이터 타입 별 분석 방법 및 시각화

 

- 데이터 타입

- 데이터 타입 별 시각화 방법

  기초통계 시각화
수치형(Numerical data)
: 양적 데이터, 숫자
분포분석

- 데이터의 특성을 분포로 설명
- 주요 항목은 범위, 평균, 분산, 표준편차, 측정오차 등
- 대부분의 분석 방법이 특정 분포를 가정
히스토그램, box plot, 산점도
범주형(Categorical data)
: 질적 데이터, 글자
빈도분석

- 범주별 출현 빈도에 기반한 분석
- 주요 항목은 빈도 , 비율, 누적비율등
- 특정 분포 가정없이 빈도에 기반한 확률을 사용
분할표, 파이그래프, 모자이크 plot

 

 

- 데이터 타입 별 분석 방법

  독립변수 X
수치형 범주형
종속변수 Y 수치형 상관분석 회귀분석 t-test ANOVA
범주형 로지스틱 회귀분석 카이제곱 검정