데이터 분석

[데이터 분석] 데이터 시각화 도구 및 특징 (2)

강담비 2022. 11. 10. 19:55
반응형

 



◼︎ 자료 정리 방법 

 

분할표(contingency table), 교차표(cross tabulation)

- 두 개 이상의 변수를 동시에 고려하여 관측개체의 빈도 정리


질적(범주형) 자료
- 도수분포표, 막대그래프(Bar chart), 원형그래프(Pie chart)등


양적(수치형) 자료
- 도수분포표, 히스토그램(Histogram), 상자그림(Box plot), 산점도(Scatter plot)등

 


◼︎ 차트

 

일변량 차트 (Univariate Charts)
: 변수 1개
- 범주형 : 원형그래프(Pie chart)
- 수치형 : 히스토그램, 상자그림(Box plot)

 


다변량 차트(Bivariate Chart)
: 변수 2개 이상- 범주형&수치형 : 상자그림(Box plot), 막대그래프(Bar Chart)
- 수치형&수치형 : 산점도(Scatter plot)
- 범주형&범주형 : 모자이크 플롯(mosaic plot)
- 범주형&범주형&수치형 : 누적세로막대형차트(Cluster stack column chart)

 

◼︎ 그래프 특징

 

 

1) 히스토그램(Histogram)

출처 : 위키백과

- 표로 되어있는 도수 분포를 정보 그림으로 나타낸 것

- 분포로 그룹, 이상치 존재여부 확인 가능

- 가로축이 계급, 세로축이 도수를 뜻함

 

 

 

2) 상자그림(box plot)

출처 : 위키백과

- 데이터를 사분위수로 쪼개는 것

- 상자그림의 수가 그룹의 수이고, 하한, 상한을 벗어난 점이 이상치

- 모든 데이터가 같은 값을 가지고 있다면, 사분위수가 1개의 값으로, 선도 1개만 나옴

 

 

 

3) 산점도(Scatter plot)

출처 : 위키백과

- 데이터를 점으로 표현한 것

- 분포나 점으로 그룹 이상치를 알 수 있음

- 데이터 간의 관계성(선형인지, 비선형인지) 알 수 있음. 인과관계는 알 수 없음