데이터 분석 7

[데이터 분석] 차원 축소 Feature Selection(변수 선택) vs Feature Extraction(변수 추출)

Dimension Reduction(차원 축소) * 차원(dimensionality) = 독립변수(입력변수)의 수 불필요한 변수의 사용 시 1. 모델의 과적합(overfitting) 현상 2. 계산 비용 증가 3. 시각화의 어려움 머신러닝에서 정확도 감소를 최소화하면서 차원 축소하는 것이 중요 Curse of Dimensionality (차원의 저주) 차원이 커질수록 해당 공간(space)을 표현하데 필요한 데이터가 기하급수적으로 많아지는 현상 > cost 증가 차원 증가 > 데이터 밀집도 감소 > 데이터 포인트 간의 거리 멀어짐 > 패턴 발견 어려움 > 모델 정확도 감소 Feature Selection vs Feature Extraction - 장단점 Feature Selection(변수 선택) 장점 ..

데이터 분석 2023.08.05

[ Anaconda ] 아나콘다 설치 에러 - Error: Due to incompatibility with several Python libraries, 'Destination Folder' cannot contain non-ascii characters | Please check permissions or try respawning the installer with elevated privileges

최근에 다시 아나콘다 설치하려는데, 에러가 뜨길래 남겨본다. 두 가지 에러가 있었는데, 첫째는 설치할 경로 설정 후 다음 눌렀는데 뜬 에러. 아나콘다 경로 에러 - 1 해석해보면 'Destination Folder'에 non-ascii 문자가 있으면 안 된다고 한다. 아스키코드 (American Standard Code for Information Interchange, 미국 정보 교환 표준 부호)는 잘 아시다 싶이 아래와 같은 문자만 해당된다. 따라서 이 에러는 폴더 경로에 아스키코드로 표현 불가능한 문자가 포함되어 있다는 것. 해결 방법 설치 경로에 아스키 코드로 표현하지 못하는 문자 모두 제거한다. 대부분 경로에 한글이 들어가지 않도록 수정하면 해당 에러가 사라진다. 아나콘다 경로 에러 - 2 사용..

데이터 분석 2023.08.04

[데이터 분석] 주요 확률분포 정규/t/카이제곱/F (5)

◼︎ 정규분포(Normal Distribution) : 추론에 사용되기 때문에 중요 연속확률변수를 기술하는 가장 중요한 확률분포 정규곡선은 종모양 정규분포는 평균을 중심으로 좌우대칭 평균=중앙값=최빈값 정규분포의 형태와 위치는 평균과 표준편차가 결정 정규곡선은 x축에 닿지 않으므로 확률변수 X의 범위는 -무한 < x < +무한 정규곡선 밑의 면적은 1 오른쪽으로 또는 왼쪽으로 곡선 밑의 면적은 0.5 정규곡선 밑의 두 점 사이의 면적은 정규확률변수가 이들 두 점 사이를 취할 확률 ◼︎ 중심극한정리 : 표본 평균의 평균은 정규형태를 따른다. ◼︎ 표준정규분포(Standard Normal Distribution) 확률변수 Z가 평균 = 0, 분산 = 1인 정규분포 -1.96~1.96안에는 95% 데이터가 있..

데이터 분석 2023.02.13

[데이터 분석] 주요확률분포 이산/연속/균등/이항/포아송/지수 (4)

◼︎ 확률변수와 확률분포 1) 확률변수 : 표본공간의 원소를 실수로 대응한 값 2) 확률분포 : 확률변수와 그 값이 나올 수 있는 확률을 대응시켜 표시하는 것 어떤 확률변수가 어떤 확률분포에 대응할 때, "확률분포에 따른다"라고 표현 ex) 동전던지기에서 HH을 0/ HT, TH를 1/ TT를 2로 맵핑 확률변수 0 1 2 확률분포 1/4 2/4 1/4 *범주형 데이터를 계산하기 위해 실수로 표현 ◼︎ 확률분포함수 : 확률변수 X가 취할 확률을 X의 함수로 나타낸 것 1) 확률질량함수(probability mass function, PMF) : 이산확률변수에서 특정한 값에 대한 확율을 나타내는 함수, 이산확률분포 특정한 위치에서 확률을 구할 수 있음 2) 확률밀도함수(probability density ..

데이터 분석 2022.12.09

[데이터 분석] 확률 & 베이즈 정리 (3)

◼︎ 확률 - 전체 중에서 나온 비율 - 0~1 사이의 값 - 확률의 합 = 1 ◼︎ 확률 실험(E) 다음 3가지를 만족 1) 결과는 알 수 없음 2) 결과로 나타날 수 있는 가능한 경우들은 알고 있음 3) 동일한 실험을 반복할 수 있음 ◼︎ 표본공간(S) 확률실험으로 출현 가능한 모든 결과들의 모임 S = {H, T} 동전 던지기 ◼︎ 사건 표본공간의 각 원소들의 부분집합 ex) {H}, {T} 사건의 연산 : 합사건, 곱사건, 여사건, 배반사건, 독립사건 배반사건 : 두 사건이 겹치는 부분이 없는 즉, 동시에 발생하지 않는 사건 (여사건 X) 독립사건 : 두 사건이 서로의 발생에 영향을 끼치지 않는 사건 ◼︎ 베이즈 정리 (Bayes' theorem)​ 0) 베이즈 정리 공식 1) 조건부 확률 A가 ..

데이터 분석 2022.11.10

[데이터 분석] 데이터 시각화 도구 및 특징 (2)

◼︎ 자료 정리 방법 분할표(contingency table), 교차표(cross tabulation) - 두 개 이상의 변수를 동시에 고려하여 관측개체의 빈도 정리 질적(범주형) 자료 - 도수분포표, 막대그래프(Bar chart), 원형그래프(Pie chart)등 양적(수치형) 자료 - 도수분포표, 히스토그램(Histogram), 상자그림(Box plot), 산점도(Scatter plot)등 ◼︎ 차트 일변량 차트 (Univariate Charts) : 변수 1개 - 범주형 : 원형그래프(Pie chart) - 수치형 : 히스토그램, 상자그림(Box plot) 다변량 차트(Bivariate Chart) : 변수 2개 이상- 범주형&수치형 : 상자그림(Box plot), 막대그래프(Bar Chart) -..

데이터 분석 2022.11.10

[데이터 분석] 통계 기본 용어 개념 및 데이터 종류 (1)

◼︎ 통계 기본 용어 모집단(Population) : 통계분석 방법을 적용할 관심 대상의 전체 집합 모수(Parameters) : 모집단을 분석하여 얻어지는 결과 수치 표본(Sample) : 직접적인 조사 대상이 된 모집단의 일부 통계량(Statistics) : 표본을 분석하여 얻어지는 결과 수치 ◼︎ (기술)통계량 의 종류 1-1) 평균(Mean) 분산의 계산, 모수 추정, 가설 검증 등 통계 분석의 대표적인 값으로 널리 사용됨 극단적인 값(이상치)에 민감하여, 자료의 수가 적고 극단 값이 여러 개인 경우 대푯값의 기능을 상실 1-2) 기대값 E(X) 평균이 수치형 데이터에 대한 대표값이라면, 기대값은 모르는 데이터에 대한 평균값이라 할 수 있음 2) 중앙값(Median) = 중위수 데이터를 순서대로 ..

데이터 분석 2022.11.10