회사에서 통계학 시험이 있어 공부할 겸 통계학 공부한 것에 대해 정리해보려 합니다. 오늘은 통계학의 개요와 모수, 표본에 대해 정리해 보겠습니다. 간단한 정리로 대부분의 수식은 생략하고 개념 위주로 정리했습니다.
통계학 개요
정형 데이터는 테이블로 표현되는 수치 데이터를 의미하며 정형 데이터에는 연속형 변수, 범주형 변수, 이산형 변수가 있습니다.
-. 연속형 변수 : 데이터 중 실수값을 가지는 것들로 제조 데이터는 대부분 연속형 변수에 속합니다. (ex. 두께, 무게, 길이 등)
-. 이상형 변수 : 셀 수 있는 데이터를 의미합니다. (ex. 불량 개수, 제품 수 등)
-. 범주형 변수 : 명목형 변수와 순서형 변수가 있습니다. 순서가 있으면 순서형 변수, 없으면 명목형 변수입니다.
(ex. 순서형 변수 : 온도의 높고 낮음 / 명목형 변수 : 레시피의 종류, 제품 정상/불량 등)
통계학은 크게 기술 통계학과 추론 통계학이 있습니다. 기술 통계학은 관측된 데이터를 요약 및 시각화하는 것입니다. 표본의 평균, 중앙값, 분산 등이 있습니다. 추론 통계학은 관측된 데이터를 분석하여 모집단의 특성을 분석하는 것입니다. 가설을 검정하여 모수를 추정하는 것입니다.
모집단과 표본
모집단은 관심 대상의 집합을 의미하며 모집단 분포를 갖습니다. 일반적으로 모집단의 분포는 신이 아닌 이상 알 수 없습니다. 표본은 데이터를 랜덤 하게 추출하는 샘플링을 의미합니다. 모집단과 표본 모두 중심위치와 산포에 대한 측도를 가지고 있습니다.
중심위치 측도 : 평균, 중앙값, 최빈값이 있습니다. 평균은 모든 X를 더한 값을 X의 개수로 나눈 것입니다. 중간 값은 단어 그대로 모든 X를 정렬 후 가장 가운데 값을 의미합니다. 마지막으로 표본 최빈값은 표본 데이터 중 가장 자주 나오는 값을 의미하는데요, 주로 명목형 변수의 비율을 확인할 때 사용되는 측도입니다.
중심위치 측도에서 평균과 중간값이 가장 많이 사용되고 현업에서 혼동이 되는데요, 중간값은 이상치에 영향을 덜 받지만 모든 표본을 반영할 수 없기 때문입니다. 평균은 반대로 이상치에 영향을 받지만 모든 표본을 반영하는 장점이 있습니다.
산포 측도 : 산포측도로는 분산, 표준편차, 범위, 사분위수 등이 있습니다. 분산과 표준편차는 평균으로부터 떨어진 정도에 대한 정보를 포함하고 범위는 최댓값에서 최솟값을 뺀 값입니다. 범위는 이상치를 고려하지 못한다는 단점이 있는데요, 이것을 보완하는 것이 사분위수입니다. 사분위수는 데이터를 오름차순 하여 전체를 4 등분하는 지점을 사분위수라고 합니다.
분포의 비대칭성을 나타내는 측도도 있는데요, 왜도와 첨도가 있습니다. 왜도(Skew)는 측정하는 공식이 여러 개 있는데요, 정규분포에 비해 얼마나 치우쳐져 있는지에 대한 것이고, 첨도는 쉽게 이해하면 뾰족한 정도입니다.
'Python > Data Science' 카테고리의 다른 글
통계학 기초 - 선형관계측도 및 탐색적 Data 분석(시각화) (0) | 2024.03.31 |
---|---|
Data Science - 시각화 (4) (0) | 2021.09.05 |
Data Science - 시각화 (3) (0) | 2021.08.29 |
Data Science - 시각화 (2) (0) | 2021.08.22 |
Data Science - 시각화 (1) (0) | 2021.08.20 |
댓글