본문 바로가기
Python/Data Science

통계학 기초 - 선형관계측도 및 탐색적 Data 분석(시각화)

by hooni40 2024. 3. 31.
728x90
반응형

 선형 관계 측도

 세상의 대부분 결과(예측 변수 등)는 하나의 변수에 의해 결정되지 않습니다. 이러한 상관관계를 표현하는 방식은 여러 개가 있는데요, 대표적으로 두 개의 연속형 변수 X와 Y 사이의 선형관계를 파악하고자 할 때 사용하는 게 표본 상관 계수입니다. 피어슨 상관 계수라고도 부릅니다.

표본 상관 계수 (피어슨 상관 계수)

 

 위의 식을 간략히 설명드리면 두 변수의 공분산을 각 변수들의 표준편차의 곱으로 나눈 것입니다. 𝛄는 -1에서 1 사이의 값을 가지고, -1이면 높은 음의 상관관계를 가지고 1이면 높은 양의 상관관계를 가집니다. 0일 경우 상관관계가 없을 수도 있지만 비선형 상관관계를 가질 수도 있기에 산점도와 같은 시각화를 함께 확인해야 합니다.

 

 탐색적 Data 분석(시각화)

 평균, 중앙값과 같은 수치로만 데이터 분석을 하기에는 한눈에 파악하기 힘들 수 있습니다. 위의 상관 계수만 봐도 수치만으로는 두 변수가 얼마나 강한 상관관계를 가지는지 알 수 없습니다. 이럴 경우 시각화 분석은 쉽고 강력한 도구가 됩니다.

 

 시각화는 어떠한 데이터인지에 따라 강력한 효과를 가지는 시각화 분석 기법이 나누어지는데요, 단변량(단일변수) 데이터 분석과 다변량 데이터 분석이 있습니다.

 

 -. 단변량 데이터 분석 : 히스토그램, 파이차트, 런차트, 박스플롯, 바이올린 플롯 등

 -. 다변량 데이터 분석 : 산점도, 히트맵 등

 

 -. 히스토그램 : 연속형 변수에 대해 구간별 빈도수나 빈도비율을 막대그래프를 통해 나타냄

 -. 파이차트 : 특정 데이터에 대한 각 범주의 구성비율을 나타냄

 -. 런차트 : 데이터를 시간 순서로 표시함(시간에 따른 데이터 변화를 관리합니다. 경시라고도 함)

 -. 박스플롯 : 연속형 데이터를 사분위수를 이용해 그립니다. 각 그룹의 중심위치(Q2)나 산포(IQR)를 쉽게 비교 가능

 -. 바이올린플롯 : 박스플롯의 경우 분포의 상세한 특징(밀도 등)이 생략되지만 바이올린플롯은 밀도도 확인가능

728x90
반응형

'Python > Data Science' 카테고리의 다른 글

통계학 기초- 통걔학 개요 및 모집단과 표본  (0) 2024.03.30
Data Science - 시각화 (4)  (0) 2021.09.05
Data Science - 시각화 (3)  (0) 2021.08.29
Data Science - 시각화 (2)  (0) 2021.08.22
Data Science - 시각화 (1)  (0) 2021.08.20

댓글