본문 바로가기
728x90

Python49

통계학 기초 - 선형관계측도 및 탐색적 Data 분석(시각화) 선형 관계 측도 세상의 대부분 결과(예측 변수 등)는 하나의 변수에 의해 결정되지 않습니다. 이러한 상관관계를 표현하는 방식은 여러 개가 있는데요, 대표적으로 두 개의 연속형 변수 X와 Y 사이의 선형관계를 파악하고자 할 때 사용하는 게 표본 상관 계수입니다. 피어슨 상관 계수라고도 부릅니다. 위의 식을 간략히 설명드리면 두 변수의 공분산을 각 변수들의 표준편차의 곱으로 나눈 것입니다. 𝛄는 -1에서 1 사이의 값을 가지고, -1이면 높은 음의 상관관계를 가지고 1이면 높은 양의 상관관계를 가집니다. 0일 경우 상관관계가 없을 수도 있지만 비선형 상관관계를 가질 수도 있기에 산점도와 같은 시각화를 함께 확인해야 합니다. 탐색적 Data 분석(시각화) 평균, 중앙값과 같은 수치로만 데이터 분석을 하기에는 .. 2024. 3. 31.
통계학 기초- 통걔학 개요 및 모집단과 표본 회사에서 통계학 시험이 있어 공부할 겸 통계학 공부한 것에 대해 정리해보려 합니다. 오늘은 통계학의 개요와 모수, 표본에 대해 정리해 보겠습니다. 간단한 정리로 대부분의 수식은 생략하고 개념 위주로 정리했습니다. 통계학 개요 정형 데이터는 테이블로 표현되는 수치 데이터를 의미하며 정형 데이터에는 연속형 변수, 범주형 변수, 이산형 변수가 있습니다. -. 연속형 변수 : 데이터 중 실수값을 가지는 것들로 제조 데이터는 대부분 연속형 변수에 속합니다. (ex. 두께, 무게, 길이 등) -. 이상형 변수 : 셀 수 있는 데이터를 의미합니다. (ex. 불량 개수, 제품 수 등) -. 범주형 변수 : 명목형 변수와 순서형 변수가 있습니다. 순서가 있으면 순서형 변수, 없으면 명목형 변수입니다. (ex. 순서형 변.. 2024. 3. 30.
Data Science - 시각화 (4) 안녕하세요, 오늘은 Box plot에 대해 정리해보겠습니다. Box Plot은 데이터를 표현할 때 최댓값, 최솟값, 중간 값(50% 지점) 등 여러 특성을 한 번에 그래프로 나타낼 수 있습니다. 아래 그림은 제가 머신러닝을 공부하면서 강의를 듣는 코드 잇(Codeit) 자료를 가져온 것입니다. 구글 이미지보다 이해하기 쉬울 것 같아 첨부합니다. 위와 같은 Box plot으로 데이터를 해석하면 분포와 구간별 값들의 분산 정도 등을 알 수 있습니다. 이제 학생별로 시험 성적 데이터를 활용하여 Box plot을 그려보겠습니다. Box plot을 그리는 방법으로는 plot함수 안에 kind='box'를 해주면 Box plot으로 그래프가 그려집니다. 원본 데이터에서 math score만 뽑고자하면 y에 math.. 2021. 9. 5.
Data Science - 시각화 (3) 안녕하세요, 지난 시간까지 선 그래프, 막대그래프에 대해 정리하였습니다. 오늘은 파이 그래프, 히스토그램에 대해 정리해보겠습니다. 우선 파이 그래프는 투표와 같이 요소별로 몇 표가 받았는지 보다 전체 중에 얼마나 차지하고 있는지에 대해 확인할 때 유용합니다. 그리는 법은 plot 함수 안에 kind='pie'만 해주면 되는데요, 파이 그래프는 index를 기준으로 이름표를 붙이게 됩니다. 위의 그래프는 2017년에 각 방송사별 시청률을 파이 그래프로 나타낸 것인데요, 그럼 MBN 방송국의 연도별 시청률은 어떻게 될까요? 'MBN' Column에 plot함수를 사용해주면 쉽게 나타낼 수 있습니다! 다음으로는 히스토그램에 대해 정리해보겠습니다. 선그래프는 변화에 대해 볼 때 유용하고, 막대그래프는 항목들의 .. 2021. 8. 29.