728x90 Python38 Data Science - 시각화 (4) 안녕하세요, 오늘은 Box plot에 대해 정리해보겠습니다. Box Plot은 데이터를 표현할 때 최댓값, 최솟값, 중간 값(50% 지점) 등 여러 특성을 한 번에 그래프로 나타낼 수 있습니다. 아래 그림은 제가 머신러닝을 공부하면서 강의를 듣는 코드 잇(Codeit) 자료를 가져온 것입니다. 구글 이미지보다 이해하기 쉬울 것 같아 첨부합니다. 위와 같은 Box plot으로 데이터를 해석하면 분포와 구간별 값들의 분산 정도 등을 알 수 있습니다. 이제 학생별로 시험 성적 데이터를 활용하여 Box plot을 그려보겠습니다. Box plot을 그리는 방법으로는 plot함수 안에 kind='box'를 해주면 Box plot으로 그래프가 그려집니다. 원본 데이터에서 math score만 뽑고자하면 y에 math.. 2021. 9. 5. Data Science - 시각화 (3) 안녕하세요, 지난 시간까지 선 그래프, 막대그래프에 대해 정리하였습니다. 오늘은 파이 그래프, 히스토그램에 대해 정리해보겠습니다. 우선 파이 그래프는 투표와 같이 요소별로 몇 표가 받았는지 보다 전체 중에 얼마나 차지하고 있는지에 대해 확인할 때 유용합니다. 그리는 법은 plot 함수 안에 kind='pie'만 해주면 되는데요, 파이 그래프는 index를 기준으로 이름표를 붙이게 됩니다. 위의 그래프는 2017년에 각 방송사별 시청률을 파이 그래프로 나타낸 것인데요, 그럼 MBN 방송국의 연도별 시청률은 어떻게 될까요? 'MBN' Column에 plot함수를 사용해주면 쉽게 나타낼 수 있습니다! 다음으로는 히스토그램에 대해 정리해보겠습니다. 선그래프는 변화에 대해 볼 때 유용하고, 막대그래프는 항목들의 .. 2021. 8. 29. Data Science - 시각화 (1) 안녕하세요, 면접 후유증 및 회사일로 인해 공부할 시간이 줄어들어 오랜만에 글을 적습니다. 이전 시간까지 Data Frame을 다루는 법에 대해 정리하였었는데요, 오늘부터는 시각화에 대해 정리하려 합니다. Data Science에서 시각화는 직관성을 올려줍니다. 시각화의 장점으로는 그래프로 볼 경우 테이블보다 패턴이 잘 보이므로 분석에 도움이 되고, 그래프에서는 이상점(Outlier)과 같은 문제점이 쉽게 보입니다. 테이블보다 그래프가 직관적인 예시를 하나 보고 넘어가겠습니다. 연도별 방송사의 시청률을 나타낸 테이블을 그래프로 변환해 보았습니다. 아래를 보시면 테이블을 보고 해석하는 것보다 그래프를 보는 순간 KBS의 시청률이 가장 높고 시간이 지날수록 떨어지고 있구나라는 것을 직관적으로 알 수 있습니다.. 2021. 8. 20. Python - Data Frame 다루기 간단 정리 문제를 풀면서 헷갈린 것들은 정리. -. Data Frame에서 원하는 값만 변경하는 방법: df.loc[조건1 & 조건2, “column이름”] = “변경 값” 적용 예시) 학년이 3학년이고, 성별이 남자인 학생의 취미(Column, Hobby)를 축구로 바꿔라 (Data Frame은 df) boolean1 = df['grade'] == 3 boolean2 = df['gender'] == male df.loc[boolean1 & boolean2, "Hobby"] = 'Soccer' -. Series.value_counts()의 리턴 값은 Series이고 Series.index를 사용하면 인덱스 값을 반환 [여기서 인덱스 = Row!] -. list(Series.index)를 하면 Series의 Inde.. 2021. 8. 16. 이전 1 2 3 4 ··· 10 다음