본문 바로가기
728x90

Python/Data Science25

Data Science - 시각화 (2) 안녕하세요, 이전 시간에는 Data Science에서 Data Frame의 시각화의 필요성과 선 그래프에 대하여 정리하였습니다. 오늘은 막대그래프에 대해 알아보겠습니다. 그전에 이 글에서 다룰 데이터는 남자/여자의 선호하는 운동에 대한 데이터입니다. 우선 막대그래프에 대해 먼저 알아보겠습니다. 막대그래프는 다양한 카테고리들을 비교하기에 좋은 그래프입니다. Pandas에서 막대그래프를 그리는 방법은 plot()함수 내에 kind='bar'로 설정해 주는 것입니다. 복습을 하고 넘어가자면 지난 시간에 정리한 선 그래프는 기본 그래프이므로 kind를 따로 지정해주지 않았습니다. (kind='line'이 기본 값입니다.) 위의 막대그래프에 여러 가지 변화를 줄 수 있는데요, 우선 세로 막대그래프가 아닌 가로 막.. 2021. 8. 22.
Data Science - 시각화 (1) 안녕하세요, 면접 후유증 및 회사일로 인해 공부할 시간이 줄어들어 오랜만에 글을 적습니다. 이전 시간까지 Data Frame을 다루는 법에 대해 정리하였었는데요, 오늘부터는 시각화에 대해 정리하려 합니다. Data Science에서 시각화는 직관성을 올려줍니다. 시각화의 장점으로는 그래프로 볼 경우 테이블보다 패턴이 잘 보이므로 분석에 도움이 되고, 그래프에서는 이상점(Outlier)과 같은 문제점이 쉽게 보입니다. 테이블보다 그래프가 직관적인 예시를 하나 보고 넘어가겠습니다. 연도별 방송사의 시청률을 나타낸 테이블을 그래프로 변환해 보았습니다. 아래를 보시면 테이블을 보고 해석하는 것보다 그래프를 보는 순간 KBS의 시청률이 가장 높고 시간이 지날수록 떨어지고 있구나라는 것을 직관적으로 알 수 있습니다.. 2021. 8. 20.
Python - Data Frame 다루기 간단 정리 문제를 풀면서 헷갈린 것들은 정리. -. Data Frame에서 원하는 값만 변경하는 방법: df.loc[조건1 & 조건2, “column이름”] = “변경 값” 적용 예시) 학년이 3학년이고, 성별이 남자인 학생의 취미(Column, Hobby)를 축구로 바꿔라 (Data Frame은 df) boolean1 = df['grade'] == 3 boolean2 = df['gender'] == male df.loc[boolean1 & boolean2, "Hobby"] = 'Soccer' -. Series.value_counts()의 리턴 값은 Series이고 Series.index를 사용하면 인덱스 값을 반환 [여기서 인덱스 = Row!] -. list(Series.index)를 하면 Series의 Inde.. 2021. 8. 16.
Python - Series 다루기 안녕하세요, 지난 시간에 큰 사이즈의 Data Frame 다루는 법을 정리했습니다. 이번엔 Pandas에서 Series들을 다루는 방법에 대해 간단히 정리해보겠습니다. Data Frame에서 하나의 Column에 속한 값들을 Series라고 할 수 있는데요, Column을 뽑는 방법은 []를 사용하면 쉽게 뽑을 수 있습니다. 아래 예시를 참고해주세요. 전체 Data Frame이 위와 같이 되어있을 경우 column 중 brand만 뽑아보면 아래와 같이 나옵니다. 여기서 index가 167개가 있어 각각에 해당하는 brand를 모두 출력하지는 못하고 중간에...으로 생략이 되어있는 것을 확인할 수 있습니다. 이것을 간략하게 어떤 brand들이 있는지 확인하려면 .unique()함수를 사용하면 되고, 각각의.. 2021. 8. 10.