Python - Pandas (1)

728x90

안녕하세요, 지난 시간까지 Numpy 모듈에 대해 정리하면서 python의 list와 numpy의 array의 차이까지 간단히 살펴보았습니다. 오늘부터 Data Science에서 중요한 데이터 보관/ 데이터 정리/ 데이터 분석 기능을 할 수 있도록 하는 Pandas 라이브러리에 대해 정리해보겠습니다.

Pandas에는 numpy의 기능과 외부에서 데이터를 읽고 쓰는 기능, 시각화하는 기능 등 다양한 기능들이 들어있습니다. 간략히 Pandas와 Numpy를 설명드리면 Numpy는 푸리에 변환과 같은 수학과 과학 연산에 특화되어 있고, Pandas의 경우 데이터 베이스(데이터 프레임)를 다루기 위한 모듈이라고 생각하시면 될 것 같습니다.

Data Frame은 표형식의 데이터를 담는 자료형으로 대부분의 데이터 프레임들은 2차원 표 형식으로 되어있습니다. 행(row/index)과 열(column)으로 이루어져 있습니다. 일반적으로 Column은 데이터의 특징을 나타내고 Index(Row)는 레코드라고도 부르며 Column의 특징들을 갖는 하나의 개체입니다.

이제 Pandas를 이용해 Data Frame을 만들어 보겠습니다. Numpy와 마찬가지로 import로 모듈을 불러온 후 DataFrame함수를 이용하여 표로 만들 수 있습니다. type을 이용하면 DataFrame인 것을 확인하실 수 있습니다.

그런데 위의 Data Frame에서 row와 column이 0,1,2로 숫자로 되어있는 것을 확인하실 수 있으신데요, 이것은 따로 설정해주지 않았기 때문입니다. 처음 DataFrame을 만들 때 columns와 index를 사용하여 설정해줄 수 있습니다. 또한 DataFrame의 column(속성)의 type을 dtypes로 출력할 경우 각 column의 자료형은 다를 수도 있는 것을 확인하실 수 있습니다. 여기서 주의할 점은 하나의 column 내의 인자들은 동일한 자료형을 가져야 합니다!

728x90

저작자표시 (새창열림)

'Python > Data Science' 카테고리의 다른 글

Python - Pandas (3) (0)	2021.07.22
Python - Pandas (2) (0)	2021.07.21
Python - Numpy (3) (0)	2021.07.17
Python - Numpy (2) (0)	2021.07.16
Python - Numpy (1) (0)	2021.07.15