본문 바로가기
Python/Data Science

데이터 사이언스

by hooni40 2021. 7. 12.
728x90
반응형

 데이터 사이언스란, 데이터 마이닝과 유사하게 정형, 비정형 형태를 포함한 다양한 데이터로부터 지식과 인사이트를 추출하는데 과학적 방법론, 프로세스, 알고리즘, 시스템을 동원하는 융합분야입니다. 더 간단히 정의하자면 데이터와 연관된 모든 것을 의미합니다. 데이터 사이언스를 하는데 필요한 것은 프로그래밍, 수학과 통계, 특정분야에 대한 전문성입니다. 결국 데이터 사이언티스트가 하는 일은 가치를 더할 수 있는 일을 찾아내고 데이터를 이용해 문제를 해결하는 것입니다.

 

데이터 사이언스에 대한 오해

1. 데이터 사이언스에서 가장 중요한 것은 인공지능과 딥러닝이다?

먼저 데이터 사이언스의 순서에 대해 정리를 하자면 데이터를 모으고, 옮기고, 저장한 후 데이터를 정리하는 데이터 엔지니어링을 합니다. 그 후 분석, A/B 테스트를 한 후 인공지능을 완성합니다.

 

2. 수학과 통계가 가장 중요하다?

데이터 사이언스의 목표는 가치를 더할 수 있는 문제를 찾아 데이터로 해결하는 것입니다. 수학과 통계도 중요하지만 문제를 찾는 인사이트엔지니어들과 커뮤니케이션도 중요합니다.

 

파이썬을 데이터 사이언스로 사용하는 이유?

R과 파이썬이 데이터 사이언스에서 많이 사용되는데요, R통계를 위해 만들어진 언어데이터 분석의 도구가 잘 갖춰져 있습니다. 파이썬의 경우 다양한 용도로 만들어진 언어로 데이터 분석의 도구가 평범합니다. R은 통계와 시각화만을 위한 툴로 다른 분야로 넘어가는 게 힘들지만 파이썬의 경우 웹이나 앱 등 다양한 분야와 결합이 가능합니다. 또한 최근에는 Numpy, Pandas, Tensorflow 등 다양한 라이브러리 덕분에 최근에 더 많이 사용되고 있습니다. 

 

데이터 사이언스 프로세스

데이터 사이언스의 순서에 대해 정리해 보겠습니다.

1. 문제 정의 : 해결하고자 하는 문제를 정의합니다. (목표/기간/평가 방법/필요한 데이터 설정)

2. 데이터 모으기 : 필요한 데이터를 모을 수 있는 방법을 찾습니다. (ex. 웹 크롤링, 자료 모으기, 파일 읽고 쓰기)

3. 데이터 다듬기 : 데이터의 퀄리티를 높여 의미 있는 분석이 가능하게합니다. (데이터 관찰/오류 제거/정리)

4. 데이터 분석하기 : 통계를 통해 데이터로부터 의미를 찾습니다.(데이터 파악/변형/통계 분석/인사이트 발견/의미 도출)

5. 커뮤니케이션 : 분석 결과를 다른 사람에게 전달합니다.(다양한 시각화/커뮤니케이션/리포트)

 

끝내며...

저는 이전 부서에서 소자의 특성을 확인하는 일을 하였었는데요, 조건을 변경하면서 소자의 특성의 경향을 파악하는데 데이터 사이언스가 이용될 수도 있었을 것 같습니다.. 비록 지금은 다른 업무를 하고 있지만 여기서도 데이터를 이용해 결과를 바꿀 수 있을 것이라고 생각합니다. 원래 웹 쪽 관련하여 자바스크립트 및 Django를 공부 중이었으나 최근에 데이터를 이용해서 저의 커리어를 높일 수 있을 것 같다는 생각을 하게 되었고 한번 데이터 및 머신러닝 쪽으로 공부를 해보려 합니다.

 

728x90
반응형

'Python > Data Science' 카테고리의 다른 글

Python - Numpy (3)  (0) 2021.07.17
Python - Numpy (2)  (0) 2021.07.16
Python - Numpy (1)  (0) 2021.07.15
Jupyter Notebook(2)  (0) 2021.07.14
Jupyter Notebook(1)  (0) 2021.07.13

댓글