데이터 사이언스란, 데이터 마이닝과 유사하게 정형, 비정형 형태를 포함한 다양한 데이터로부터 지식과 인사이트를 추출하는데 과학적 방법론, 프로세스, 알고리즘, 시스템을 동원하는 융합분야입니다. 더 간단히 정의하자면 데이터와 연관된 모든 것을 의미합니다. 데이터 사이언스를 하는데 필요한 것은 프로그래밍, 수학과 통계, 특정분야에 대한 전문성입니다. 결국 데이터 사이언티스트가 하는 일은 가치를 더할 수 있는 일을 찾아내고 데이터를 이용해 문제를 해결하는 것입니다.
◆ 데이터 사이언스에 대한 오해
1. 데이터 사이언스에서 가장 중요한 것은 인공지능과 딥러닝이다?
먼저 데이터 사이언스의 순서에 대해 정리를 하자면 데이터를 모으고, 옮기고, 저장한 후 데이터를 정리하는 데이터 엔지니어링을 합니다. 그 후 분석, A/B 테스트를 한 후 인공지능을 완성합니다.
2. 수학과 통계가 가장 중요하다?
데이터 사이언스의 목표는 가치를 더할 수 있는 문제를 찾아 데이터로 해결하는 것입니다. 수학과 통계도 중요하지만 문제를 찾는 인사이트와 엔지니어들과 커뮤니케이션도 중요합니다.
◆ 파이썬을 데이터 사이언스로 사용하는 이유?
R과 파이썬이 데이터 사이언스에서 많이 사용되는데요, R은 통계를 위해 만들어진 언어로 데이터 분석의 도구가 잘 갖춰져 있습니다. 파이썬의 경우 다양한 용도로 만들어진 언어로 데이터 분석의 도구가 평범합니다. R은 통계와 시각화만을 위한 툴로 다른 분야로 넘어가는 게 힘들지만 파이썬의 경우 웹이나 앱 등 다양한 분야와 결합이 가능합니다. 또한 최근에는 Numpy, Pandas, Tensorflow 등 다양한 라이브러리 덕분에 최근에 더 많이 사용되고 있습니다.
◆ 데이터 사이언스 프로세스
데이터 사이언스의 순서에 대해 정리해 보겠습니다.
1. 문제 정의 : 해결하고자 하는 문제를 정의합니다. (목표/기간/평가 방법/필요한 데이터 설정)
2. 데이터 모으기 : 필요한 데이터를 모을 수 있는 방법을 찾습니다. (ex. 웹 크롤링, 자료 모으기, 파일 읽고 쓰기)
3. 데이터 다듬기 : 데이터의 퀄리티를 높여 의미 있는 분석이 가능하게합니다. (데이터 관찰/오류 제거/정리)
4. 데이터 분석하기 : 통계를 통해 데이터로부터 의미를 찾습니다.(데이터 파악/변형/통계 분석/인사이트 발견/의미 도출)
5. 커뮤니케이션 : 분석 결과를 다른 사람에게 전달합니다.(다양한 시각화/커뮤니케이션/리포트)
끝내며...
저는 이전 부서에서 소자의 특성을 확인하는 일을 하였었는데요, 조건을 변경하면서 소자의 특성의 경향을 파악하는데 데이터 사이언스가 이용될 수도 있었을 것 같습니다.. 비록 지금은 다른 업무를 하고 있지만 여기서도 데이터를 이용해 결과를 바꿀 수 있을 것이라고 생각합니다. 원래 웹 쪽 관련하여 자바스크립트 및 Django를 공부 중이었으나 최근에 데이터를 이용해서 저의 커리어를 높일 수 있을 것 같다는 생각을 하게 되었고 한번 데이터 및 머신러닝 쪽으로 공부를 해보려 합니다.
'Python > Data Science' 카테고리의 다른 글
Python - Numpy (3) (0) | 2021.07.17 |
---|---|
Python - Numpy (2) (0) | 2021.07.16 |
Python - Numpy (1) (0) | 2021.07.15 |
Jupyter Notebook(2) (0) | 2021.07.14 |
Jupyter Notebook(1) (0) | 2021.07.13 |
댓글