Data Engineer
[python] dataprep을 이용하여 EDA (데이터 분석) 레포트 쉽게 만들기
jssvs
2021. 6. 6. 16:19
반응형
1.EDA란?
Exploratory Data Analysis 의 줄임말로, 탐색적 데이터 분석이란 의미다.
내가 이해한바로는 데이터에서 유의미한 인사이트를 찾기 위해 다각도로 시각화하는 작업을 포함한 분석 정도로 이해했다.
2.왜 EDA 툴을 사용하지?
EDA 작업은 시간과 노력이 많이 들어간다. 파이썬 패키지를 통해 코드 몇줄로 이러한 시간 및 고생을 줄일 수 있다.
3. 레포트 생성
a) 사전 준비 하기
- DataPrep 이라는 패키지를 이용해서 레포트를 만들어 볼 것이다.
- jupyter 노트북이 설치 되어 있어야 한다
- pandas,dataprep 이 설치 되어 있어야 한다.
# pandas 설치
$ pip install pandas
# dataprep 설치 https://pypi.org/project/dataprep/
$ pip install -U dataprep
- 데이터를 준비한다
- 공공 데이터 포털에서 쉽게 얻을 수 있다. ( https://www.data.go.kr/index.do )
- csv 파일로 준비하면 좋다. 엑셀이나 다른 파일도 가능은 한데 pandas로 읽기 위한 작업을 추가로 해야 할 것이다.
b) 데이터 읽기
- 공공 데이터 포털에서 받았다면, csv 를 읽어 pandas 로 Load 할 때 인코딩 타입은 cp949 로 설정해야 문제 없이 실행될 것이다
- 패키지 import와 데이터를 읽어서 눈으로 확인해보자
c) 레포트 생성하기
- create_report 함수를 이용해서 레포트를 생성한다.
- 자동으로 생성된 레포트에는 데이터의 기초 통계, 변수별 통계, 상관관계 및 Interactions 차트 등 을 확인 할 수 있다.
4. 코드
# 설치 https://pypi.org/project/dataprep/
$ pip install -U dataprep
# 패키지 선언
from dataprep.eda import create_report
#csv 읽기, dataframe 생성하기
sample_df = pd.read_csv('sample_data.csv',encoding='cp949')
#리포트 생성하기
create_report(sample_df)
반응형