관리 메뉴

ComputerVision Jack

[판다스 Chapter4] 본문

Data Processing/Pandas Lib

[판다스 Chapter4]

JackYoon 2020. 2. 1. 01:31
반응형

 

import matplotlib.pyplot as plt

%matplotlib inline

 

imprt seaborn as sns

[4-1 데이터 시각화 필요한 이유]

앤스콤 데이터

4개의 데이터 그룹은 평균, 분산과 같은 수치적 특징이 같다.

하지만 시각화로 표기하면 데이터가 다르게 표시 되는 것을 알 수 있다.

 

seaborn라이브러리를 이용하여 anscombe데이터를 읽어온다.

matplotlib 라이브러리를 이용하여 그래프를 그린다.

 

matplotlib라이브러리를 이용하여 anscombe데이터 4개 다 그려보기

  • 전체 그래프가 위치할 기본 틀을 만든다.
  • 그래프를 그려 넣을 격자를 만든다.
  • 격자에 그래프를 하나씩 추가한다. 
  • 첫번째 행이 꽉차면 두번째 행에 그래프를 그려 넣는다.

fig = plt.figure()

#그래프가 들어갈 기본 틀을 만든다.

 

axes = fig.add_subplot(틀 행, 틀 열, 인덱스)

#add_subplot() 함수를 사용하여 그래프 틀에 격자를 넣는다.

 

axes = plot(dataset1['x'], dataset['y'], 'o')

#plot을 이용하여 만든 격자에 그래프를 넣는다.

 

axes.set_title() : 그래프 격자에 제목이 추가된다.

 

fig.suptitle() : 전체 그래프틀 제목이 추가된다.

 

fig.tight_layout() : 그래프의 레이아웃을 조절한다.

anscombe 데이터 4그룹 시각화

[4-2 matplotlib 라이브러리]

기초 그래프 그리기

seaborn 라이브러리에 있는 tips 데이터를 이용하여 시각화

 

히스토그램 그래프

데이터 프레임의 열 데이터 분포와 빈도 살펴보는 용도

 

axes.hist(tips['total_bill'], bins = 10)

#hist() 메소드를 사용해서 히스토그램을 생성한다.

히스토그램

산점도 그래프

변수 2개를 사용하여 만드는 이변량 그래프.

 

axes.scatter(tips['total_bill'], tips['tip'])

#scatter 메서드를 사용하여 산점도 그래프 그린다.

산점도

박스 그래프

이산형 변수와 연속형 변수를 함께 사용하는 그래프

 

axes.boxplot([tips[tips['sex'] == 'Female']['tip'],

                 tips[tips['sex'] == 'Male']['tip']],

                 labels = ['Female', 'Male'])

#boxplot 메서드를 사용하여 박스 그래프를 생성 한다.

박스 그래프

 

데이터 프레임에서 브로드 캐스팅을 적용하기 위해선

apply()메소드를 사용하여 만들어 놓은 함수를 구현한다.

[4-3 seaborn라이브러리]

seaborn 라이브러리를 활용하여 matplotlib보다 좋은 그래프를 그린다.

 

히드스토그램

axes = sns.distplot(tips['total_bill'])

#kde 인자값을 조절하여 False 설정하면 밀집도 그래프를 조절 할 수 있다.

hist인자를 조절하여 밀집도 그래프만 나타낼 수 있다.

 

distplot()메소드에 rug인자를 조절하면 양탄자 그래프도 그릴 수 있다.

양탄자 그래프 추가

 

countplot()메소드 사용

count 그래프

count그래프

산점도 그래프

regplot()메소드 사용하여 산점도 그래프 그린다.

회귀선 제거할 경우 fit_reg인자 False로 설정한다.

산점도 그래프

jointplot()메소드

산점도 그래프와 히스토그램 한 번에 그려주는 메소드

 

이차원 밀집도

kdeplot() 메소드 사용하여 이차원 밀집도를 그릴 수 있다.

밀집도 그래프

바그래프

barplot() 메소드 사용하여 그린다.

 

바그래프

박스그래프

boxplot()메소드 사용하여 그린다.

박스그래프

violinplot()메소드 사용하여 박스그래프 단점을 보완한 바이올린 그래프를 구한다

바이올린 그래프

[4-4 데이터 프레임과 시리즈 그래프 그리기]

시리즈 plot속성에 hist메소드 사용하여 히스토그램 그릴 수 있다.

.plot.hist()

#인자 alpha는 투명도, bins는 x축의 간격이다.

 

밀집도 = kde 메소드

산점도 = scatter 메소드

육각 = hexbin 메소드 - gridsize인자 사용하여 육각형 크기 변경

이용하여 그래프를 그릴 수 있다.

[4-5 seaborn라이브러리 그래프 스타일]

set_style()메소드를 사용하여 seaborn메소드 스타일 바꿀 수 있다.

스타일 적용
Chapter4-1 데이터 시각화 필요한 이유.ipynb
0.09MB
Chapter4-2 matplotlib 라이브러리.ipynb
0.08MB
Chapter4-3 seaborn 라이브러리 .ipynb
0.58MB
Chapter4-4 데이터 프레임과 시리즈로 그래프 그리기.ipynb
0.09MB
Chapter4-5 그래프 스타일 설정.ipynb
0.09MB

반응형

'Data Processing > Pandas Lib' 카테고리의 다른 글

[판다스 Chapter7]  (0) 2020.02.05
[판다스 Chapter6]  (0) 2020.02.04
[판다스 Chapter5]  (0) 2020.02.03
[판다스 Chapter3]  (0) 2020.01.30
[판다스 Chapter2]  (0) 2020.01.29
Comments