관리 메뉴

ComputerVision Jack

[판다스 Chapter6] 본문

Data Processing/Pandas Lib

[판다스 Chapter6]

JackYoon 2020. 2. 4. 16:56
반응형

[6 누락값 처리하기]

누락값(NaN, nan, NAN)

0과 공백과 다른 데이터 자체가 없다는 의미

비교 연산자를 통하여 다른 객체와 비교해도 False값이 나온다.

 

pd.isnull() 메소드

#누락값을 확인할 수 있는 메소드

 

pd.notnull() 메소드

#누락값이 아닌 값만 확인 할 수 있는 메소드

 

누락값이 생기는 이유

누락값이 있는 데이터 집합을 연결할 때, 누락값이 발생

merge()할경우 누락값이 발생한다.

 

데이터를 입력할 때, 누락값 발생

데이터 프레임이나 시리즈에 데이터를 입력할 때, 값을 입력하지 않은 경우

 

범위를 지정하여 데이터를 추출할 경우

없는 index에 대해서 데이터를 추출할 때, nan값을 반환한다.

따라서 boolin 추출을 사용하여 데이터 추출을 사용할 때, 신중히 작업한다.

 

누락값 개수 구하기

shape[0] - 누락값이 아닌 값을 빼면 = 누락값 개수.

 

count_nonzero()isnull() 메소드 조합으로 누락값 개수 구할 수 있다.

시리즈 누락값의 경우 value_counts() 메소드를 이용하여 구한다.

 

누락값 처리하기

데이터프레임.fillna()메소드 

#인자로 0을 대입하면 누락값을 0으로 변경한다.

 

메소드 인자 ffill : 누락값 전의 값을 사용하여 채운다.

메소드 인자 bfill : 누락값 다음 값을 사용하여 채운다.

 

데이터프레임.interpolate()메소드

#누락값 양쪽에 있는 값을 이용하여 중간값 구한다음 데이터를 처리한다.

 

누락값 삭제하기

dropna() 메소드를 사용하여 누락값이 포함된 행들을 삭제한다.

 

누락값이 포함된 데이터 계산

연산과정에 데이터가 nan값이면 연산 결과가 전부다 nan으로 변경된다.

따라서 nan값에 대한 처리가 이루어진 후, 연산을 해야한다.

 

sum()메소드 경우 skipna 인자 True를 통하여 nan값을 배제하고 연산을 할 수 있다.

 

Chapter6 누락값 처리하기.ipynb
0.03MB

반응형

'Data Processing > Pandas Lib' 카테고리의 다른 글

[판다스 Chapter8]  (0) 2020.02.07
[판다스 Chapter7]  (0) 2020.02.05
[판다스 Chapter5]  (0) 2020.02.03
[판다스 Chapter4]  (0) 2020.02.01
[판다스 Chapter3]  (0) 2020.01.30
Comments