[판다스 Chapter3]

Data Processing/Pandas Lib

[판다스 Chapter3]

JackYoon 2020. 1. 30. 23:43

import pandas as pd

[3-1 나만의 데이터 만들기]

시리즈 만들기

pd.Series( [리스트]) : pd.Series()메소드로 생성한다.

pd.Series( [리스트], index = [리스트]) : 문자열로 인덱스 지정

#index매개 변수에 문자열 리스트를 크기에 맞게 던져주면 된다.

데이터 프레임 만들기

pd.DataFrame({

'key' : [리스트]

})

#pd.DataFrame()메소드로 생성

pd.DataFrame(

data = { 'key' : [리스트], },

index = [리스트],

columns = [리스트]

)

#인덱스를 따로 index인자를 사용하여 생성할 수 있다.

데이터 프레임을 만들 때, 딕셔너리 전달한다.

딕셔너리에 순서를 유지하려면 OrderedDict클래스를 이용한다.

pd.DataFrame( OrderedDict([ 생성시와 같음 ]) )

[03-2 시리즈 다루기-기초]

데이터 프레임에서 시리즈 선택

데이터 프레임.loc['인덱스']

#loc속성에 인덱스를 전달하면 된다.

index, values, keys() 사용하기

시리즈.index : 시리즈의 인덱스를 반환한다.

시리즈.values : 시리즈의 값을 반환한다.

시리즈.keys() : 인덱스 반환과 같다.

#딕셔너리 자료형이기 때문에 index와 key()가 같다.

시리즈.index[i] = 시리즈.keys()[i] 같은 의미이다.

기초 통계 method

시리즈.mean() : 시리즈 평균 구하는 메소드

시리즈.min() : 시리즈 최소값 구하는 메소드

시리즈.max() : 시리즈 최대값 구하는 메소드

[03-3 시리즈 다루기-응용]

시리즈와 불린 추출

시리즈[ 시리즈 > 시리즈.통계 메소드] : 조건에 맞는 데이터 추출이 가능하다.

#그 이유는 데이터를 불린으로 추출하기 때문.

브로드캐스팅

시리즈나 데이터 프레임에 있는 모든 데이터에 대해 한번에 연산을 수행하는 것

벡터(시리즈) 와 벡터(시리즈) 연산 - 크기가 다를 경우 인덱스가 일치하는 것만 연산

벡터(시리즈) 와 스칼라(value) 연산

시리즈.sort_index( ascending = True/False) : 시리즈 데이터 정렬(차순)

[03-4 데이터 프레임 다루기]

불린 추출

데이터 프레임[ 데이터프레임['속성'] > 데이터프레임['속성'].통계 메소드]

브로드 캐스팅

데이터 프레임 * 스칼라 : 정수는 곱해지고 문자열은 배가 된다.

[03-5 데이터 처리하기]

열의 자료형 바꾸기(날짜 데이터)

pd.datetime( 데이터프레임['속성'], format = '%Y-%m-%d') : 날짜 데이터 처리하기

열 추가는 데이터 프레임['추가 속성] = ......식으로 설정한다.

데이터 셔플

import random을 사용하여

random.shuffle( 데이터프레임['속성']) : 데이터를 셔플한다.

데이터 프레임 열 삭제

데이터 프레임.drop(['속성'], axis = 1) : drop()메소드를 사용하여 열 삭제.

#여러 열을 drop으로 삭제 가능하다. axis = 0 경우 행을 삭제하고 axis = 1일경우 열을 삭제 한다.

Chapter3-1 데이터 프레임과 시리즈.ipynb

0.01MB

Chapter3-2 시리즈 다루기-기초.ipynb

0.01MB

Chapter3-3 시리즈 다루기-응용.ipynb

0.01MB

Chapter3-4 데이터 프레임 다루기.ipynb

0.00MB

Chapter3-5 데이터 처리하기.ipynb

0.01MB