[판다스 Chapter3]
import pandas as pd
[3-1 나만의 데이터 만들기]
시리즈 만들기
pd.Series( [리스트]) : pd.Series()메소드로 생성한다.
pd.Series( [리스트], index = [리스트]) : 문자열로 인덱스 지정
#index매개 변수에 문자열 리스트를 크기에 맞게 던져주면 된다.
데이터 프레임 만들기
pd.DataFrame({
'key' : [리스트]
})
#pd.DataFrame()메소드로 생성
pd.DataFrame(
data = { 'key' : [리스트], },
index = [리스트],
columns = [리스트]
)
#인덱스를 따로 index인자를 사용하여 생성할 수 있다.
데이터 프레임을 만들 때, 딕셔너리 전달한다.
딕셔너리에 순서를 유지하려면 OrderedDict클래스를 이용한다.
pd.DataFrame( OrderedDict([ 생성시와 같음 ]) )
[03-2 시리즈 다루기-기초]
데이터 프레임에서 시리즈 선택
데이터 프레임.loc['인덱스']
#loc속성에 인덱스를 전달하면 된다.
index, values, keys() 사용하기
시리즈.index : 시리즈의 인덱스를 반환한다.
시리즈.values : 시리즈의 값을 반환한다.
시리즈.keys() : 인덱스 반환과 같다.
#딕셔너리 자료형이기 때문에 index와 key()가 같다.
시리즈.index[i] = 시리즈.keys()[i] 같은 의미이다.
기초 통계 method
시리즈.mean() : 시리즈 평균 구하는 메소드
시리즈.min() : 시리즈 최소값 구하는 메소드
시리즈.max() : 시리즈 최대값 구하는 메소드
[03-3 시리즈 다루기-응용]
시리즈와 불린 추출
시리즈[ 시리즈 > 시리즈.통계 메소드] : 조건에 맞는 데이터 추출이 가능하다.
#그 이유는 데이터를 불린으로 추출하기 때문.
브로드캐스팅
시리즈나 데이터 프레임에 있는 모든 데이터에 대해 한번에 연산을 수행하는 것
벡터(시리즈) 와 벡터(시리즈) 연산 - 크기가 다를 경우 인덱스가 일치하는 것만 연산
벡터(시리즈) 와 스칼라(value) 연산
시리즈.sort_index( ascending = True/False) : 시리즈 데이터 정렬(차순)
[03-4 데이터 프레임 다루기]
불린 추출
데이터 프레임[ 데이터프레임['속성'] > 데이터프레임['속성'].통계 메소드]
브로드 캐스팅
데이터 프레임 * 스칼라 : 정수는 곱해지고 문자열은 배가 된다.
[03-5 데이터 처리하기]
열의 자료형 바꾸기(날짜 데이터)
pd.datetime( 데이터프레임['속성'], format = '%Y-%m-%d') : 날짜 데이터 처리하기
열 추가는 데이터 프레임['추가 속성] = ......식으로 설정한다.
데이터 셔플
import random을 사용하여
random.shuffle( 데이터프레임['속성']) : 데이터를 셔플한다.
데이터 프레임 열 삭제
데이터 프레임.drop(['속성'], axis = 1) : drop()메소드를 사용하여 열 삭제.
#여러 열을 drop으로 삭제 가능하다. axis = 0 경우 행을 삭제하고 axis = 1일경우 열을 삭제 한다.