[판다스 Chapter2]
판다스(pandas)
데이터 프레임과 시리즈 자료형과 데이터 분석을 위해 다양한 기능을 제공하는 파이썬 라이브러리.
[2-1 데이터 집합 불러오기]
import pandas as pd
from google.colab import drive
drive.mount('/content/drive')
#pandas 라이브러리 import 한다.
또한 구글 드라이브에 저장된 csv파일에 접근하기 위해 설정을 한다.
pd.read_csv() : 함수로 csv파일을 읽어 온다.
프레임.head()메소드로 블러온 데이터를 살핀다.
.head() 메소드는 default n이 5이기 때문에 상위 5개의 데이터를 읽어온다.
type(프레임) 메소드를 통하여 읽어온 csv파일을 데이터 프레임 자료형에 담고 있음을 확인할 수 있다.
프레임.shape()메소드 데이터의 shape을 볼수 있다.
shape은 데이터 프레임의 행과 열에 대한 정보이다.
프레임.dtype() 메소드 데이터 프레임 구성하는 컬럼의 자료형을 볼 수 있다.
[2-2 데이터 추출하기]
열단위 데이터 추출하기
프레임['컬럼명']을 통하여 열 한줄을 뽑아 올 수 있다.
type(뽑아온 프레임)을 확인하면 시리즈 자료형이다.
프레임[['컬럼명1', '컬럼명2', '컬럼명3']]을 사용하면 여러개의 열을 한번에 추출할 수 있다.
type(뽑아온 프레임)을 확인하면 데이터 프레임 자료형이다.
행단위 데이터 추출하기
프레임.loc([ ]) 메소드 : 인덱스 기준으로 행 데이터 추출 - 열 이름
프레임.iloc([ ]) 메소드 : 행 번호를 기준으로 행 데이터 추출 - 열 숫자로 접근
프레임.loc/iloc([0, 100, 1000])식으로 여러개의 행 데이터를 한번에 추출할 수도 있다.
대부분 프레임.iloc/loc([ [행 정보], [열 정보]])로 자유자재로 사용한다.
파이썬 슬라이싱과 range()메서드를 통하여 데이터 추출을 효율적으로 할 수 도 있다.
[2-3 기초적인 통계 계산하기]
프레임.groupby('컬럼명')메서드 통하여 그룹화를 진행한다.
그룹화를 진행한 자료형은 DataFrameGroupBy이다.
프레임.groupby('컬럼명1')['컬럼명2']
메서드를 통하여 groupby시킨 컬럼명1에 대하여 정리된 컬럼명2를 확인할 수 있다.
프레임.mean()메서드 : 그룹화된 프레임으로 부터 평균을 구하는 함수
프레임.groupby('컬럼명1', '컬럼명2')[['컬럼명3', '컬럼명4']]을 통하여 컬럼1,2 다중으로 그룹화하여
여러개의 컬럼3, 4 열을 제시한다.
프레임.nuique() 메소드 : 그룹화한 객체에 대한 개수를 반환한다.
unique()메소드로 할 경우 각 객체가 갖고 있는 그룹화 컬럼을 반환한다.
[2-4 그래프 그리기]
%matplotlib inline
import matplotlib.pyplot as plt
#파이썬 그래프 그리는 라이브러리를 import한다.
프레임.plot() 메소드를 통하여 그래프를 그릴 수 있다.