[판다스 Chapter2]

Data Processing/Pandas Lib

[판다스 Chapter2]

JackYoon 2020. 1. 29. 15:58

판다스(pandas)

데이터 프레임과 시리즈 자료형과 데이터 분석을 위해 다양한 기능을 제공하는 파이썬 라이브러리.

[2-1 데이터 집합 불러오기]

import pandas as pd

from google.colab import drive

drive.mount('/content/drive')

#pandas 라이브러리 import 한다.

또한 구글 드라이브에 저장된 csv파일에 접근하기 위해 설정을 한다.

pd.read_csv() : 함수로 csv파일을 읽어 온다.

프레임.head()메소드로 블러온 데이터를 살핀다.

.head() 메소드는 default n이 5이기 때문에 상위 5개의 데이터를 읽어온다.

type(프레임) 메소드를 통하여 읽어온 csv파일을 데이터 프레임 자료형에 담고 있음을 확인할 수 있다.

프레임.shape()메소드 데이터의 shape을 볼수 있다.

shape은 데이터 프레임의 행과 열에 대한 정보이다.

프레임.dtype() 메소드 데이터 프레임 구성하는 컬럼의 자료형을 볼 수 있다.

[2-2 데이터 추출하기]

열단위 데이터 추출하기

프레임['컬럼명']을 통하여 열 한줄을 뽑아 올 수 있다.

type(뽑아온 프레임)을 확인하면 시리즈 자료형이다.

프레임[['컬럼명1', '컬럼명2', '컬럼명3']]을 사용하면 여러개의 열을 한번에 추출할 수 있다.

type(뽑아온 프레임)을 확인하면 데이터 프레임 자료형이다.

행단위 데이터 추출하기

프레임.loc([ ]) 메소드 : 인덱스 기준으로 행 데이터 추출 - 열 이름

프레임.iloc([ ]) 메소드 : 행 번호를 기준으로 행 데이터 추출 - 열 숫자로 접근

프레임.loc/iloc([0, 100, 1000])식으로 여러개의 행 데이터를 한번에 추출할 수도 있다.

대부분 프레임.iloc/loc([ [행 정보], [열 정보]])로 자유자재로 사용한다.

파이썬 슬라이싱과 range()메서드를 통하여 데이터 추출을 효율적으로 할 수 도 있다.

[2-3 기초적인 통계 계산하기]

프레임.groupby('컬럼명')메서드 통하여 그룹화를 진행한다.

그룹화를 진행한 자료형은 DataFrameGroupBy이다.

프레임.groupby('컬럼명1')['컬럼명2']

메서드를 통하여 groupby시킨 컬럼명1에 대하여 정리된 컬럼명2를 확인할 수 있다.

프레임.mean()메서드 : 그룹화된 프레임으로 부터 평균을 구하는 함수

프레임.groupby('컬럼명1', '컬럼명2')[['컬럼명3', '컬럼명4']]을 통하여 컬럼1,2 다중으로 그룹화하여

여러개의 컬럼3, 4 열을 제시한다.

프레임.nuique() 메소드 : 그룹화한 객체에 대한 개수를 반환한다.

unique()메소드로 할 경우 각 객체가 갖고 있는 그룹화 컬럼을 반환한다.

[2-4 그래프 그리기]

%matplotlib inline

import matplotlib.pyplot as plt

#파이썬 그래프 그리는 라이브러리를 import한다.

프레임.plot() 메소드를 통하여 그래프를 그릴 수 있다.

Chapter2-1 데이터 집합 불러오기.ipynb

0.00MB

Chapter2-2 데이터 추출하기.ipynb

0.02MB

Chapter2-3 기초적인 통계 계산.ipynb

0.01MB

Chapter2-4 그래프 그리기.ipynb

0.02MB