#3 시리즈 다루기 / 컬럼명으로 데이터 추출하기

▶ 시리즈 만들기

  pd.Series(리스트)
  시리즈 : 엑셀시트의 열 1개를 의미한다.(1차원 리스트형태)

 

▶ 시리즈의 index와 value 가져오기

  시리즈의 index 가져오기 : 시리즈.index
  시리즈의 value 가져오기 : 시리즈.values
  ※ 시리즈의 인덱스는 리스트의 인덱스와 다른 개념이다.       
  ※ 시리즈의 인덱스는 데이터의 이름이고, 행 번호는 따로 있다.

 

▶ 시리즈의 index 지정하기
  시리즈.index = 인덱스리스트
  ※ 시리즈의 인덱스는 숫자, 문자열 모두 가능하다.

 

▶ 시리즈의 통계값 사용하기
  평균 : 시리즈.mean()
  최소값 : 시리즈.min()
  최대값 : 시리즈.max()
  중간값 : 시리즈.median()
  표준편차 : 시리즈.std()
  ※ 시리즈의 통계값은 시리즈의 value가 모두 숫자형일 때 사용할 수 있다.

 

▶ 시리즈 주요 메서드
  값 정렬 : 시리즈.sort_values()
  인덱스 정렬 : 시리즈.sort_index()
  인덱스 리셋 : 시리즈.reset_index()  → 행 번호로 인덱스 재지정
  특정 값을 가진 시리즈 값을 교체 : replace(찾을값, 교체할값)
  시리즈를 데이터프레임으로 변환 : 시리즈.to_frame()

 


 

▶ 시리즈 형태로 하나의 열 데이터 추출하기

  데이터프레임['컬럼명']

  데이터프레임.컬럼명

 

▶ 데이터프레임 형태로 여러 열 단위 데이터 추출하기

  데이터프레임[컬럼명 리스트]

  데이터프레임[['컬럼명1','컬럼명2',...]]

 

▶ 조건에 따라 데이터 추출하기

  - 조건에 따른 각 데이터의 결과를 True/False로 표현하는 불린 인덱스 형태로 추출된다.

  - 불린 인덱스를 데이터프레임[]으로 감싸면 True인 데이터만 추출된다.

 

▶ 여러 조건
  - 논리연산자는 '&' , '|' , '~' , '^' 기호를 사용한다.
  - 논리연산자를 사용할 때에는 각 조건을 ()로 감싼다.

 

▶ 특정 값을 가진 데이터만 추출하기

  컬럼.isin(값 리스트)

  - 조건에 따른 각 데이터의 결과를 True/False로 표현하는 불린 인덱스 형태로 추출된다.

  - 불린 인덱스를 데이터프레임[]으로 감싸면 True인 데이터만 추출된다.

 

▶ null 여부에 따른 데이터 추출
  컬럼.isnull()  →  해당 컬럼의 값이 null인 데이터 추출
  컬럼.notnull()  →  해당 컬럼의 값이 null이 아닌 데이터 추출