▶ datetime 자료형 변환하기 pd.to_datetime(컬럼) ▶ 연, 월, 일, 분기 / 요일, 월 이름 추출하기 컬럼.dt.year 연 컬럼.dt.strftime('%a') 요약요일명(Sun, Mon, ... ) 컬럼.dt.month 월 컬럼.dt.strftime('%A') 긴요일명(Sunday, Monday, ... ) 컬럼.dt.day 일 컬럼.dt.strftime('%w') 숫자요일(0:일, 1:월, ... ) 컬럼.dt.quarter 분기 컬럼.dt.strftime('%b') 요약 월이름(Jan, Feb, ... ) 컬럼.dt.strftime('%B') 긴 월이름(January, February, ... ) ▶ 날짜 계산하기 ▶ datetime 자료형을 인덱스로 만들어 사용하기
Category란? 특정 값들로만 이루어지는 자료형 성별 남자 여자 ▶ 카테고리형 다루기 컬럼.astype('category') : 카테고리형으로 변환하기 컬럼.cat.categories = 카테고리 리스트 : 카테고리 이름 바꾸기 컬럼.cat.set_categories(카테고리 리스트) : 카테고리 추가하기
▶ 판다스 자료형 데이터 타입 설명 int64 정수형 float64 실수형 bool 부울형 object 문자열 category 카테고리 datetime64 날짜, 시간 ▶ 판다스 자료형 확인하기 데이터프레임.dtypes 시리즈.dtype ※ 한 시리즈에 문자열과 숫자, 문자열과 부울 등으로 데이터타입이 혼합되어 있으면 object형으로 결정된다. ※ 한 시리즈에 정수와 실수가 혼합되어 있으면 float64으로 결정된다. ▶ 판다스 자료형 변환하기 데이터프레임.astype(자료형) 시리즈.astype(자료형) ▶ 숫자형 자료형으로 변환하기 pd.to_numeric(시리즈, errors=에러처리옵션) - ignore : 숫자로 변경할 수 없는 값이 있으면 작업하지 않음 - coerce : 숫자로 변경할 수 ..
결측치란? 비어있는 값 = null = 데이터가 없음 ≠ 공백 ▶ 결측치 확인하기 데이터프레임명.isnull().sum() 데이터프레임명.info() ▶ 결측치 처리하기 ① 특정 값으로 채우기 ② 주변 값으로 채우기 ③ 빈 값 제거하기 ▶ 결측치 대치하기 ① 특정 값으로 채우기 fillna(특정값) fillna( {컬럼명:값, ...} } ② 주변 값으로 채우기 fillna(method='bfill') : 다음 값으로 채우기 fillna(method='ffill') : 이전 값으로 채우기 ③ 결측치 제거하기 dropna() : 결측치가 존재하는 행 삭제 dropna(axis=1) : 결측치가 존재하는 열 삭제 ▶ 결측치와 통계값 결측치는 없는 데이터로 간주한다. → 통계값을 구할 때 데이터의 개수에 영향..
▶ 함수로 데이터 변경하기 데이터프레임명[컬럼].apply(함수명) 데이터프레임명[컬럼].apply(함수명, 매개변수=값) ▶ 함수로 행/열의 데이터 집계하기 데이터프레임명.apply(함수명, axis=0) : 열 단위로 함수를 적용하여 데이터 집계 데이터프레임명.apply(함수명, axis=1) : 행 단위로 함수를 적용하여 데이터 집계
▶ 인덱스 지정하여 행 추가/수정 데이터프레임.loc[인덱스] = 추가/수정할 데이터 ※ 인덱스가 존재하지 않으면 데이터프레임의 끝에 행 추가 데이터프레임.append(추가할 데이터, ignore_index=True) ※ 추가할 데이터 : 딕셔너리 형태 {컬럼1:값1, 컬럼2:값2, ...} ※ ignore_index=True : 기존 인덱스는 무시하고 인덱스가 새롭게 생성 ▶ 행 삭제하기 데이터프레임.drop(index = 삭제할 인덱스 리스트, inplace=True) ▶ 전체 컬럼명, 인덱스명 변경하기 데이터프레임.index = 인덱스 리스트 ▶ 특정 컬럼명, 인덱스명 변경하기 데이터프레임.rename(index = 현재 인덱스명:바꿀 인덱스명의 쌍으로 된 딕셔너리)