▶ 열을 행으로 보내기(column → row) 데이터프레임.melt() ▶ 고정할 칼럼 지정하여 melt id_vars = [열 리스트] : 위치를 그대로 유지할 열 리스트 ▶ 행으로 위치를 변경할 열 지정 value_var = [열 리스트] ▶ 컬럼명 변경하기 var_name = 컬럼 명 : value_vars로 위치를 변경한 열 이름 value_name = var_name으로 위치를 변경한 열의 데이터를 저장한 열 이름 ▶ 행을 열로 보내기(row → column) 데이터프레임.pivot(index=, columns=, values=) ▶ 행, 열 바꾸기 데이터프레임.trnspose()
▶ 컬럼명 기준으로 연결 pd.concat(데이터프레임 리스트) ▶ 인덱스 기준으로 연결 pd.concat(데이터프레임 리스트, axis=1) ▶ 공통된 컬럼을 기준으로 열 방향으로 연결 pd.merge(left, right, on=기준컬럼, how=연결방법) ¤ concat: 한 번에 여러개의 데이터프레임 연결 ¤ merge: 한 번에 두개의 데이터프레임 연결 (how='inner'(default))
▶ datetime 자료형 변환하기 pd.to_datetime(컬럼) ▶ 연, 월, 일, 분기 / 요일, 월 이름 추출하기 컬럼.dt.year 연 컬럼.dt.strftime('%a') 요약요일명(Sun, Mon, ... ) 컬럼.dt.month 월 컬럼.dt.strftime('%A') 긴요일명(Sunday, Monday, ... ) 컬럼.dt.day 일 컬럼.dt.strftime('%w') 숫자요일(0:일, 1:월, ... ) 컬럼.dt.quarter 분기 컬럼.dt.strftime('%b') 요약 월이름(Jan, Feb, ... ) 컬럼.dt.strftime('%B') 긴 월이름(January, February, ... ) ▶ 날짜 계산하기 ▶ datetime 자료형을 인덱스로 만들어 사용하기
Category란? 특정 값들로만 이루어지는 자료형 성별 남자 여자 ▶ 카테고리형 다루기 컬럼.astype('category') : 카테고리형으로 변환하기 컬럼.cat.categories = 카테고리 리스트 : 카테고리 이름 바꾸기 컬럼.cat.set_categories(카테고리 리스트) : 카테고리 추가하기
▶ 판다스 자료형 데이터 타입 설명 int64 정수형 float64 실수형 bool 부울형 object 문자열 category 카테고리 datetime64 날짜, 시간 ▶ 판다스 자료형 확인하기 데이터프레임.dtypes 시리즈.dtype ※ 한 시리즈에 문자열과 숫자, 문자열과 부울 등으로 데이터타입이 혼합되어 있으면 object형으로 결정된다. ※ 한 시리즈에 정수와 실수가 혼합되어 있으면 float64으로 결정된다. ▶ 판다스 자료형 변환하기 데이터프레임.astype(자료형) 시리즈.astype(자료형) ▶ 숫자형 자료형으로 변환하기 pd.to_numeric(시리즈, errors=에러처리옵션) - ignore : 숫자로 변경할 수 없는 값이 있으면 작업하지 않음 - coerce : 숫자로 변경할 수 ..
결측치란? 비어있는 값 = null = 데이터가 없음 ≠ 공백 ▶ 결측치 확인하기 데이터프레임명.isnull().sum() 데이터프레임명.info() ▶ 결측치 처리하기 ① 특정 값으로 채우기 ② 주변 값으로 채우기 ③ 빈 값 제거하기 ▶ 결측치 대치하기 ① 특정 값으로 채우기 fillna(특정값) fillna( {컬럼명:값, ...} } ② 주변 값으로 채우기 fillna(method='bfill') : 다음 값으로 채우기 fillna(method='ffill') : 이전 값으로 채우기 ③ 결측치 제거하기 dropna() : 결측치가 존재하는 행 삭제 dropna(axis=1) : 결측치가 존재하는 열 삭제 ▶ 결측치와 통계값 결측치는 없는 데이터로 간주한다. → 통계값을 구할 때 데이터의 개수에 영향..