결측치란? 비어있는 값 = null = 데이터가 없음 ≠ 공백 ▶ 결측치 확인하기 데이터프레임명.isnull().sum() 데이터프레임명.info() ▶ 결측치 처리하기 ① 특정 값으로 채우기 ② 주변 값으로 채우기 ③ 빈 값 제거하기 ▶ 결측치 대치하기 ① 특정 값으로 채우기 fillna(특정값) fillna( {컬럼명:값, ...} } ② 주변 값으로 채우기 fillna(method='bfill') : 다음 값으로 채우기 fillna(method='ffill') : 이전 값으로 채우기 ③ 결측치 제거하기 dropna() : 결측치가 존재하는 행 삭제 dropna(axis=1) : 결측치가 존재하는 열 삭제 ▶ 결측치와 통계값 결측치는 없는 데이터로 간주한다. → 통계값을 구할 때 데이터의 개수에 영향..
▶ 함수로 데이터 변경하기 데이터프레임명[컬럼].apply(함수명) 데이터프레임명[컬럼].apply(함수명, 매개변수=값) ▶ 함수로 행/열의 데이터 집계하기 데이터프레임명.apply(함수명, axis=0) : 열 단위로 함수를 적용하여 데이터 집계 데이터프레임명.apply(함수명, axis=1) : 행 단위로 함수를 적용하여 데이터 집계
▶ 인덱스 지정하여 행 추가/수정 데이터프레임.loc[인덱스] = 추가/수정할 데이터 ※ 인덱스가 존재하지 않으면 데이터프레임의 끝에 행 추가 데이터프레임.append(추가할 데이터, ignore_index=True) ※ 추가할 데이터 : 딕셔너리 형태 {컬럼1:값1, 컬럼2:값2, ...} ※ ignore_index=True : 기존 인덱스는 무시하고 인덱스가 새롭게 생성 ▶ 행 삭제하기 데이터프레임.drop(index = 삭제할 인덱스 리스트, inplace=True) ▶ 전체 컬럼명, 인덱스명 변경하기 데이터프레임.index = 인덱스 리스트 ▶ 특정 컬럼명, 인덱스명 변경하기 데이터프레임.rename(index = 현재 인덱스명:바꿀 인덱스명의 쌍으로 된 딕셔너리)
▶ 열 추가/수정하기 데이터프레임[컬럼명] = 추가/수정할데이터 데이터프레임[컬럼명] = 컬럼 간 연산 ※ 컬럼이 존재하면 수정, 존재하지 않으면 추가된다. ▶ 열 삭제하기 데이터프레임.drop(columns = 삭제할 컬럼 리스트, inplace=True) ▶ 전체 컬럼명 변경하기 데이터프레임.columns = 컬럼 리스트 ※ 컬럼 리스트의 항목 수는 컬럼 개수와 동일해야 한다. ▶ 특정 컬럼명 변경하기 데이터프레임.rename(columns = 현재 컬럼명:바꿀 컬럼명의 쌍의로 된 딕셔너리)
▶ 멧플롯립 라이브러리 임포트 matplotlib 패키지의 pyplot 모듈을 사용! ▶ x축, y축 데이터 준비 ▶ 그래프 그리기 라이브러리의 메소드에 데이터를 전달하여 그리기 ※ 여러 그래프를 겹쳐서 그릴 수 있음 ! ▶ 그래프 기능 추가하기
행 번호, 열 번호란? 행의 위치, 열의 위치를 나타내는 것으로, 각각 인덱스, 컬럼명과는 구분된다. ▶ 행 번호로 행 추출하기 데이터프레임명.iloc[행 번호] : 시리즈 형태로 추출 데이터프레임명.iloc[행 번호 리스트] : 데이터프레임 형태로 추출 데이터프레임명.iloc[행 번호 슬라이스] : 데이터프레임 형태로 추출 ※ 음수를 사용하면 행번호를 뒤에서부터 센다. ▶ 행 번호, 열 번호로 행, 열 추출하기 데이터프레임명.iloc[행 번호, 열 번호] : 한 개의 데이터 데이터프레임명.iloc[행 번호, 열 번호 리스트] : 한 개의 행, 여러 열 데이터프레임명.iloc[행 번호 리스트, 열 번호] : 여러 행, 한 개의 열 데이터프레임명.iloc[행 번호 리스트, 열 번호 리스트] : 여러 행, ..