특성공학 | ② 차원축소(Scaling) & 데이터 변환(Encoding)

Scaling & Encoding

1. Scaling : 숫자데이터의 서로 다른 차원(Scale)을 맞춰주는 작업

1) Standard Scaling : 평균이 0, 표준편차 1

2) Min Max Scaling : 최소값 0, 최대값 1

3) Robust Scaling : 중앙값 0, 사분범위 1

 

📌 기존 통계값 확인

 

📌 Standard Scaling → 평균이 0, 표준편차가 1에 수렴

 

📌 Robust Scaling  중앙값이 0

 

 

2. Encoding : 문자데이터를 숫자데이터로 변환

1) Label Encoding : 문자데이터를 단순히 숫자데이터로 변환 → 숫자 간 서열을 인식해버릴 수 있음

2) One Hot Encoding : 문자데이터를 컬럼으로 변경 후 0과 1로 데이터 유무를 표시

                                      pd.get_dumies를 통해 간단하게 변환 가능

 

📌 기존 문자데이터 

 

📌 Label Encoding sklearn 라이브러리 사용

 

📌 One Hot Encoding  pd.get_dummies(변환하고자 하는 데이터) 사용