Scaling & Encoding
1. Scaling : 숫자데이터의 서로 다른 차원(Scale)을 맞춰주는 작업
1) Standard Scaling : 평균이 0, 표준편차 1
2) Min Max Scaling : 최소값 0, 최대값 1
3) Robust Scaling : 중앙값 0, 사분범위 1
📌 기존 통계값 확인
📌 Standard Scaling → 평균이 0, 표준편차가 1에 수렴
📌 Robust Scaling → 중앙값이 0
2. Encoding : 문자데이터를 숫자데이터로 변환
1) Label Encoding : 문자데이터를 단순히 숫자데이터로 변환 → 숫자 간 서열을 인식해버릴 수 있음
2) One Hot Encoding : 문자데이터를 컬럼으로 변경 후 0과 1로 데이터 유무를 표시
pd.get_dumies를 통해 간단하게 변환 가능
📌 기존 문자데이터
📌 Label Encoding → sklearn 라이브러리 사용
📌 One Hot Encoding → pd.get_dummies(변환하고자 하는 데이터) 사용
'Machine Learning' 카테고리의 다른 글
특성공학 | ⑤ 샘플링(Sampling) (0) | 2024.02.29 |
---|---|
특성공학 | ④ 하이퍼 파라미터 튜닝(Hyper Parameter Tuning) (0) | 2024.02.29 |
특성공학 | ③ 교차 검증(Cross Validation) (0) | 2024.02.29 |
특성공학 | ① 결측치 처리(Imputation) (0) | 2024.01.26 |
머신러닝의 기본 개념 (0) | 2024.01.26 |