특성공학 | ⑤ 샘플링(Sampling)

1. 개념

Sampling : 서로 다른 비율의 데이터를 맞춰주는 작업

- Under Sampling : 데이터 수가 많은 항목을 적은 항목으로 맞추는 작업

                                 (Random Under Sampling / Tomek's link ...)

- Over Sampling : 데이터 수가 적은 항목을 많은 항목으로 맞추는 작업

                               (SMOTE / ADASYN / Random Over Sampling ...)

 

Ex) 제품이 불량/정상 구분하는 분류 모델

      1000개 정상(900)/불량(100)

        → 정상 100 / 불량 100 (Under Sampling)

        → 정상 900 / 불량 900 (Over Sampling)

 

2. 실습

1) 데이터셋 불러오기 및 밸런스 확인

2) Under Sampling

3) Over Sampling