1. 개념
Sampling : 서로 다른 비율의 데이터를 맞춰주는 작업
- Under Sampling : 데이터 수가 많은 항목을 적은 항목으로 맞추는 작업
(Random Under Sampling / Tomek's link ...)
- Over Sampling : 데이터 수가 적은 항목을 많은 항목으로 맞추는 작업
(SMOTE / ADASYN / Random Over Sampling ...)
Ex) 제품이 불량/정상 구분하는 분류 모델
1000개 정상(900)/불량(100)
→ 정상 100 / 불량 100 (Under Sampling)
→ 정상 900 / 불량 900 (Over Sampling)
2. 실습
1) 데이터셋 불러오기 및 밸런스 확인
2) Under Sampling
3) Over Sampling
'Machine Learning' 카테고리의 다른 글
분류모델 | ② 앙상블 모델 (Ensemble Model) (0) | 2024.03.03 |
---|---|
분류모델 | ① 의사결정나무 모델(Decision Tree Model) (0) | 2024.03.01 |
특성공학 | ④ 하이퍼 파라미터 튜닝(Hyper Parameter Tuning) (0) | 2024.02.29 |
특성공학 | ③ 교차 검증(Cross Validation) (0) | 2024.02.29 |
특성공학 | ② 차원축소(Scaling) & 데이터 변환(Encoding) (0) | 2024.01.26 |