1. 머신러닝의 기본 원리
머신러닝(기계학습) : 컴퓨터가 데이터로부터 새로운 규칙/수식을 도출해내는 작업
1. 학습 능력 : 기존의 데이터를 잘 학습하여, 적절한 규칙을 도출해내는 능력
2. 일반화 능력 : 새로운 데이터가 들어왔을 떄, 정확한 값을 예측하여 대응하는 능력
머신러닝의 핵심 3요소
- 데이터 : 데이터를 통해 적절한 수식/규칙을 찾을 수 있도록 이를 깔끔하게 다듬어야 함(특성공학)
- 알고리즘 : 데이터의 종류에 따라 적절한 알고리즘을 선택
- 성능 : 컴퓨터의 하드웨어 능력
2. 머신러닝의 종류
1) 지도학습 : 목표변수(Y)와 설명변수(X)간의 관계를 수식화하여, 새로운 설명변수(X)에 대해 목표변수(Y)를 예측하거나 분류하는 학습 기법
- 예측 (Regression), Y 연속형 : 정확한 수치를 예측
- 분류 (Classification), Y 범주형 : 특정 항목을 정확히 분류/구분
Ex) 스팸메시지 분류기 (Y:스팸여부 X:시간,내용,발신자...)
주가 예측 프로그램 (Y:주가 X:시간)
2) 비지도 학습 : 설명변수(X)간의 관계/연관성/상관성 등을 파악하여, 비슷한 데이터끼리 군집화, 연관성 있는 데이터를 찾아 묶어주는 학습 기법
- 군집화(Clustering) : 서로 유사한 데이터(수학적 거리가 가까운)끼리 묶어주는 학습기법
- 연관분석 (Association Analysis) : 데이터 간의 연관성(수학적 거리)을 계한하여, 서로 연관성이 높은 데이터를 찾는 작업
Ex) 추천 시스템 / 장바구니 분석
3) 강화학습 : 컴퓨터 시뮬레이션을 통해, 사용자가 정한 적절한 보상을 획득하는 방향으로 학습하는 기법
Ex) 알파고, 컴퓨터 게임 AI...
3. 머신러닝 학습 절차
머신러닝의 절차
1. 데이터의 결측치/이상치 제거, 처리 (시각화, 가설검정 ...)
2. X(설명변수), Y(목표변수)를 선언
3. 학습데이터와 검증데이터를 분할
4. 학습데이터를 가져와, 알고리즘을 이용해 학습 실시
5. 검증데이터를 이용하여, 평가작업 실시
4. 머신러닝의 주의점
1) Ovefitting (과적합) : 학습 성능과 일반화 성능이 매우 크게 차이나는 현상
너무 디테일한 학습으로 새로운 데이터에 대해 일반화된 판단을 못함 !
2) Unbalanced Data : 분류하고자 하는 데이터의 항목의 비율이 너무 크게 차이나는 현상
Ex) 공장 -> 불량(100)/정상(900) 1000개
-> 학습 데이터 700 정상(690)/불량(10) / 검증 데이터 300 정상(210)/불량(90)
-> 한 쪽 데이터가 너무 많으면 정확한 분류가 안됨 = 불량 데이터조차 정상으로 판단할 수 있음
5. 특성 공학(Feature Engineering)
: 컴퓨터가 학습할 때, 일반화된 수식을 도출할 수 있도록 데이터를 깔끔하게 다듬는 작업
- Imputation (Missing Value에 대한 대치) : 결측되어 있는 값을 다른 값(평균, 중앙값, 최대값...)으로 대치
- Scaling & Encoding
- Scaling : 숫자데이터의 서로 다른 차원(Scale)을 맞춰주는 작업
- Encoding : 문자데이터를 숫자데이터로 변환 - Cross Validation : 데이터셋이 모두 학습에 참여할 수 있도록, 학습데이터 셋을 교차로 바꿔가며 학습을 진행하는 방법
- Hyper Parameter Tuning : 데이터를 학습할 때 발생하는 알고리즘의 수학적 구조를 사용자가 통제
- Sampling : 서로 다른 비율의 데이터를 맞춰주는 작업
- Under Sampling : 데이터의 비율이 적은 쪽으로 데이터를 맞추는 작업
- Over Sampling : 데이터의 비율이 큰 쪽으로 데이터를 생성하는 작업
'Machine Learning' 카테고리의 다른 글
특성공학 | ⑤ 샘플링(Sampling) (0) | 2024.02.29 |
---|---|
특성공학 | ④ 하이퍼 파라미터 튜닝(Hyper Parameter Tuning) (0) | 2024.02.29 |
특성공학 | ③ 교차 검증(Cross Validation) (0) | 2024.02.29 |
특성공학 | ② 차원축소(Scaling) & 데이터 변환(Encoding) (0) | 2024.01.26 |
특성공학 | ① 결측치 처리(Imputation) (0) | 2024.01.26 |