'머신러닝' 태그의 글 목록

분류모델 | ② 앙상블 모델 (Ensemble Model)

1. 의사결정나무 모델(Decision Tree Model) 1. 개념 기존에 존재하는 여러가지 알고리즘을 결합 또는 조합하여 새로운 강력한 모델로 만드는 알고리즘 2. 종류 (어떻게 조합되느냐에 따라) Voting : 서로 다른 알고리즘을 가진 분류기를 결합하는 방법 / 가장 성능이 좋은 알고리즘을 선택하는 방식 Bagging : 서로 같은 알고리즘을 선택, 데이터에서 서로 다른 복원추출(Sub Sample)된 데이터를 학습하여 알고리즘을 결합하는 방식 (=매번 랜덤하게 추출 / Random Forest) Boosting : 알고리즘을 구성할 때마다, 오차를 줄이는 방향으로 모델의 파라미터를 조정하여 학습해 결합하는 방식 2. 실습 1. Random Forest (Bagging) from sklearn..

format_list_bulleted Machine Learning
· 2024. 3. 3.
textsms

분류모델 | ① 의사결정나무 모델(Decision Tree Model)

1. 의사결정나무 모델(Decision Tree Model) 1. 개념 여러 조건의 X(feature) 값에 따라 데이터를 분류해보며, 데이터가 한 쪽으로 많이 치우쳐지는 방향에 맞춰 특정 조건을 계속 생성해가면서 학습시키는 알고리즘. 설명 변수들의 규칙, 관계, 패턴과 같은 여러 값들을 이용해서 목표변수를 분류하는 나무구조의 모델을 만들고, 새로운 값이 들어올때 생성된 나무구조에 의해 데이터를 분류하는 지도학습 알고리즘 2. 장단점 - 장점 : 결과 해석이 쉽다 / 대용량의 데이터 작동 / 비모수적(통계 조건을 만족하지 않아도 쉽게 사용 가능) - 단점 : 분류 경계에서 오류 발생 가능성 / 과적합(Overfitting) 3. 예시 (공장 상품 제작 데이터) 정상(700)/불량(300) 분류 이때 [습..

format_list_bulleted Machine Learning
· 2024. 3. 1.
textsms

특성공학 | ⑤ 샘플링(Sampling)

1. 개념 Sampling : 서로 다른 비율의 데이터를 맞춰주는 작업 - Under Sampling : 데이터 수가 많은 항목을 적은 항목으로 맞추는 작업 (Random Under Sampling / Tomek's link ...) - Over Sampling : 데이터 수가 적은 항목을 많은 항목으로 맞추는 작업 (SMOTE / ADASYN / Random Over Sampling ...) Ex) 제품이 불량/정상 구분하는 분류 모델 1000개 정상(900)/불량(100) → 정상 100 / 불량 100 (Under Sampling) → 정상 900 / 불량 900 (Over Sampling) 2. 실습 1) 데이터셋 불러오기 및 밸런스 확인 2) Under Sampling 3) Over Sampling

format_list_bulleted Machine Learning
· 2024. 2. 29.
textsms

특성공학 | ④ 하이퍼 파라미터 튜닝(Hyper Parameter Tuning)

1. 개념 Hyper Parameter Tuning : 데이터를 학습할 때 발생하는 알고리즘의 수학적 구조를 사용자가 통제 - Random Search : 무작위로 알고리즘의 수학적 구조를 통제하여, 데이터셋에 적합한 수학적 구조를 생성 - Grid Search : 사용자가 설정한 임의의 알고리즘 구조를 통제하여, 데이터셋에 적합한 수학적 구조를 생성 2. 실습 1) 데이터셋 불러오기 및 결측치 확인 2) 설명/목표변수 선언 3) sklearn 라이브러리 설치 및 학습/검증 데이터 분할 4) Hyper Parameter 튜닝 후 학습데이터 학습 위에서 지정한 모델의 Hyper Parameter가 뭐가 있는지 어떻게 알까? → 구글 검색창에 지정한 모델을 검색하면 sklearn 공식 홈페이지에서 아래 링크..

format_list_bulleted Machine Learning
· 2024. 2. 29.
textsms

특성공학 | ③ 교차 검증(Cross Validation)

1. 개념 Cross Validation : 데이터를 번갈아가며, 학습 및 검증 작업 진행 위 그림과 같이 학습/검증 데이터로만 분할하였을 경우, 데이터의 개수가 적거나 밸런스가 깨져있으면 문제가 생길 수 있다. 데이터를 여러개로 나누어 돌아가며 검증데이터를 지정하는 방식이다. 2. 실습 1) 설명/목표변수 선언 2) sklearn의 cross_val_score 사용 5번의 교차검증 후, 각 경우마다 모델의 성능을 알아볼 수 있다.

format_list_bulleted Machine Learning
· 2024. 2. 29.
textsms

특성공학 | ② 차원축소(Scaling) & 데이터 변환(Encoding)

Scaling & Encoding 1. Scaling : 숫자데이터의 서로 다른 차원(Scale)을 맞춰주는 작업 1) Standard Scaling : 평균이 0, 표준편차 1 2) Min Max Scaling : 최소값 0, 최대값 1 3) Robust Scaling : 중앙값 0, 사분범위 1 📌 기존 통계값 확인 📌 Standard Scaling → 평균이 0, 표준편차가 1에 수렴 📌 Robust Scaling → 중앙값이 0 2. Encoding : 문자데이터를 숫자데이터로 변환 1) Label Encoding : 문자데이터를 단순히 숫자데이터로 변환 → 숫자 간 서열을 인식해버릴 수 있음 2) One Hot Encoding : 문자데이터를 컬럼으로 변경 후 0과 1로 데이터 유무를 표시 pd..

format_list_bulleted Machine Learning
· 2024. 1. 26.
textsms