BAEKUP, DATA !

백준 | 7569 : 토마토(Python/파이썬)

문제 철수의 토마토 농장에서는 토마토를 보관하는 큰 창고를 가지고 있다. 토마토는 아래의 그림과 같이 격자모양 상자의 칸에 하나씩 넣은 다음, 상자들을 수직으로 쌓아 올려서 창고에 보관한다. 창고에 보관되는 토마토들 중에는 잘 익은 것도 있지만, 아직 익지 않은 토마토들도 있을 수 있다. 보관 후 하루가 지나면, 익은 토마토들의 인접한 곳에 있는 익지 않은 토마토들은 익은 토마토의 영향을 받아 익게 된다. 하나의 토마토에 인접한 곳은 위, 아래, 왼쪽, 오른쪽, 앞, 뒤 여섯 방향에 있는 토마토를 의미한다. 대각선 방향에 있는 토마토들에게는 영향을 주지 못하며, 토마토가 혼자 저절로 익는 경우는 없다고 가정한다. 철수는 창고에 보관된 토마토들이 며칠이 지나면 다 익게 되는지 그 최소 일수를 알고 싶어 한..

format_list_bulleted 카테고리 없음
· 2024. 3. 6.
textsms

백준 | 5639 : 이진 검색 트리(Python/파이썬)

문제 이진 검색 트리는 다음과 같은 세 가지 조건을 만족하는 이진 트리이다. 노드의 왼쪽 서브트리에 있는 모든 노드의 키는 노드의 키보다 작다. 노드의 오른쪽 서브트리에 있는 모든 노드의 키는 노드의 키보다 크다. 왼쪽, 오른쪽 서브트리도 이진 검색 트리이다. 전위 순회 (루트-왼쪽-오른쪽)은 루트를 방문하고, 왼쪽 서브트리, 오른쪽 서브 트리를 순서대로 방문하면서 노드의 키를 출력한다. 후위 순회 (왼쪽-오른쪽-루트)는 왼쪽 서브트리, 오른쪽 서브트리, 루트 노드 순서대로 키를 출력한다. 예를 들어, 위의 이진 검색 트리의 전위 순회 결과는 50 30 24 5 28 45 98 52 60 이고, 후위 순회 결과는 5 28 24 45 30 60 52 98 50 이다. 이진 검색 트리를 전위 순회한 결과가 ..

format_list_bulleted Algorithm
· 2024. 3. 6.
textsms

분류모델 | ② 앙상블 모델 (Ensemble Model)

1. 의사결정나무 모델(Decision Tree Model) 1. 개념 기존에 존재하는 여러가지 알고리즘을 결합 또는 조합하여 새로운 강력한 모델로 만드는 알고리즘 2. 종류 (어떻게 조합되느냐에 따라) Voting : 서로 다른 알고리즘을 가진 분류기를 결합하는 방법 / 가장 성능이 좋은 알고리즘을 선택하는 방식 Bagging : 서로 같은 알고리즘을 선택, 데이터에서 서로 다른 복원추출(Sub Sample)된 데이터를 학습하여 알고리즘을 결합하는 방식 (=매번 랜덤하게 추출 / Random Forest) Boosting : 알고리즘을 구성할 때마다, 오차를 줄이는 방향으로 모델의 파라미터를 조정하여 학습해 결합하는 방식 2. 실습 1. Random Forest (Bagging) from sklearn..

format_list_bulleted Machine Learning
· 2024. 3. 3.
textsms

분류모델 | ① 의사결정나무 모델(Decision Tree Model)

1. 의사결정나무 모델(Decision Tree Model) 1. 개념 여러 조건의 X(feature) 값에 따라 데이터를 분류해보며, 데이터가 한 쪽으로 많이 치우쳐지는 방향에 맞춰 특정 조건을 계속 생성해가면서 학습시키는 알고리즘. 설명 변수들의 규칙, 관계, 패턴과 같은 여러 값들을 이용해서 목표변수를 분류하는 나무구조의 모델을 만들고, 새로운 값이 들어올때 생성된 나무구조에 의해 데이터를 분류하는 지도학습 알고리즘 2. 장단점 - 장점 : 결과 해석이 쉽다 / 대용량의 데이터 작동 / 비모수적(통계 조건을 만족하지 않아도 쉽게 사용 가능) - 단점 : 분류 경계에서 오류 발생 가능성 / 과적합(Overfitting) 3. 예시 (공장 상품 제작 데이터) 정상(700)/불량(300) 분류 이때 [습..

format_list_bulleted Machine Learning
· 2024. 3. 1.
textsms

특성공학 | ⑤ 샘플링(Sampling)

1. 개념 Sampling : 서로 다른 비율의 데이터를 맞춰주는 작업 - Under Sampling : 데이터 수가 많은 항목을 적은 항목으로 맞추는 작업 (Random Under Sampling / Tomek's link ...) - Over Sampling : 데이터 수가 적은 항목을 많은 항목으로 맞추는 작업 (SMOTE / ADASYN / Random Over Sampling ...) Ex) 제품이 불량/정상 구분하는 분류 모델 1000개 정상(900)/불량(100) → 정상 100 / 불량 100 (Under Sampling) → 정상 900 / 불량 900 (Over Sampling) 2. 실습 1) 데이터셋 불러오기 및 밸런스 확인 2) Under Sampling 3) Over Sampling

format_list_bulleted Machine Learning
· 2024. 2. 29.
textsms

특성공학 | ④ 하이퍼 파라미터 튜닝(Hyper Parameter Tuning)

1. 개념 Hyper Parameter Tuning : 데이터를 학습할 때 발생하는 알고리즘의 수학적 구조를 사용자가 통제 - Random Search : 무작위로 알고리즘의 수학적 구조를 통제하여, 데이터셋에 적합한 수학적 구조를 생성 - Grid Search : 사용자가 설정한 임의의 알고리즘 구조를 통제하여, 데이터셋에 적합한 수학적 구조를 생성 2. 실습 1) 데이터셋 불러오기 및 결측치 확인 2) 설명/목표변수 선언 3) sklearn 라이브러리 설치 및 학습/검증 데이터 분할 4) Hyper Parameter 튜닝 후 학습데이터 학습 위에서 지정한 모델의 Hyper Parameter가 뭐가 있는지 어떻게 알까? → 구글 검색창에 지정한 모델을 검색하면 sklearn 공식 홈페이지에서 아래 링크..

format_list_bulleted Machine Learning
· 2024. 2. 29.
textsms