본문 바로가기

카테고리 없음

4. 기계학습 문제 해결 순서

1. 해결할 일에 대해 입/출력이 무엇인지 분석한다.

 - 분류? 회귀 분석? 군집화?, 우리가 가지고 있는 데이터와 상호호환 가능한가?

 

2. 관련된 데이터의 이해 (Exploratory data analysis EDA) 한다.

전략을 수립하기 위해 주의할 점 등을 분석한다.

step1 : 데이터를 로딩한 후 그래프로 플로팅한다. 각 성격을 분류하기 위해

step2 : 1개 fature 로 분석한다.

step3 : 2 또는 여러개의 feature를 섞어서 분석한다.

step4 : 없어진 값등을 보간 등으로 채우거나 사용안한다.  

step5 : outlier를 제거한다. 또는 최상위 90%이상, 최하위 10%이하를 사용하지 않는 등.

 

3. Train 과 Test 데이터를 대표성을 가지도록 임의로 나눈다. 모델 성능의 평가를 위한 meteric을 정의한다.

Train set : 러닝 모델의 학습을 위해서만 사용

Validation set : 학습중인 모델을 검증하기 위한 데이터

Test set : 학습과 검증이 완료된 모델의 최종적 성능 평가를 위한 데이터