본문 바로가기
AI

쉽게 알아보는 머신러닝(ML)

by icebear3000 2023. 1. 1.
반응형

 

머신러닝 개략도

머신러닝 개략도

전처리

 주어진 원본 데이터가 모델을 학습할 때 최적의 성능을 내기에 적합한 겨우는 드물다. 따라서 데이터 전처리를 해주어야 하는데 이는 모든 머신러닝에서 매우 중요한 단계이다. 전처리에서는 특성 추출 및 스케일 조정, 차원 축소, 샘플링 등의 기법이 이용된다. 또한 새로운 데이터에도 잘 일반화되려면 데이터 세트를 훈련 데이터셋(training set), 검증 데이터셋(validation set), 테스트 데이터셋(test set)으로 나눠야 한다. 훈련 데이터셋은 모델을 훈련시키는 데 사용하고 검증 데이터셋은 하이퍼 파라미터(초매개변수)를 튜닝, 테스트 데이터셋은 모델의 성능을 최종 평가하는 데 사용한다.

 

학습 

 가장 좋은 모델(알고리즘)을 선택하기 위해서 성능을 측정할 지표( ex. 정확도)를 결정하고 몇가지 모델을 교차검증 해주어야한다. 이때 훈련 데이터셋과 검증 데이터셋을 사용하여 교차검증을 토해 일반화 성능을 예측하고 하이퍼파라미터(hyperparameter)를 최적화하여 최적화된 모델(학습된 모델)을 선택한다.

cf. 보통 정확도는 정확히 분류된 샘플 비율로 측정된다. 

 

평가

 테스트 데이터셋을 이용하여 본적없는 데이터에 대하여 얼마나 성능을 내는지 확인하여 일반화 오차를 예상한다.

 

 

 

반응형

댓글