본문 바로가기

컴퓨터

K-폴드 교차 검증에서 K의 값을 선택할 때 고려해야 할 점은 무엇인가

1. K-폴드 교차 검증(K-fold cross validation)은 머신러닝 모델의 일반화 성능을 더 정확하게 평가하기 위해 데이터를 K개의 동일한 크기의 폴드(덩어리)로 나누어 각 폴드가 한 번씩 검증세트가 되고 이 과정을 K번 반복하며 이를 평균내어 최종 성능을 검증하는 방법. 이 때 K값 선택은 모델 평가의 신뢰성(편향과 분산의 trade-off)과 계산 효율성 간 균형을 결정함.

 

2. K값에 따른 예상 결과

  • 낮은 K값(ex : 5) : 훈련 데이터의 크기가 작아 모델이 전체 데이터 분포를 충분히 학습하지 못해서 편향은 높아지고 반복 횟수가 적어서 분산 및 계산 비용은 낮아짐.
  • 높은 K값(ex : 10) : 훈련 데이터의 크기가 커져 모델이 데이터 분포를 정확히 학습하므로 편향은 낮이지지만 검증 세트가 작고 다양해져 분산 및 계산 비용은 높아짐.
  • 극단적 K(ex : 샘플 수) : Leave-One-Out(LOO)방식 -데이터의 갯수만큼 반복 테스트하는 방법- 으로 편향 최소화가 가능하지만 계산 비용이 대단히 증가함.

3. 따라서 K값은 데이터 크기와 문제 복잡도를 고려해 5 또는 10 으로 설정하는 것이 경험적으로 최적화된 편향-분산 균형과 계산 효율성을 제공함. 그래서 대규모 데이터셋은 5, 중소규모는 10을 우선 적용해 봄.

 


expand_less