본문 바로가기

심화프로젝트

심화프로젝트 4일차 TIL

오늘은 모델링 LGBM과 catboost 모델링을 해봣다.

Gradient Boosting 인 LGBM모델과 Ordered Boosting catboost모델을해봣다

 

  1. Gradient Boosting:
    • Gradient Boosting에서는 이전 트리(또는 모델)의 오차(잔차)를 줄이는 방향으로 새로운 트리를 학습시킵니다.
    • 트리는 순서에 상관없이 독립적으로 학습되며, 모든 트리가 동일한 방향으로 학습될 수 있습니다.
  2. Ordered Boosting (CatBoost):
    • Ordered Boosting에서는 트리들이 순서대로 학습됩니다.
    • 각 트리는 이전 트리들의 예측 값에 따라 순서가 정해지며, 그 순서대로 학습이 진행됩니다.
    • 이전 트리의 예측 결과가 더 큰 오차를 가진 샘플들에 집중하여 다음 트리를 학습시키는 방식으로 오차를 줄입니다.

Ordered Boosting의 장점

  • 과적합 방지: 순서대로 트리를 학습시킴으로써, 각 트리가 과적합되지 않도록 조절할 수 있습니다.
  • 더 나은 일반화 성능: 이전 트리의 예측 결과를 고려함으로써, 모델의 일반화 성능을 향상시킬 수 있습니다.
  • 효율적인 학습: 순서대로 트리를 학습하기 때문에, 전체적인 학습 과정이 더욱 효율적입니다.

Ordered Boosting의 단점

  1. 속도와 메모리 사용: CatBoost는 다른 Gradient Boosting 라이브러리에 비해 학습 속도가 느릴 수 있습니다. 또한, 메모리 사용량이 높을 수 있습니다. 이는 특히 매우 큰 데이터셋에서 더욱 부각될 수 있습니다

내 데이터에선 Ordered Boosting와 tree모델인 catboost  모델이 더 잘나왔지만 catboost모델의 강점인 카테고리형데이터들을 미리 삭제하고 시작했던 모델링이라 맞지않다고 느끼고  이번 데이터엔 LGBM모델이 최적의 모델이라는것으로 하기로했다 추가로 간단한 시각화도 진행했다

 

 

'심화프로젝트' 카테고리의 다른 글

심화프로젝트 5일차  (0) 2024.06.21
심화프로젝트 3일차 TIL  (0) 2024.06.19
심화프로젝트 2일차 -TIL  (0) 2024.06.18
심화프로젝트 TIL 1일차  (0) 2024.06.17