오늘은 모델링 LGBM과 catboost 모델링을 해봣다.
Gradient Boosting 인 LGBM모델과 Ordered Boosting catboost모델을해봣다
- Gradient Boosting:
- Gradient Boosting에서는 이전 트리(또는 모델)의 오차(잔차)를 줄이는 방향으로 새로운 트리를 학습시킵니다.
- 트리는 순서에 상관없이 독립적으로 학습되며, 모든 트리가 동일한 방향으로 학습될 수 있습니다.
- Ordered Boosting (CatBoost):
- Ordered Boosting에서는 트리들이 순서대로 학습됩니다.
- 각 트리는 이전 트리들의 예측 값에 따라 순서가 정해지며, 그 순서대로 학습이 진행됩니다.
- 이전 트리의 예측 결과가 더 큰 오차를 가진 샘플들에 집중하여 다음 트리를 학습시키는 방식으로 오차를 줄입니다.
Ordered Boosting의 장점
- 과적합 방지: 순서대로 트리를 학습시킴으로써, 각 트리가 과적합되지 않도록 조절할 수 있습니다.
- 더 나은 일반화 성능: 이전 트리의 예측 결과를 고려함으로써, 모델의 일반화 성능을 향상시킬 수 있습니다.
- 효율적인 학습: 순서대로 트리를 학습하기 때문에, 전체적인 학습 과정이 더욱 효율적입니다.
Ordered Boosting의 단점
- 속도와 메모리 사용: CatBoost는 다른 Gradient Boosting 라이브러리에 비해 학습 속도가 느릴 수 있습니다. 또한, 메모리 사용량이 높을 수 있습니다. 이는 특히 매우 큰 데이터셋에서 더욱 부각될 수 있습니다
내 데이터에선 Ordered Boosting와 tree모델인 catboost 모델이 더 잘나왔지만 catboost모델의 강점인 카테고리형데이터들을 미리 삭제하고 시작했던 모델링이라 맞지않다고 느끼고 이번 데이터엔 LGBM모델이 최적의 모델이라는것으로 하기로했다 추가로 간단한 시각화도 진행했다
'심화프로젝트' 카테고리의 다른 글
심화프로젝트 5일차 (0) | 2024.06.21 |
---|---|
심화프로젝트 3일차 TIL (0) | 2024.06.19 |
심화프로젝트 2일차 -TIL (0) | 2024.06.18 |
심화프로젝트 TIL 1일차 (0) | 2024.06.17 |