심화프로젝트 5일차
5일차까지 목표였던 PPT제작을 거의 8~90% 마쳤고 발표스크렙트도 어느정도 마쳤다
1.안녕하세요, 여러분. 저는 심화프로젝트 발표를 맡은 이준민입니다. 저희 팀 칠성사이다는 월마트의 주간 판매량 예측에 대한 연구를 진행했습니다. 오늘 발표에서는 저희가 사용한 데이터 분석 방법과 예측 모델, 그리고 이를 통해 얻은 주요 인사이트들을 공유하고자 합니다. 지금부터 발표를 시작하겠습니다.2.오늘 발표에서는 프로젝트의 전반적인 개요를 시작으로, 데이터를 전처리한 과정, EDA, 예측 모델의 설계, 결론, 한계점까지 순차적으로 진행하겠습니다.3.그럼 이제 첫 번째 섹션인 프로젝트 개요부터 시작하겠습니다.5. 다음으로는 저희가 사용한 칼럼에 대해 살펴보겠습니다
데이터는 케글데이터섹 안에있는 45개의 월마트 매장에 대한 데이터를 사용해봤습니다
stores 파일엔 총 3개칼럼 45개의 데이터 결측치는 없었고
train 파일엔 총 5개의 칼럼 42만여개의 데이터 결측치는 없었고
features 데이터엔 총 11개의 칼럼에 8000여개의 결측치가 존재하였습니다6.다음으로는 데이터 전처리 과정인데요7.features 데이터의 마크다운 칼럼에 결측치 및 음수등 불안정한 값이 50%이상이어서 유의미한 결과를 도출하기 어렵다고 판단하여 칼럼을 삭제했고~ (넘기면서) 기존 object type으로 되어있던 date컬럼을 머신러닝학습을 위해 datetime type으로 변경했습니다. 그리고features 데이터와 Weekly Sales, size칼럼을 한변에 비교하기위해 train데이터와 store데이터를 merge했습니다8. 다음으로, 탐색적 데이터 분석(EDA) 결과를 설명드리겠습니다.9. Weekly Sales와 CPI, 실업률과의 연관성은 찾기 어려웠고, 칼럼 간의 히트맵 또한 상관관계를 찾기 어려웠습니다. 이는 데이터의 특성상 각 변수들이 독립적으로 작용할 가능성이 높음을 시사합니다.10. 그러나 휴일을 포함하는 주가 포함하지 않는 주에 비해 약 10%가량 매출이 높다는 것을 발견했습니다. 이는 휴일이 소비자들의 구매 활동에 큰 영향을 미친다는 것을 보여줍니다. (넘기면서) 스토어 중 A타입의 수가 가장 많으며, 평균 주간 판매량 또한 높은 것을 알 수 있었습니다. 이는 A타입 스토어가 고객들에게 더 인기가 있음을 시사합니다.11. 다음으로, 연도별 Weekly Sales 추이와 전체 기간 Weekly Sales를 살펴보겠습니다. 주간 판매량 추이를 보면, 각 연도 말에 판매량이 급증하는 것을 확인할 수 있습니다12 이러한 패턴을 바탕으로, 우리는 미래의 판매량을 보다 정확하게 예측할 필요성을 느꼈습니다. 이를 통해 재고 관리와 마케팅 전략을 최적화할 수 있을 것으로 기대됩니다13. 예측에 있어서는 다양한 모델을 사용해 보았습니다. 다수의 결정 트리를 사용하여 예측 성능을 높이는 앙상블 기법인 랜덤 포레스트(Random Forest),
메타에서 개발한 시계열 데이터 예측 라이브러리 Prophet,
강력한 그래디언트 부스팅 기법인 XGBoost,
그리고 Microsoft에서 개발한 대규모 데이터셋에 특화된 그래디언트 부스팅 기법인 LightGBM을 사용하여 비교해 보았습니다14. 그중 다른 모델들에 비해 평가지표가 가장 좋았던 LightGBM을 최종 모델로 선정했습니다. 이 모델을 통해 주간 판매량과 부서 규모 간의 관계를 분석한 결과, 몇 가지 흥미로운 인사이트를 도출할 수 있었습니다15 예를 들어, 주간 판매량이 높은 부서의 경우, 일반적으로 규모가 크며, 공휴일의 영향을 덜 받는 부서도 있었습니다. 반면, 주간 판매량이 낮은 부서는 대체로 규모가 작고, 연말 판매량도 낮은 편이었습니다16 이제 최종 모델을 통해 얻은 인사이트에 대해 말씀드리겠습니다.(결론이기 때문에 강조)17 최종 모델을 통해 얻은 인사이트 중 하나는 작은 매장도 큰 매장과 유사한 판매 성과를 보일 수 있다는 점입니다. 예를 들어, 34번 매장의 경우, 매장의 크기나 위치와 관계없이 다양한 제품을 적극적으로 푸쉬해 주는 전략이 효과적일 수 있습니다.