선형 회귀: 선형회귀는 독립 변수(특징)와 종속 변수(목표) 사이의 선형 관계를 모델링하여 데이터를 예측하는 통계적 기법. 여기서 "선형"이라는 의미는 두 변수 사이의 관계가 직선 형태로 나타난다는 것입니다. 선형 회귀의 주요 목적은 주어진 데이터 포인트에 가장 잘 맞는 직선을 찾는 것입니다
윗그림 처럼 산점도가 이러할때 :
이 3직선중 어떤직선이 이 그래프를 잘 표현한다고 할 수있을까
대부분 빨간색이라고 할것이다 어떤근거를 가지고빨간색이라고 할수 있는지가 선형회귀 이론이다
어떠한 근거로 빨간색 선을 그릴 수있을까 바로 직선과 점의 간의 거리를 계산하는 것이다. 이를 Error 라고 정의하고 최소의 Error인 직선을 그리면 된다
각 점마다 에러를 제곱한후 더한다 그후 더한값을 점수만큼 나눠주면된다
이를 평균 제곱 오차 (Mean Squared Error, MSE)라고 불린다
즉 MSE가 가장 적게 나오는 선을 그려주면된다
선형회귀 용어 정리
- Y는 종속 변수, 결과 변수
- X는 독립 변수, 원인 변수, 설명 변수
머신러닝/딥러닝에서 사용하는 선형회귀 식
y= wx+b
- w: 가중치
- b: 편향(Bias)
R Square
R square의 정의
다중선형회귀
: 실제의 데이터들은 비선형적 관계를 가지는 경우가 많기떄문에 X변수를 추가 할 수도, 변형할 수 도 있다.
다중선형회귀의 데이터 전처리 및 모델링순서
- 범주형 데이터 인코딩
- 훈련
- 학습
- 평가
선형 회귀의 가정
1. 선형성 (Linearity): 종속 변수(Y)와 독립 변수(X) 간에 선형 관계가 존재해야 함
2. 등분산성 (Homoscedasticity): 오차의 분산이 모든 수준의 독립 변수에 대해 일정해야 합니다. 즉, 오차가 특정 패턴을 보여서는 안 되며, 독립 변수의 값에 상관없이 일정해야 합니다
3. 정규성 (Normality): 오차 항은 정규 분포를 따라야 합니다
4. 다중공선성(Multicolinearity)문제:변수가 많아지면 서로 연관이 있는 경우가 많습니다. 이처럼 회귀분석에서 독립변수(X)간의 강한 상관관계가 나타나는 것
- 다중공선성 해결방법
- 서로 상관관계가 높은 변수 중 하나만 선택(산점도 혹은 상관관계 행렬)
- 두 변수를 동시에 설명하는 차원축소(Principle Component Analysis, PCA) 실행하여 변수 1개로 축소
선형 회귀 정리
- 장점
- 직관적이며 이해하기 쉽다. X-Y관계를 정량화 할 수 있다.
- 모델이 빠르게 학습된다(가중치 계산이 빠르다)
- 단점
- X-Y간의 선형성 가정이 필요하다.
- 평가지표가 평균(mean)포함 하기에 이상치에 민감하다.
- 범주형 변수를 인코딩시 정보 손실이 일어난다.