카테고리 없음

#Statistical regression #회귀분석

carayoon 2019. 6. 13. 13:46
728x90

회귀분석은 x변수들과 y변수들과의 관계를 추정하는 것이다. 이를 통해 특정 x1변수가 한 단위 변할 때, 이것이 y값에 얼마나 영향을 끼치는지에 대해서도 알 수 있다. x값이 주어졌을 때, 회귀모형에 의한 y의 기대값은 E[y|x]로 나타내며, 독립변수x들로 구성된 함수를 회귀식이라고 부른다. 실제 값y에 대한 값과 회귀식으로 추정된 기대값 y사이에는 오차가 존재 하기 때문에, 다음과 같은 식으로 나타낼 수 있다.

E[y|x]에서 y값을 추정하는데 있어서, x변수들 앞에 붙여지는 회귀계수 beta를 실제 데이터 (x,y)들로 추정하게 된다.

추정해야 하는 beta의 길이와, 데이터의 길이에 따라서 아래와 같은 세 가지 문제 유형으로 나뉠 수 있다. 추정해야 하는 beta의 개수를 p라고 하자. 

1. 먼저, n<p인 경우다. 데이터의 개수보다 추정해야 하는 베타 파라미터의 길이가 길 경우, 가능한 후보군의 beta들이 너무 많아지기 때문에 추정된 베타값을 신뢰하기가 힘들다. 

2. n=p인 경우다. 이 경우 function은 선형이며, 정확하게 이를 만족하는 이상적인 회귀계수가 존재한다. x변수들이 서로 선형독립인 경우 유일한 회귀계수 해가 존재한다. 만약, function이 선형이지 않다면, 수많은 해가 가능하다.

3. n>p인 경우다. 관측된 데이터들이 추정해야 하는 회귀계수 수보다 풍족한 경우다. 이 경우, 충분한 정보가 제공되기에 가장 회귀선의 오차를 줄일 수 있는 회귀선을 찾도록 추정해야 한다. (Ordinary least squares와 같은 방법을 사용하여!)

보통 실제 기업 현장에서 다루는 데이터셋은 1번이거나 3번 케이스인 경우가 많다. 1번인 경우에는 추정해야 하는 변수들의 수를 적절히 조정하여(서로 상관관계가 높아보이는 변수들을 제거) 3번과 같이 만들어서 문제를 푼다고 한다.