컴공과컴맹효묘의블로그

머신러닝 회귀 분석 Feature Scaling 본문

컴퓨터/머신러닝

머신러닝 회귀 분석 Feature Scaling

효묘 2019. 8. 19. 13:47
반응형

Feature Scaling은 회귀모델에서 독립변수의 범위를 비슷하게 잡아주는 방법이다. Feature Scaling을 하면 좀 더 적합한 모델을 얻을 수 있다.

 

여기서 독립변수는 y = a_0 + a_1*x_1 + a_2*x_2+ ... 에서 x_i를 말한다. 각각의 독립변수를 Feature(특징)이라고도 한다.

 

각각의 매개변수 θ0과 θ1에 대해서, x1의 범위가 x2보다 비상적으로 크면 적합한 매개변수를 찾는데에 좀 많은 시간이 걸릴 것입니다. 

다음 그림은 매개변수에 따른 비용함수의 값을 등고선으로 나타낸 것입니다.

 

 

독립변수의 값은 -1≤ x ≤1 에 가깝게 설정해주는것이 가장 좋다고 합니다. 예를들어 1≤ x ≤3이나 -1.5≤ x ≤0.7 은 나쁘지 않지만, -256≤ x ≤40과 0.005≤ x ≤0.01은 적합한 범위를 벗어납니다.

 

새로운 feature를 설정하는 식을 알려드리겠습니다.

x_std[:,0] = (x[:,0] - x[:,0].mean()) / x[:,0].std()

 

단, x_0(x_0=1)은 feature scaling을 적용하면 안됩니다.

반응형
Comments