Sudal's Garage

Statistics: Regression, low order fit 본문

Engineering

Statistics: Regression, low order fit

_Sudal 2019. 3. 19. 05:10

Q1. 다음과 같은 Data set 을 실험에서 얻었다고 해보자.



우리는 frequency 와 amplitude, 두개의 variables 에 대한 관계식을 찾고싶다.

어떻게 해야 합리적이고 말이 되게 식을 정립할 수 있을까?


이와 같은 상황에서, Variables의 relationship을 찾는 과정을 Regression 이라고 한다.


크게 straight line fit, non-straight line fit 으로 나눌 수 있다.


이 두개의 차이는 뭘까?


다음의 예를 보자



감이 온다!


Cannot have coefficient inside in x in "Linear"

"Linear"에서는 x앞에 계수가 올 수 없다.


이번 포스팅에선 y= A + Bx 같은 Low order fit 에 대해서 공부해보자. 


먼저,    4개의 데이터가 있다고 생각하자.







 왼쪽의 그래프에서, X 는 각 하나의 데이터에 대응하고, 

 

 우리는 가장 데이터 set 에 맞는 straight line 관계식인 파란색 일차식을 구하려한다.


 파란색 직선의 식을  라 하자.


 그렇다면 데이터 set 에 대해 다음을 만족해야한다.




이를 Matrix form 으로 다시 나타내어 보면,    로 나타낼 수 있다.



여기서,













 



라 하면,


~: Matrix

_ : Vector

로 나타낼 수 있다.


로 A와 B를 구할 수 있다.



찾아낸 관계식으로 부터, Data set 이 얼마나 잘 들어맞는 지 표현할 수 있을까?


이 때, , 즉 찾아낸 관계식으로 부터 나온 y 값이다.



위 식들로 부터, Misfits, 관계식으로 부터 떨어진 데이터들, 의 Variance(분산) 과 Standard deviation(표준편차)를 구할 수 있다.



Data set 이 얼마나 잘 들어맞는 지, 다음의 coefficient 를 통해 알 수 있다.

Excel 에서 그래프를 그릴 때 trend line 을 넣으면 r^2 의 값을 볼 수 있는 데, 다음과 같은 의미이다.



  Coefficient of Determination 의 값이 1에 가까울수록 Data set 이 관계식에 가까움을 나타낸다.



위의 예제로 다시 돌아가보자.


Linear Regression 을 해보자


먼저 Frequency 를 Normalize 해보자


 에서,  


여기서,


 로 나타낼 수 있다.


A 와 B에 관해서 풀면,  A = 1.35, B = -0.02가 나온다. 결국 관계식은,


라고 할 수 있다.


그런데, 그래프를 그려보면




Low order linear fit 과 이 data set 은 맞아보이지 않는다.


이처럼 Regression 을 할 때에는 Data Set 을 먼저 보고 Linear fit 이 맞을 지, Non-linear fit 이 맞을지, 혹은 high order fit이 맞을지 먼저 정하고 해야한다.


다음 포스팅에서는 2차 함수로 Regression 을 해보자! 

더 만족할 만한 관계식을 찾을 수 있을 것이다.