-
트렌드만을 고려한: 시계열 회귀분석 (1)Archive/통계&코딩이것저것 2022. 5. 31. 12:11
https://www.youtube.com/watch?v=pxG4ZlHJ570&list=PLpIPLT0Pf7IqSuMx237SHRdLd5ZA4AQwd&index=6
김성범 교수님의 강의를 참고&요약 하였다!
시간에 따른 y는 다음과 같이 나타낼 수 있다.
$$y_t=TR_t +\epsilon_t$$
$TR_t$ : t시점의 트렌드, 트렌드는 상수(no trend), linear, quadratic 등으로 나타낼 수 있음!
$\epsilon_t$: t시점에서 트렌드로 나타낼수 없는 오차
자세한 수식은 생략하고... 간단하다.
Linear Trend Model의 경우 시간(t) 하나를 X로 쓰는 것.
Qudratic은 t, t의 제곱까지 X로 해서 다중회귀를 푸는 것!
그러나 (다들 알겠지만??) 시계열 데이터는 오차의 독립성 가정을 위반함.(전의 관측치에 영향을 받기 때문)
그래서 보통의 LSE로 파라미터를 추정했다가는 문제가 일어날 수도 있다.
Autocorrelation
먼저 Autocorrelation 을 보고 넘어가야 하는데, Auto 는 self를 뜻함.
자기 자신과, shift 된 자기자신 의 상관관계를 autocorrelation 이라고 함.
Positive Autocorrelation 이란 다음과 같다. 양의 오차 뒤에 양의 오차가 오고, 음의 오차 뒤에 음의 오차가 오는 것.
Negative Autocorrelation: 양의 오차항 뒤에 음의 오차항이 오고, 반대로도 성립하는 것.
Random Autocorrelation 도 있음.
어떻게 Autocorrelation 의 존재를 체크하느냐?
잔차 플랏을 가지고 체크할 수 있음. 패턴이 있으면 독립성을 위반 한 것.
하지만 실 데이터에서 잔차 플랏 보고 체크하기는 힘들다....
Durbin-Watison Test
Durbin-Watison Test 를 가지고, first-order positive autocorrelation 이 있는지 체크할 수 있다.
positive autocorrelation 이 실 데이터에서는 네거티브보다 더 잘 보인다고 한다.
또한 더빈 왓슨 테스트는 first-order autocorrelation 만 검출할 수 있다.
second order 이상은 어떻게 검출해야 할까? 추후에 이야기 하겠다고 하심.
Seasonal Variation
다음으로 seasonal variation 에 대해서 배워본다.
Constant seasonal variation 은 시즈널 트렌드가 폭이 일정한 것, Increasing seasonal variation 은 시즈널 트렌드의 폭이 점점 늘어나는 것을 뜻한다.
Increasing seasonal variation의 경우엔 모델링이 어려워서 Constant seasonal variation 로 바꾼 후에 모델링을 한다고 한다.
How to Handle Increasing Seasonal Variations?
-Transformation
'Archive > 통계&코딩이것저것' 카테고리의 다른 글
계절 변동을 고려한: 시계열 회귀분석(2) (0) 2022.05.31 대리 분석-LIME (0) 2021.12.16 [Back to the Basic]엔트로피 (0) 2021.11.26 [Back to the Basic] 검정 (0) 2021.11.25 네거티브 샘플링을 이용한 Word2Vec 구현(w. TensorFlow) (0) 2021.11.16