공부한 내용/Forcasting: Principles and Practice

[Forcasting] 2. Time Series Graphics

Silver Shoes 2024. 2. 7. 15:03

2.3 Time series patterns

1) Trend, Seasonal, Cyclic

*Trend: 데이터가 장기적으로 증가하거나 감소하는 패턴 (비선형이어도 됨)

*Seasonal: 연간 혹은 주간과 같이 계절적인 요인에 의해 영향을 받는 패턴

*Cylic(Cycle): 빈도가 고정되지 않은 채(특정 값에 고정되지 않음) 데이터가 증가하고 감소하는 패턴

-cyclic vs. seasonal: 만약 변동이 빈도에 고정되지 않으면 cyclic, 반면 빈도가 변하지 않고 날짜 측면에서 일부 요소에 의해 영향을 받는 경우 seasonal

-일반적으로 cycle의 평균 길이 > seasonal 패턴의 평균 길이

-cycle의 변동 강도 > seasonal 패턴의 변동 강도

 

 

 

2.4 Seasonal Plots

*seasonal plot: 4계절 단위에 따라 데이터의 관측값을 그린 그래프

(seasonal 패턴에서 반복되는 부분만을 가져온 것)

-seasonal plot은 seasonal 패턴이 더 명확하게 보이게 해줌

-패턴이 변하는 때를 감지하는 데도 유용

*p.s 이게 data segmentation에 속할 듯

 

※극좌표를 이용해서도 그래프 표현 가능

 

(+) Seasonal subseries plots

 

 

 

2.6 Scatter Plots

*scatter plot을 이용해 변수 간(or 시계열 series 간) 관계 파악 가능

*Correlation

-r은 무조건 -1과 1 사이

-양수: 긍정적인 관계, 비례 관계

-음수: 부정적인 관계, 반비례 관계

-☆상관 계수(correlation coefficient)는 linear, 선형 관계만 측정 (비선형 관계는 측정하지 못함)

 

 

 

2.7 Lag Plots

*x축에는 시계열 데이터의 시차 값을 보여줌

*서로 다른 k에 대해 yt-k에 대한 yt 값을 보여줌 (누적하는 것과 비슷함)

(ex) lagged scatter plots for quarterly beer production

*코드

beer2 <- window(ausbeer, start=1992)
gglagplot(beer2)

 

*결과

-색깔: 몇 분기인지

-각 점들을 선으로 연결한 것

Q. 왜 선으로 연결한 것일까? 더 복잡해보이지 않나? 점으로만 보는 게 깔끔할 수도 있을텐데...

-lag 4 그래프와 lag 8 그래프 간 강한 positive 관계가 나타남: data의 계절성이 강함을 보여줌

(lag 4는 첫번째 해의 4분기, lag 8은 두번째 해의 4분기)

(마찬가지로 lag 1 & lag 5, lag 2 & lag 6, lag 3 & lag 7 각각 상당히 유사한 positive 관계가 나타남)

 

 

 

2.8 Autocorrelation

1) Autocorrelation (자기상관)

*correlation: 두 변수 사이의 선형 관계를 측정

*autocorrelation: 시계열 데이터의 lagged values, 시차 값 사이의 선형 관계를 측정

-r1은 yt와 yt-1 사이의 관계를 측정한 값이고, r2는 yt와 yt-2 사이의 관계를 측정한 값 등...이라 하면,

T: 시계열 데이터의 길이

(ex) beer production data

주어진 데이터에 대해 앞 9개의 autocorrelation coefficient가 다음의 값을 갖는다 가정

autocorrelation coefficient는 autocorrelation function(ACF)를 통해 보여줄 수 있음

 

Q. ACF가 뭐지? (2025.03.02에 수정)

*AutoCorrelation Function (자기 상관 그래프): 아래와 같이 lag가 x축, 결과값이 y축인 그래프

-한달 전과의 상관 관계

이런 그래프를 correlogram이라고도 함

-여기서 r4이 유독 높은 값을 가지는 이유는 계절적인 패턴에 의한 것

-높은 값과 낮은 값 각각 4분기마다 동일한 경향을 보임

(파란 점선에 대한 설명은 뒤에 나옴)

 

 

2) Trend and seasonality in ACF plots

*데이터에 trend가 있으면, 조그만 시차에 대한 autocorrelation이 절대값이 큰 양수인 경향이 있음: 왜냐하면 시간적으로 가까운 관측값들은 관측값의 크기가 비슷하기 때문에 강한 관계성을 보이는 것

-그래서 trend가 있는 시계열 데이터의 ACF는, 시차가 증가함에 따라 천천히 감소하는 양의 값을 가지는 경향이 존재함

(시차가 작을수록 자기상관 값이 커지는 반면, 시차가 커질수록 자기상관 값이 작아짐. 점점 관계성이 없어지기 때문에)

 

*만약 데이터가 seasonal하면, autocorrelation은 다른 시차 값보다 seasonal 시차에 더 큰 값을 가짐

*데이터가 trend & seasonal 둘 다를 갖는다면, 위 두 경향이 합져진 그래프로 나옴

(ex)

-밑의 ACF 그래프에서 천천히 감소하는 부분은 trend에 영향을 받은 것이며, 물결 모양은 계절성에 영향을 받은 것

 

 

 

2.9 White Noise

*autocorrelation을 보이지 않는 시계열을 white noise라 칭함

-white noise 시계열 데이터는 각 autocorrelation 값이 0에 가까움

(ex) white noise 시계열 데이터의 그래프와 ACF

-보통 white noise series는 ACF 값이 95%의 확률로 ±2/root(T) 내에 존재한다고 가정함, 즉 95%의 ACF 값이 이 경계 안에 위치해야 보통 white noise 시계열 데이터라고 말함. 위 그래프의 파란색 점선이 이에 해당함

(T: 시계열 데이터의 길이)