ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [Machine Learning] Time series data란?
    Data miner 2021. 1. 18. 23:40
    728x90

        시계열 데이터(Time series data)는 데이터 중에서 시간 요소가 있는 데이터를 일컫는다. 여러 데이터에서 시간의 요소만 넣으면, 시계열 데이터가 될 수 있으므로 일상의 거의 모든 데이터가 시계열 데이터가 될 수 있다.

     

    머신러닝에서 시계열 데이터는, ...

     

    1) 특정 시간대의 데이터의 값을 예측하거나 데이터의 경향성을 보는데 유용하게 활용될 수 있다.

    2) 어느 정도의 과거 데이터가 충분히 쌓인 경우, 현재의 흐름을 읽기 위해, 현재의 데이터를 과거의 데이터에 덧대어 현재의 상황을 파악할 수 있다.

    3) 특정 시간대의 데이터가 소실된 경우, 소실된 시점의 전후 데이터를 참고하여 공란의 값(Null값)의 데이터를 합당한 값으로 대체할 수 있다.

    4) 이상의 값을 탐지할 수 있다(detect anomalies).  

     

     

       시계열 데이터는 보통 일반적인 패턴이 있다. 1) 특정한 방향이 있거나 ex) 우상향 2) 비슷한 배턴이 반복해서 나타난다 ex) 쇼핑몰의 고객 구매 데이터 수 3) 특정한 방향이 있으면서, 비슷한 패턴이 시간에 따라서 반복해서 나타나는 경우도 있다. 4) 무작위성을 가진 데이터처럼 보이지만, 데이터가 일정한 시간 간격을 두고 서로 상관관계를 보이는 경우도 있다 (Auto-correlated time series). 한편, 종종 데이터 자체가 무작위성을 띠기도 한다. 이 경우에는 데이터가 시간에 걸쳐서 어떠한 패턴을 가지지 않는다. 분석 도메인에 따라 시계열 데이터가 가지는 패턴 특성이 다르며, 연구자들은 패턴 특성을 모델링하고 이를 수학적으로 도식화한다. 

     

    Fixed Partitioning

     

      머신러닝 모델은 시계열 데이터에서 일정한 패턴을 찾으며, 이러한 패턴은 미래 시점의 데이터값을 예측하는데 도움을 준다. 시계열 데이터를 훈련/검증/시험 데이터셋으로 나누는 방법은 1) Fixed Partitioning  2) Roll-Forward Partitioning 이 있다. 

     

    1) Fixed Partitioning - 먼저 데이터의 전반적인 패턴이 반영될 수 있도록 한 시즌을 일정하게 Training period에 담는 방식

    2) Roll-Forward Partitioning - 짧은 훈련 기간에서부터 시작해서, 점차적으로 그 기간을 늘려나가는 방식. 하루/일주일/한달을 학습한 후 그 이후의 기간을 예측하는 방식

     

    Roll-Forward Partitioning

     

     

    한편, 시계열 데이터에서 노이즈는 예측할 수 없는 변화를 뜻한다.

Designed by Tistory.