본문 바로가기

Machine Learning/Paper Review

[Review] LSTM Fully Convolutional Networks for Time Series Classification

* Karim, F., Majumdar, S., Darabi, H., & Chen, S. (2018). LSTM Fully Convolutional Networks for Time Series Classification. IEEE Access, 6, 1662-1669.

LSTM Fully Convolutional Networks for Time Series Classification 논문을 리뷰하면서 부족한 이론을 추가 정리하려고 한다.😂

 

https://ieeexplore.ieee.org/document/8141873


Contents

1)Introduction
-Limitations of Previous Research
-Purpose of Study
2)Model
-   Proposed Model
-   Methods for Performance Enhancement
       -   Performance Evaluation
-   LSTM-FCN / ALSTM-FCN
3)Experimental Results
-   Performance Evaluation
4)Conclusion
-   Applications

 


1. Introduction

Limitations of Previous Research

기존 feature-based 방법론(ex: Bag-of-Words, BOSS, WEASEL ): 복잡한 특징 추출 과정 전처리 필요
Ensemble 알고리즘(ex: PROP, COTE): 여러 분류기를 통합하여 시스템의 복잡도를 증가시켜 모델의 해석 가능성 저하
일부 딥러닝 모델(ex: Multi-scale CNN): 데이터 전처리와 많은 하이퍼파라미터의 튜닝에 매우 의존적
FCN, ResNet: 전처리가 적지만, 시계열 데이터의 복잡한 패턴을 포착하는데 성능의 한계
 

purpose of study

--> 복잡한 특징 추출과 전처리 과정을 줄이면서도 시계열 분류 모델의 성능 향상 및 모델의 해석 가능성 개선 방법 탐색
 

 

자세한 정보
  1. 복잡한 특징 추출 및 전처리 요구:
    • 많은 기존의 특징 기반 방법론(예: Bag-of-Words, BOSS, WEASEL 등)은 시간 시계열 패턴을 표현하는 세트의 특징들을 추출해야 하며, 이는 시간과 계산 자원이 많이 소모됩니다.
    • 이러한 방법론들은 무거운 특징 추출 과정과 복잡한 전처리가 필요하여 실용적인 적용에 어려움이 있습니다【Karim et al.†1】【Karim et al.†2】.
  2. 복잡한 전처리와 특징 추출:
    • 특징 기반 접근법: 기존의 특징 기반 접근법은 복잡한 특징 추출과 엔지니어링을 필요로 합니다. 예를 들어, Bag-of-Words(BoW), Bag-of-features(TSBF), Bag-of-SFA-Symbols(BOSS), BOSSVS, WEASEL 등의 방법은 모두 시간 시퀀스 패턴을 나타내는 특징들을 추출하고 이를 분류기에 입력해야 합니다. 이러한 방법들은 높은 성능을 보일 수 있지만, 데이터 전처리와 특징 추출에 많은 시간이 소요되고 복잡한 과정을 필요로 합니다.
    • 다중 알고리즘 사용: 성능을 향상시키기 위해 여러 특징 기반 알고리즘을 앙상블로 사용하는 경우도 있지만, 이는 더욱 복잡하고 계산 비용이 많이 듭니다.
 2.앙상블 방법의 높은 복잡도:
  • 앙상블 알고리즘(예: PROP, shapelet ensemble, COTE 등)은 여러 개의 분류기를 통합하여 높은 성능을 달성하지만, 이로 인해 시스템의 복잡도가 증가하고 실행 시간이 길어질 수 있습니다.
  • 다양한 분류기를 결합하는 이러한 방법들은 학습 및 추론 과정에서 상당한 계산 자원을 요구하며, 모델의 해석 가능성 또한 저하될 수 있습니다【Karim et al.†1】【Karim et al.†2】.


2.앙상블 알고리즘의 복잡성:
  • 앙상블 알고리즘은 여러 분류기를 결합하여 사용하므로, 각 분류기의 학습과 예측 과정이 복잡하고 계산 비용이 큽니다. 예를 들어, Proportional Elastic Ensemble(PROP), Shapelet Ensemble(SE), Flat Collective of Transform based Ensembles(COTE) 등은 다양한 특징을 통합하여 사용하지만, 그만큼 계산 자원이 많이 필요합니다.


3.과도한 하이퍼파라미터 튜닝:
  • 일부 딥러닝 모델(예: Multi-scale CNN)은 데이터 전처리와 많은 하이퍼파라미터의 튜닝에 매우 의존적입니다.
  • 특히, MCNN은 다운샘플링, 스킵 샘플링 및 슬라이딩 윈도우를 사용한 전처리가 성능에 큰 영향을 미치며, 이러한 전처리 단계는 복잡하고 많은 조정이 필요합니다【Karim et al.†1】.
3.전처리 필요성 감소에도 불구하고 성능의 한계:
  • Fully Convolutional Network (FCN) 및 Residual Network (ResNet)와 같은 일부 딥러닝 방법론은 최소한의 전처리와 특징 엔지니어링을 요구하지만, 여전히 시간 시계열 분류 작업에서 최고의 성능을 달성하지 못하는 경우가 많습니다.
  • 이러한 네트워크들은 종종 시계열 데이터의 복잡한 패턴을 포착하는 데 한계를 가지고 있습니다【Karim et al.†1】.
3.심층 신경망의 전처리 요구 사항:
  • MCNN: 다중 스케일 컨볼루션 신경망(Multi-scale Convolutional Neural Network, MCNN)은 다운샘플링, 스킵 샘플링, 슬라이딩 윈도우 등의 복잡한 전처리 과정을 요구합니다. 이러한 전처리 단계와 다수의 하이퍼파라미터 튜닝은 모델 성능에 큰 영향을 미치며, 데이터셋에 따라 많은 노력이 필요합니다.
  • FCN 및 ResNet: 반면, 완전 컨볼루션 신경망(Fully Convolutional Network, FCN)과 잔차 네트워크(Residual Network, ResNet)는 데이터나 특징 엔지니어링에 대한 무거운 전처리를 요구하지 않습니다. 그러나, 이들 모델도 여전히 개선의 여지가 있습니다.

 


2. Model

Proposed Models

 

LSTM-FCN: FCNLSTM 서브 모듈 통합하여 성능을 향상시킨 모델
 
Attention LSTM-FCN (ALSTM-FCN): Attention Mechanism을 적용해 LSTM 셀의 결정 과정을 시각화해 해석 가능성 높인 모델
 
--> 데이터 전처리가 최소화된 상태에서 기존의 여러 SOTA 모델보다 우수한 성능 도달 가능
 

 


Methods for Performance Enhancement

 

FCN의 성능 향상위해 Temporal Convolutions, LSTM RNN, Attention Mechanism을 결합한 모델 제안

(1). Temporal Convolutions

 

시계열 신호를 입력으로 받아, 시간 축을 따라 신호의 변화를 포착하는 1D Convolution 사용
시계열 데이터의 각 time step에서 인접한 time step의 입력을 반영 패턴 학습 유용

 

(2).Recurrent Neural Networks (순환 신경망, RNN)

시간적인 흐름을 갖는 데이터를 처리하는 데 사용되는 신경망 구조

 

hidden state(h_t): 지금까지 입력된 데이터를 요약, 이전 hidden state와 현재 입력의 조합으로 갱신
 
(W: weight matrix, I: projection matrix)
 
yt: hidden state 기반으로 softmax 함수 사용하여 클래스 확률 분포 생성
 
 
 
multi-layer RNN :이전 time step와 이전 레이어의 hidden state를 조합해 다양한 특징 학습
 
 

 

 

(3). Long Short-Term Memory(LSTM)

일반적인 RNN에서의 기울기 소실 문제를 해결하기 위해 게이트 기능 추가 --> 장기 의존성 학습에 강점

 
Input(gu): 현재 정보 얼마나 저장할지 결정
 
Forget(gf): 과거 정보를 얼마나 유지할지 결정
 
Output(go): 현재 hidden state에 얼마나 영향을 줄지 결정
 
gc : Memory cell에 추가될 새로운 정보 계산
 
mt: forget input에 의 memory cell 업데이트
 
ht: Output 게이트와 업데이트된 𝑚t 를 이용해 새로운 결정
(σ:  logistic sigmoid function)
 

-->LSTM은 일반적인 RNN보다 장기 의존성을 더 잘 학습하지만 긴 시퀀스에서는 장기 의존성 학습에 한계 존재

 

 

 

(4). Attention Mechanism

 

입력 시퀀스의 중요한 부분에 집중해 긴 시퀀스에서도 장기의존성 문제 해결

각 시간 단계에서 중요한 정보를 강조하기 위해 Context vector(Ci) 계산

- Ci : 출력 시퀀스의 i번째 위치에서의 Context vector

- hj : 입력 시퀀스의 j번째 위치에서의 hidden state

- Tx : ​ 입력 시퀀스의 길이

 

- 가중치 αij : i번째 출력과 j번째 입력 간의 가중치, hj의 중요도 결정

               : softmax function사용해 입력 값들을 확률로 변환

- 정렬 모델 eij : j번째 입력 시퀀스와 i번째 현재 출력간 관련성 측정

- Function a: 작은 신경망(피드포워드 신경망(FFNN))으로 구현, 두 입력 사이의 관련성 계산

- Si-1 ​: LSTM 이전 출력 시퀀스의 hidden state

 

Temporal Convolution, LSTM RNN, Attention Mechanism을 결합한 모델

à시계열 데이터의 특징을 효과적으로 추출하고, 긴 시퀀스에서도 중요한 부분에 집중하여 장기 의존성 문제 해결

 

 


2-1. Performance Evaluation

CBF 데이터셋에서 Attention LSTM 셀의 context vector 시각화

Attention LSTM-FCN (ALSTM-FCN): Attention 메커니즘을 통해 LSTM 셀의 결정 과정을 시각화 가능한 모델
압축된 지점: Attention 메커니즘이 해당 시점에 높은 가중치를 부여하여 클래스 간의 구분이 명확한 지점

 

모델이 어느 부분을 "주의"하고 있는지, 즉 중요하다고 판단하고 있는지를 보여줍니다


2. Model

LSTM-FCN Network Architecture

LSTMTemporal Convolutional Network를 결합하여 시계열 분류에 활용 가능하게 한 구조


Network Input

: 길이가 N단변량(univariate) 시계열 데이터 입력

FCN block: 다수의 시간 단계((time step= N)를 가진 단일 변수 시계열로 처리
LSTM block: 시간 차원을 변환하는 dimension Shuffle 레이어를 통해 단일 시간 단계(time step= 1)를 가진 다변량 시계열(변수 N )로 처리
 
-->Dimension shuffle은 데이터를 LSTM이 더 효율적으로 처리할 수 있는 방식으로 재정렬
 

Dimension Shuffle

LSTM 블록 성능 향상
과적합 방지 및 장기 의존성 학습 향상
모델 학습 시간 단축

Ex) 85개의 UCR 데이터 세트 LSTM-FCN 모델 훈련: 100시간 이상 소요

      Dimension shuffle  사용해 훈련: 18시간 소요(단일 GTX 1080 Ti GPU)

--> N개의 변수를 한 번의 시간 단계로 처리하기 때문에 프로세스가 훨씬 빠릅니다


Refinement of Models

 

Fine tuning
 

초기 모델을 학습한 후, 반복적으로 가중치와 하이퍼파라미터를  조정하여 모델 성능을 향상시키는 방법

1) 초기 학습: 최적 하이퍼파라미터 선택 후 초기 데이터셋으로 모델 훈련

 

2) Refinement Algorithm :

각 반복은 이전 반복의 모델 가중치로 초기화 됨
학습률, 배치 크기는 반복 마다 절반으로 줄임
종료 조건: 학습률 10−4 도달 배치 크기 32 도달

--> 정밀한 조정으로 초기 학습에서 도달한 local minima를 벗어나 더 나은 minima에 도달 가능

( 학습률 감소:더 작은 폭으로 가중치를 조정함/배치 크기 감소: 더 작은 데이터 샘플을 사용하여 가중치를 업데이트 하게됨)

 


2-1. Performance Evaluation

Refinement algorithm

Refinement 적용 후 클래스 별 평균 에러율(MPCE)가 각각 감소 (Refined LSTM-FCN :0.0035, Refined ALSTM-FCN: 0.0007)

->Refinement 과정을 통해 모델의 분류 정확도 향상
->RefinementLSTM-FCN에서 더 효과적

3. Experimental Results

85개의 UCR 시계열 데이터셋에서 제안된 모델 성능 테스트

Refinement algorithm 적용 전/후의 LSTM-FCN/ALSTM-FCN 각각 테스트

à ALSTM-FCN, LSTM-FCN은 최소 43개 최대69개의 데이터셋에서 SOTA 모델보다 성능이 뛰어남.

 + 논문과 내 목적과의 연관성 찾기💫

85개의 UCR 시계열 데이터셋 중 내 데이와 관련 데이터셋

1.ECG200
심전도(ECG) 신호를 포함한 데이터셋
각 시리즈는 한 번의 심장 박동 동안 기록된 전기적 활동을 추적
두 가지 클래스는 정상 심장 박동과 심근 경색
 

2. FordA, FordB

차량 엔진의 진동 소음을 기록한 시계열 데이터셋
데이터는 주로 엔진에서 발생하는 진동 신호로 구성
 
ECG200: 전기적 신호와 시계열 데이터라는 점에서 유사하지만, 저주파 대역의 생체 신호를 다룸
FordA, FordB: 진동 신호와 시계열 데이터라는 점에서 유사하지만, 중저주파 대역의 기계적 신호를 다룸
전파 data : 고주파 대역의 무선 통신 신호를 다루며, 주파수 도메인 분석이 중요

제안된 모델의 산술 평균 순위 (CD 다이어그램)

: 여러 데이터셋에서 각 모델의 순위 평균을 계산하여 성능 비교

--> 제안된 모델이 기존의 SOTA 모델보다 우수함(낮은 순위는 더 높은 성능을 나타냄)
 
- Critical Difference Diagram(CD 다이어그램)은 여러 모델 간의 성능을 비교할 때 사용되는 시각화 도구입니다.

 --> 모델 간의 성능 차이가 통계적으로 유의미한지 여부를 나타냅니다.


Wilcoxon Signed-Rank Test

-같은 데이터셋에서 SOTA모델과 제안된 모델의 성능 차이가 유의미한지 평가하는 방법 / 두 그룹의 평균이 같은지 비교하는 비모수적 분석 방법
 
제안된 모델들은 기존 SOTA모델들과 비교하여 p-value0.05 미만 ---> 성능차이가 통계적으로 유의미
 
-p-value가 낮으면: 두 모델 간의 성능 차이가 유의미하다는 결론을 내릴 수 있습니다.
-p-value가 높으면: 성능 차이가 우연에 의한 것일 가능성이 높다는 결론을 내릴 수 있습니다.
 
-비모수적 방법: 데이터가 정규 분포를 따르지 않아도 사용할 수 있습니다.(정규성 검정에서 정규분포를 따르지 않는다고 증명)
 
 

4. Conclusion

LSTM-FCN / ALSTM-FCN

시계열 분류에서 state-of-the-art 모델 성능 효과적으로 개선
최소한의 전처리로 end-to-end 학습 및 Refinement algorithm을 통해 성능 향상 
LSTMFCN 모델의 성능을 향상시킬 수 있음을 입증
ALSTM-FCN은 긴 시퀀스의 장기의존성 문제 해결 및 결정 프로세스 시각화로 모델의 해석 가능성 개선

 (End to end: 입력(input)에서 출력(output)까지 파이프라인 네트워크 없이 신경망으로 한 번에 처리)

 

 

1. Temporal Convolutions (시계열 합성곱)

  • 시계열 신호를 입력으로 받아, 시간 축을 따라 신호의 변화를 포착하는 1D 필터를 사용.
  • 합성곱 블록: 합성곱 층, 배치 정규화, 활성화 함수(주로 ReLU 또는 Parametric ReLU)로 구성.
  • 기능: 각 계층에서 입력 신호의 진화를 포착하며, Fully Convolutional Network (FCN)에서 특징 추출 모듈로 사용.

2. Recurrent Neural Networks (순환 신경망, RNNs)

  • 시간적 행동: 유닛 간의 연결을 통해 시계열 데이터를 모델링.
  • 은닉 상태 hh: 이전 은닉 상태와 현재 입력의 조합으로 갱신.
  • 예측: 은닉 상태를 기반으로 softmax 함수 사용하여 클래스 확률 분포 생성.

3. Long Short-Term Memory RNNs (LSTM RNNs)

  • 개선된 RNN: 일반적인 RNN에서의 기울기 소실 문제를 해결하기 위해 게이트 기능 추가.
  • 게이트 구조: 입력 게이트, 출력 게이트, 삭제 게이트를 포함하여 상태 업데이트와 출력을 제어.
  • 학습 능력: 장기 종속성 학습에 강점.

4. Attention Mechanism (주의 메커니즘)

  • 문맥 벡터 cic_i: 입력 시퀀스의 중요한 부분을 강조하여 학습.
  • 가중치 합: 입력 시퀀스의 각 주석에 가중치를 할당하고, 이를 통해 문맥 벡터 생성.
  • 정렬 모델: 입력의 특정 위치와 출력의 특정 위치가 얼마나 잘 맞는지를 평가.

요약:

이 논문은 FCN의 성능을 향상시키기 위해 Temporal Convolution, LSTM RNN, Attention Mechanism을 결합한 모델을 제안합니다. 이 모델들은 시계열 데이터의 특징을 효과적으로 추출하고, 장기 종속성을 학습하며, 중요한 입력 부분에 집중하는 능력을 갖추고 있습니다.
이를 통해 제안된 모델들은 기존의 복잡한 전처리 과정 없이도 뛰어난 성능을 발휘하며, 다양한 벤치마크 데이터셋에서 우수한 결과를 제공합니다.

 

time series classification의 개념을 대략적으로 이해할 수 있도록 도와준 논문이었다.