統計的時系列解析では、観測されたデータから背後にある確率的な構造を理解し、将来の予測や統計的推論を行うことが主要な目的です。この目的を達成するために、時系列データの統計的性質として、確率過程、自己共分散構造、定常性の概念が基礎的かつ重要な役割を果たしています。
本記事では、なぜ自己共分散と定常性が統計的時系列モデルにとって不可欠なのか、そしてこれらの概念がどのようにモデル構築と推論の基盤となるのかをまとめます。
参考文献はこちら↓
Contents
統計的時系列モデリングの基本的な枠組み
まず初めに、統計的時系列モデリングにおいて最も基礎的で重要な3つの概念について説明する。
確率過程としての時系列
統計的時系列解析の根本的な考え方は、観測された時系列データ $Y = \{y_1, y_2, …, y_T \}$ を、ある確率変数列 $\{ y_t \}^{\infty}_{t=-\infty}$ からの一つの実現値(サンプルパス)として捉えることである。このような確率変数列 $\{ y_t \}^{\infty}_{t=-\infty}$ を確率過程(stophastic process)と呼ぶ。
時系列分析においては確率過程の構造を時系列モデルと呼ぶ。代表的な時系列モデルとして、ARモデルやARIMAモデルなどがある。
この枠組みにより統計的性質を用いて下記を得ることができる。
- 不確実性の定量化: 単一の観測系列から母集団の性質を推論
- 予測の理論的基盤: 将来値の確率分布と予測区間の導出
- 統計的推論: 仮説検定とモデル選択の理論的根拠
統計的モデリングにおける定常性の役割
統計的時系列モデルが有効に機能するためには、データの背後にある確率的構造が安定している必要がある。この安定性を数学的に表現したものが定常性(stationarity)という概念である。定常性は以下の理由で統計的モデリングの基盤となる。
- 一意のパラメータ構造(モデル): 時間によって変化しない一意のパラメータ構造が存在
- 推定理論の適用: 大数の法則と中心極限定理に基づく推定量の統計的性質
- 予測の一貫性: 過去のパターンが将来にも適用可能
自己共分散構造の重要性
時系列データの本質的特徴は、時間を通じた観測値間の依存関係である。この依存関係を定量化するのが自己共分散構造であり、統計的モデルの設計において以下の重要な役割を果たす。
- モデルの特定: データの依存構造からモデル形式(次数など)を決定
- パラメータ推定: 最尤法の基礎となる情報
- 予測: 将来値の予測における不確実性の源泉
弱定常性の定義と統計的意味
次に、(弱)定常性の定義とその統計的な意味について解説する。
弱定常性の数学的定義
弱定常とは、確率過程 $\{Y_t\}$ が以下の3つの条件を満たすことで定義される。
- 平均の時間不変性: $E[Y_t] = \mu$ (定数)
- 分散の時間不変性: $\mathrm{Var}(Y_t) = \sigma^2$ (定数)
- 自己共分散の時間差依存性: $\mathrm{Cov}(Y_t, Y_{t-k}) = \gamma_k$
特に第3の条件が本質的であり、自己共分散が絶対的な時刻 $t$ ではなく、時間差 $k$ のみに依存することを意味する。
なお、強定常という概念もある。強定常とは、平均、分散、自己共分散だけではなく、確率分布が時間変化せず同一である場合の過程をいう。多くの場合、定常といえば弱定常を指すため、強定常には触れず、弱定常のみを対象とする。
統計的推論における弱定常性の意義
弱定常性は統計的推論の理論的基盤として以下の利点を提供する
- エルゴード性の前提: エルゴード性の必要条件であり、エルゴード性による時間平均とアンサンブル平均の等価性により、単一時系列からの推論が可能
- 推定量の一致性: 十分なデータ数の下で、真のパラメータへの収束が保証
- 漸近理論の適用: 推定量の分布理論と信頼区間の構築が可能
そもそも、基本的な統計的時系列モデルでは、弱定常を仮定する。弱定常を仮定したうえで、時間的なパターン(共分散構造)に基づいて、データを解釈したり、予測に用いたりする。
自己相関と定常性の関係
自己相関関数 $\rho(k) = {\gamma(k)}/{\gamma(0)}$ は、定常性の診断と統計的モデルの理解において中心的な役割を果たす。自己相関の定義等は次章以降に譲るが、定常と自己相関についての重要な理解として下記3つを抑えておく。
- 「自己相関がない」データでも「定常」とは限らない(分散が時間変動する場合など)
- 「定常」とは「自己相関がないことではない」(自己相関を使って統計的時系列モデルを組み立てる)
- 弱定常の本質: 自己相関が時間に依存せず、時間差にのみ依存する(k時刻前との相関があるということ)
定常性仮定の限界と拡張
しかしながら、現実のデータは必ずしも定常性を満たさない場合がある
- トレンドの存在: 長期的な上昇・下降傾向
- 季節性: 日次、週次などの周期的な変動パターン
- 構造変化: 統計的関係の根本的変化
これらの現象に対応するため、統計的時系列解析では下記の対応をする
- 前処理による定常化: 差分変換や季節調整
- 非定常性の明示的モデリング: より柔軟なモデル構造(周期パターンを表現)
- 適応的手法: 時変パラメータや状態依存モデル(状態空間モデル等のモデルを利用)
自己共分散の推定と統計的性質
続いて、自己共分散の定義と統計的な性質を解説する。
理論的定義
時刻tの時系列データy_tに対して、k次の自己共分散は以下のように定義される
$$
\begin{align}
\gamma_{kt} = \mathrm{Cov}[y_t, y_{t-k}] = E[(y_t – \mu_t)(y_{t-k} – \mu_{t-k})]
\end{align}
$$
これは理論的な定義である。時系列データ $Y = \{y_1, y_2, …, y_T \}$ は、確率過程からの標本であり、上記の定義のまま自己共分散を計算することは難しい。そのため、標本 $Y$ と定常性の仮定のもと、次節のように推定する必要がある。
標本推定量
定常時系列を仮定した場合の標本自己共分散
$$
\begin{align}
\bar{y} &= \frac{1}{T}\sum^T_{t=1}y_t \\
\hat{\gamma}_k &= \frac{1}{T}\sum^T_{t=k+1}\left( y_t – \bar{y} \right)\left( y_{t-k} – \bar{y} \right)
\end{align}
$$
この推定量は以下の統計的性質を持つ:
- 一致性: $T \rightarrow \infty$で真の値に収束
- 漸近正規性: 適切な条件下で正規分布に収束
- 有効性: 定常性の下で最適な推定精度
推定における注意点
- 定常性の前提: 推定量の妥当性は定常性に依存
- 有限標本効果: 実際のデータでは近似的な性質のみ
自己相関関数の解釈と統計的モデリング
続いて、自己相関(autocorrelation)関数(ACF)の定義と統計的な解釈について説明する。
自己相関係数の定義
自己相関係数(autocorrelation coefficient)は自己共分散を基準化したものである。自己共分散は単位に依存した値であり、時系列データの種類に依存せずに統一的に扱うことが難しい。そのため、下記のように基準化した自己相関係数を扱うことが多い
$$
\begin{align}
\rho_{kt} = \mathrm{Corr}(y_t, y_{t-k}) = \frac{\mathrm{Cov}(y_t, y_{t-k})}{\sqrt{\mathrm{Var}(y_t)\mathrm{Var}(y_{t-k})}} = \frac{\gamma_{kt}}{\sqrt{\gamma_{0t}\gamma_{0,t-k}}}
\end{align}
$$
標本を使った推定値は下記の通り
$$
\hat{\rho}_k = \frac{ \hat{\gamma}_k}{ \hat{\gamma}_0}
$$
$k$ が時間差(lag)を表しており、自己相関係数は $k$ の関数とみなせ、関数と見た場合に自己相関関数(ACF)と呼ばれる。
ACFの主要な用途
自己相関関数(ACF)は統計的時系列モデリングにおいて以下の重要な機能を提供する
- 定常性の診断: ACFの減衰パターンから定常性を判断
- 依存構造の特定: データの時間依存性の特徴を把握
- モデル選択の指針: 適切なモデル形式の決定根拠
ACFパターンの統計的解釈
特定の遅れ(lag, k)でACFが高い値を示す場合、下記のような解釈を得ることができる
- 周期性・季節性: 定期的なパターンの存在
- 長期依存性: 長い記憶を持つ時系列構造
- 構造変化: 統計的関係の時間変動
ただし、非定常時系列では疑似相関の可能性があるため、事前の定常性確認が統計的に重要である。
まとめ
本記事では、統計的時系列モデリングにおいて特に重要な3つの概念について解説した。
- 確率過程: 時系列データ $Y$ を生み出す確率変数列のこと。時系列分析における各種モデル
- 弱定常性: 統計的時系列モデルの基礎となる仮定。基本的なモデルでは、必要に応じでデータを差分系列に変換するなど定常性を満たす変換を行う必要がある
- 自己共分散(自己相関): 観測値間の依存関係。この依存関係を利用してモデルの特定やデータの予測を行う
現代的な時系列解析では、非定常性を扱う手法も発展しているが、定常性と自己共分散の理解は依然として分析の出発点として不可欠である。これらの基本概念を深く理解することで、より高度な統計的時系列モデルの理論と応用への道筋が開かれる。
統計的時系列解析の真の価値は、観測データの背後にある確率的構造を理解し、その理解に基づいて科学的根拠を持った予測と意思決定を可能にすることにある。自己共分散と定常性の概念は、この目的を達成するための最も基本的かつ重要な道具なのである。