当まとめでは統計検定$2$級の公式テキストの副教材に用いることができるように、統計学入門に関して取り扱います。当記事では「統計検定$2$級対応 統計学基礎」の$1.7.1$節「時系列データ」の内容を元に日毎の気温や毎月の消費者物価指数などの時系列データの概要に関して取り扱いました。
統計検定$2$級のテキストとの対応がわかりやすいように、目次を「統計検定$2$級対応 統計学基礎」と対応させました。学びやすさの観点からあえて目次を対応させましたが、当まとめは「統計の森」オリジナルのコンテンツであり、統計検定の公式とは一切関係ないことにご注意ください。
・統計検定$2$級対応・統計学入門まとめ
https://www.hello-statisticians.com/stat_basic
「時系列データ」の概要
概要
「日毎の最高気温・最低気温」や「毎月の消費者物価指数・完全失業率」のように、時間の順に得られるデータを「時系列データ(time series data)」といいます。たとえば下記のように日毎の平均気温が得られる場合を仮定します。
$日$ | $1$ | $2$ | $3$ | $4$ | $5$ | $6$ | $7$ | $8$ | $9$ | $10$ |
$平均気温$ | $6.6$ | $7.0$ | $5.9$ | $6.3$ | $7.3$ | $6.5$ | $4.0$ | $5.9$ | $6.1$ | $3.4$ |
当記事では以下、時系列データの具体的な例やPythonを用いた可視化について取り扱います。
必要な数学
当記事では用語の確認などが主目的であるので、数学知識は基本的には必要ありません。
時系列データ
Pythonを用いた可視化
前節の例は下記のようなPythonを実行することで可視化できます。
import numpy as np
import matplotlib.pyplot as plt
x = np.arange(1, 11, 1)
y = np.array([6.6, 7., 5.9, 6.3, 7.3, 6.5, 4., 5.9, 6.1, 3.4])
plt.plot(x,y)
plt.show()
・実行結果
時系列データの具体例
以下、「統計検定$2$級対応 統計学基礎」の表$1.19$の値を確認します。
import numpy as np
x = np.loadtxt("Salary.csv", skiprows=1, delimiter=",")
print(x.shape)
print(x[:5])
・実行結果
> print(x.shape)
(135, 3)
> print(x[:5])
[[ 200001. 305282. 403179.]
[ 200002. 285265. 353285.]
[ 200003. 304792. 376831.]
[ 200004. 291911. 362336.]
[ 200005. 286992. 360746.]]
上記で読み込んだSalary.csv
は「統計検定$2$級対応 統計学基礎」の公式ページより入手することが可能です。