傾向推定

傾向推定（けいこうすいてい、英: trend estimation）とは、ある過程（プロセス）を測定したものを時系列として扱い、そのデータの傾向を推定する統計的手法である。完全には解明されていない物理的系に対しては、何らかのモデルを構築して測定結果を説明しようと試みる。特に測定結果が増加傾向や減少傾向にあるかを知ることでランダムな振る舞いではないことを判断しようとする。例えば、ある地点での毎日の気温を測ることで季節による変化の傾向や長期的な気象変化の傾向を読み取る。

特に、等質性の問題は重要である（その時系列は全測定区間で等しく信頼できるか？）。以下では、単純化のためそのような観点をあえて避ける。

傾向への適合: 最小二乗法

データ群が与えられ、そのデータから何らかのモデル（この場合、データに適合する関数を意味する）を構築したい場合、選択可能な関数は様々である。しかしそのデータについて何らかの事前の解釈が存在しない場合、最も単純な直線的関数を適合させるのが基本である。

直線に適合させると決めた場合にも様々な手法が存在する。しかし圧倒的に多く使われるのは最小二乗法である。データの地点 $x_{i}$ とそのデータ値 $y_{i}$ について $a$ と $b$ を選択することで次の式を最小化する。

\sum \{[(ax_{i}+b)-y_{i}]^{2}\}

解法については最小二乗法の項目を参照されたし。

以下では、最小二乗法で求めた「傾向」について述べる。問題は、その傾向の有意性であり、「有意」とはどういうことか、である。

無作為データにおける傾向

実データにおける傾向を考える前に、無作為データにおける傾向を理解する必要がある。

赤い部分は上位1%、青は5%、緑は10% を示す。この場合本文で述べられている95%の信頼度のV値は 0.2 である。

無作為であることが分かっているデータ列（例えばサイコロを振った結果やコンピュータが生成したランダムな数列）があるとき、その傾向を求めるとゼロ傾向となることはほとんどない。しかし、その傾向が極めて小さいことは予測される。ある決まった程度のノイズを含む決まったサイズ（例えば100個）のデータ列があり、それを多数生成する（例えば10万組）と、その10万組のデータ列から傾向を計算することができ、傾向の分布があることを経験的に知ることになる（右図参照）。その分布は（完全にランダムなら）ゼロを中心とする正規分布となるだろう（中心極限定理）。以上の手順からある程度の統計的確かさ $S$ を設定することができる（95%が典型的だが、より正確には99%、より大まかなら 90%）。そして、 $S$ % の傾向が含まれる範囲を指定する傾向値 $V$ を求めることができる。細かいことを言えば、分布は正と負の両方に広がっており、両方を対象と考える場合もあるし、一方だけを対象と考える場合もある。

以上のように多数回の試行によって経験的に経験の分布を計算することを示した。単純な場合（正規分布の無作為なノイズ）、傾向の分布は正確に求められる。

ここで、それまでのランダムデータ列とおおよそ同じ分散特性の新たなデータ列を考える。そのデータ列が実際に傾向を持つかどうかは分からないので、傾向 $T$ を計算し、それが $V$ より小さいと判明したとする。そこで、確からしさ $S$ の範囲でこのデータの傾向はランダムノイズと区別できないと言える。

しかし、 $S$ を選んだとき、残りの $1-S$ の部分がある傾向を持っていると（誤って）宣言する可能性があることに注意されたい。逆に本当に傾向を持つデータ列の残り部分は、傾向を持たないと宣言される可能性がある。

傾向＋ノイズとしてのデータ

時系列データを解析するため、データ列は傾向要素とノイズ要素から成ると仮定する。

x_{i}=at_{i}+b+e_{i}\,

$a$ と $b$ は（通常、未知の）定数であり、 $e$ は無作為な誤差である。 $e$ が何らかの特殊な性質を持つと判明するまでは、正規分布であると仮定する。 $e$ が常に同じ分布であると仮定するのが最も単純だが、そうでない場合（いくつかのデータの分散が非常に大きいなど）、最小二乗法においてそれらのデータの分散の逆で重み付けすることで考慮することができる。

1つの時系列を分析するとき、傾向推定によって $e$ の分散を推定することができる。つまり、傾向推定で求めた $at+b$ に従って残差として $e$ を取り出し、そこから分散を求める。多くの場合、これが $e$ の分散を求める唯一の方法である。

特殊な例として気温の時系列がある。気温データは時間に対して均質でないことが分かっている。一般に気象観測データは最近になるに従って増えており、従って気温の推定に関わる誤差は時と共に減少している。このため気象データの傾向推定を行うにはこれを考慮する。

データ列のノイズが明らかになると、傾向 $a$ が 0 とほとんど差異がないという帰無仮説によって傾向を検定することができる。上述の無作為データ列の傾向の分散の話から、無作為な（本来傾向のない）データからも傾向が得られることがあることが分かる。もし計算された傾向 $a$ が $V$ より大きければ、その傾向は $S$ の水準においてゼロと有意な差があると言える。

ノイズの多い時系列

ノイズの多い時系列から傾向を抽出することは難しい。例えば、本来の時系列が 0, 1, 2, 3 という値で、それとは独立した正規分布ノイズ $e$ の標準偏差を $E$ とする。長さ50の時系列データがあるとき、 $E=0.1$ なら傾向は明らかだろう。 $E=100$ では傾向はおそらく分かるだろう。しかし、 $E=10000$ では傾向はノイズに埋もれてしまうだろう。

具体例として、IPCCが示した過去140年間の気温の記録[1]を見てみよう。年間気温の分散は約 0.2°C で、傾向は約 0.6°C、95% 信頼度は 0.2°C である（年間の分散と同じ値となっているのは偶然である）。従ってこの傾向は統計的に 0 とは有意な差がある。もっとも、気温の変動の具体的原因はこのデータからは分からない。

傾向推定と残差

最小二乗法による傾向推定では、残差の二乗を推定後に捨てる。それはつまり推定された傾向のラインで説明されるデータの分散の部分がどれだけかということでもある。それは傾向の有意性には関係しない（右図参照）。ノイズの多い系列では残差の二乗は非常に小さいこともあるが、推定の有意性が非常に大きいこともある。フィルタリングを行うと残差の二乗は増大する傾向があるが、推定される傾向そのものやその有意性にはあまり違いが生じない。

自己相関的な実データ

これまで、データ列は傾向とノイズから構成されるとしてきた。また、ノイズは各データで「独立」であった（マルコフ性、正規分布ノイズ）。ノイズが定常的なガウス・マルコフ過程に従うという前提は情報最小の原理から生じた。これは統計の容易さという点で大きな意味がある。気象データのような実データはこの前提を満たさないかもしれない。

自己相関的時系列は自己回帰移動平均モデルを使ってモデル化される。

参考文献

Chatfield, C. (1993) "Calculating Interval Forecasts," Journal of Business and Economic Statistics, 11(2) 121-135.

位置	平均算術幾何調和中央値分位数順序統計量最頻値階級値
分散	範囲偏差偏差値標準偏差標準誤差変動係数決定係数相関係数自己相関共分散自己共分散分散共分散行列百分率統計的ばらつき
モーメント	分散歪度尖度

カテゴリデータ

頻度
分割表

推計統計学

仮説検定

パラメトリック	t検定ウェルチのt検定 F検定 Z検定二項検定ジャック-ベラ検定シャピロ–ウィルク検定分散分析共分散分析
ノンパラメトリック	ウィルコクソンの符号順位検定マン・ホイットニーのU検定カイ二乗検定イェイツのカイ二乗検定累積カイ二乗検定フィッシャーの正確確率検定尤度比検定 G検定アンダーソン–ダーリング検定コルモゴロフ–スミルノフ検定カイパー検定マンテル検定コクラン・マンテル・ヘンツェルの統計量
その他	帰無仮説対立仮説有意棄却

区間推定

モデル選択基準

その他

ベイズ統計学

確率	主観確率ベイズ確率事前確率事後確率最大事後確率
その他	ベイズ推定ベイズ因子

相関

モデル

回帰

線形	リッジ回帰ラッソ回帰エラスティックネット
非線形	k近傍法決定木ランダムフォレストニューラルネットワークサポートベクターマシン射影追跡回帰
時系列	自己回帰モデル自己回帰移動平均モデル ARCHモデル対移動平均比率法トレンド定常傾向推定共和分構造変化

分類

線形	線形判別分析ロジスティック回帰 <! -- 名前に回帰とついていますが確率を回帰する分類手法です --> 単純ベイズ分類器単純パーセプトロン線形サポートベクターマシン
二次	二次判別分析
非線形	k近傍法決定木ランダムフォレストニューラルネットワークサポートベクターマシンベイジアンネットワーク隠れマルコフモデル
その他	二項分類多クラス分類第一種過誤と第二種過誤

教師なし学習

クラスタリング	k平均法（k-means++法） DBSCAN
密度推定（英語版）	カーネル密度推定（カーネル）
その他	主成分分析独立成分分析自己組織化写像