こんにちは。
先日ブログで数式が書けるようになったのでウッキウキで数式を扱おうと思い至り、まずは統計の基礎をまとめておくページを作ろうと思いました。
今回は第一弾の基礎編です。
忘れかけたらこのページを参照して思い出せるように書きたいと思います。
基礎統計量
平均値(mean)
算術平均(arithmetric mean)
x=nx1+x2+⋯+xn
母平均(母集団の平均値, population mean)を特にμとする。
偏差 (deviation)
各データの平均値との差のこと。
分散(variance, 標本分散)
分布の広がり。ばらつきが大きいほど大きな値になる。
σ2=n1i=1∑n(xi−x)2
求め方は、偏差を二乗して全部足して、サンプル数で割る。
母分散(population variance)を特にσ2とする。
標準偏差(standard deviation)
分散の正の平方根。σ。
分散は単位が元の二乗になってしまい、足したり引いたり比べたりができないが、標準偏差はできる。
σ=n1i=1∑n(xi−x)2
変動係数 (coefficient of variation)
標準偏差を平均で割ったもの。
CV=xσ
単位をもたないので、単位の異なるデータ同士のばらつき具合を比較するのに使える。(比例尺度の場合に有効。)
統計WEB 変動係数
推定
母数 (parameter)
母平均や母分散など母集団の統計量で、統計で推定したい未知の値。
不偏分散 (unbiased estimate of variance)
母分散の不偏な推定量。
s2=n−11i=1∑n(xi−x)2
標本分散は一致推定量だが、不偏推定量ではなく、nが大きくない場合は期待値が母分散より小さくなる。
そこで、標本分散にn−1nをかけることで、不偏性にしたもの。
一致性(consistency)とは、サンプルサイズが大きくなるほど推定量が母数に近づく性質。
不偏性(unbiasedness)とは、サンプルサイズに依らず、推定量の期待値が母数に一致する性質。
相関係数 (correlation coefficient)
rxy=i=1∑n(xi−x)2i=1∑n(yi−y)2i=1∑n(xi−x)(yi−y)
分子は、サンプル毎にxとyの偏差(平均値との差)同士をかけたものの合計。
xとyの偏差の符号が同じである、つまり、散布図で右上か左下に多くデータが有れば、正の相関になります。
分母は、偏差の二乗の合計の平方根をかけたもので、これにより範囲が−1≤r≤1となります。
上と同義ですが、分子・分母をnで割ると、分子は共分散、分母はそれぞれの標準偏差の積となっていることがわかります。
rxy=ni=1∑n(xi−x)2ni=1∑n(yi−y)2ni=1∑n(xi−x)(yi−y)=sxsysxy
相関係数の絶対値の一般的な解釈は、このような感じのようです。
- 0.1未満は無相関
- 0.3未満は弱い相関
- 0.7未満は中程度の相関
- それ以上は強い相関
この相関係数はピアソンの積率相関係数(Pearson product-moment correlation coefficient)という。
また、2変数に見かけ上は相関関係があっても、その間に交絡因子があるかもしれないので注意。
参考
BellCurve 統計WEB
https://bellcurve.jp/statistics/