統計学のまとめ - 基礎編

2021-05-31
Main Image

目次

こんにちは。

先日ブログで数式が書けるようになったのでウッキウキで数式を扱おうと思い至り、まずは統計の基礎をまとめておくページを作ろうと思いました。

今回は第一弾の基礎編です。

忘れかけたらこのページを参照して思い出せるように書きたいと思います。

基礎統計量

平均値(mean)

算術平均(arithmetric mean)

x=x1+x2++xnn\overline{x} = \frac{x_1 + x_2 + \cdots + x_n}{n}

母平均(母集団の平均値, population mean)を特にμ\muとする。

偏差 (deviation)

各データの平均値との差のこと。

分散(variance, 標本分散)

分布の広がり。ばらつきが大きいほど大きな値になる。

σ2=1ni=1n(xix)2\sigma^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \overline{x})^2

求め方は、偏差を二乗して全部足して、サンプル数で割る。

母分散(population variance)を特にσ2\sigma^2とする。

標準偏差(standard deviation)

分散の正の平方根。σ\sigma

分散は単位が元の二乗になってしまい、足したり引いたり比べたりができないが、標準偏差はできる。

σ=1ni=1n(xix)2\sigma = \sqrt{ \frac{1}{n} \sum_{i=1}^{n} (x_i - \overline{x})^2 }

変動係数 (coefficient of variation)

標準偏差を平均で割ったもの。

CV=σxCV = \frac{\sigma}{\overline{x}}

単位をもたないので、単位の異なるデータ同士のばらつき具合を比較するのに使える。(比例尺度の場合に有効。)

統計WEB 変動係数

推定

母数 (parameter)

母平均や母分散など母集団の統計量で、統計で推定したい未知の値。

不偏分散 (unbiased estimate of variance)

母分散の不偏な推定量。

s2=1n1i=1n(xix)2s^2 = \frac {1} {n - 1} \sum_{i = 1}^n {(x_i - \overline{x})^2}

標本分散は一致推定量だが、不偏推定量ではなく、nが大きくない場合は期待値が母分散より小さくなる。

そこで、標本分散にnn1\displaystyle\frac{n}{n-1}をかけることで、不偏性にしたもの。

一致性(consistency)とは、サンプルサイズが大きくなるほど推定量が母数に近づく性質。

不偏性(unbiasedness)とは、サンプルサイズに依らず、推定量の期待値が母数に一致する性質。

相関係数 (correlation coefficient)

rxy=i=1n(xix)(yiy)i=1n(xix)2i=1n(yiy)2r_{xy} = \frac { \displaystyle \sum_{i = 1}^n (x_i - \overline{x}) (y_i - \overline{y}) } { \sqrt{ \displaystyle \sum_{i = 1}^n (x_i - \overline{x})^2} \sqrt{ \displaystyle \sum_{i = 1}^n (y_i - \overline{y})^2} }

分子は、サンプル毎にxxyyの偏差(平均値との差)同士をかけたものの合計。

xxyyの偏差の符号が同じである、つまり、散布図で右上か左下に多くデータが有れば、正の相関になります。

分母は、偏差の二乗の合計の平方根をかけたもので、これにより範囲が1r1-1 \leq r \leq 1となります。

上と同義ですが、分子・分母をnnで割ると、分子は共分散、分母はそれぞれの標準偏差の積となっていることがわかります。

rxy=i=1n(xix)(yiy)ni=1n(xix)2ni=1n(yiy)2n=sxysxsyr_{xy} = \frac { {\displaystyle \frac{\displaystyle \sum_{i = 1}^n (x_i - \overline{x}) (y_i - \overline{y}) }{n} } } { \sqrt{\displaystyle \frac{ {\displaystyle \sum_{i = 1}^n (x_i - \overline{x})^2}}{n}} \sqrt{\displaystyle \frac{ {\displaystyle \sum_{i = 1}^n (y_i - \overline{y})^2}}{n}} } = \frac{s_{xy}}{s_xs_y}

相関係数の絶対値の一般的な解釈は、このような感じのようです。

  • 0.1未満は無相関
  • 0.3未満は弱い相関
  • 0.7未満は中程度の相関
  • それ以上は強い相関

この相関係数はピアソンの積率相関係数(Pearson product-moment correlation coefficient)という。

また、2変数に見かけ上は相関関係があっても、その間に交絡因子があるかもしれないので注意。

参考

BellCurve 統計WEB

https://bellcurve.jp/statistics/

ads【オススメ】未経験からプログラマーへ転職できる【GEEK JOBキャンプ】
▼ Amazonオススメ商品
ディスプレイライト デスクライト BenQ ScreenBar モニター掛け式
スマートLEDフロアライト 間接照明 Alexa/Google Home対応

Author

Penta

都内で働くITエンジニアもどき。好きなものは音楽・健康・貯金・シンプルでミニマルな暮らし。AWSクラウドやデータサイエンスを勉強中。学んだことや体験談をのんびり書いてます。TypeScript / Next.js / React / Python / AWS / インデックス投資 / 高配当株投資 More profile

Location : Tokyo, JPN

Contact : Twitter@penguinchord

Recommended Posts

Copy Right / Penguin Chord, ペンギンコード (penguinchord.com) 2022 / Twitter@penguinchord