NumPyとPandasの標準偏差の違い

よく忘れるのでメモしておく。

NumPyは母標準偏差、Pandasは標本標準偏差

標準偏差の計算をするとき、NumPyではstd()関数、Pandasでもstd()関数を使う。だが、同じstd()関数でもデフォルトの設定の場合、NumPyは母標準偏差を、Pandasは標本標準偏差を計算する。

母標準偏差と標本標準偏差の違いは以下の通りである。

\[ 母標準偏差 = \sqrt{\frac {1} {n} \sum_{i=1}^{n} (x_i - \overline{x})^{2}}\] \[ 標本標準偏差 = \sqrt{\frac {1} {n - 1} \sum_{i=1}^{n} (x_i - \overline{x})^{2}}\]

式を見れば分かるように、nが十分に大きければ、差はほとんど無い。移動ウィンドウで計算する場合はnが小さいときがある。こういうときは標本標準偏差のほうがいいのかなと思う。

名称の整理

ところで、標準偏差は呼び方が紛らわしい。そこで簡単に整理する。

母標準偏差の別の呼び方

  • 標本標準偏差(えっ?)

標本標準偏差の別の呼び方

  • 不偏標準偏差
  • 標本不偏標準偏差
(2017/02/14更新)