統計検定で押さえておきたいポイントまとめ(1級、準1級、2級対応)

プログラミング・数学・英会話
スポンサーリンク

統計検定を勉強するときにいろいろ調べながら進めたのですが、これだけは押さえておきたいという重要事項をまとめたページがほしいと思いと思うことはありませんか?

私は欲しいと思ったので自分でまとめていくことにしました

1級、準1級、2級をカバーできる内容にしていきますので、どの級の統計検定を勉強している方にも役立つ内容になると思いますので、定期的に更新を見にきてください

こういう情報もまとめてほしいとか、ここの解説はもう少し詳しくしてほしいなど、ご要望があればコメントかお問い合わせフォームにてお願いします!

スポンサーリンク

歪度

  • 分布が正規分布からどこまで歪んでいるかを表す統計量
  • 左右対処性を示す指標
  • 平均まわりの三次モーメントを標準偏差で正規化したもの

    \[     \frac{n}{(n-1)(n-2)}\sum^n_{i=1}(\frac{x_i-\mu}{\sqrt \sigma})^3 \]

平均値\mu、分散\sigma、確率変数X、期待値E[.]を用いて表すと、

    \[     \frac{E[(X-\mu)^3]}{\sigma^3} \]

右の裾が長い場合に正の値を、左の裾が長い場合に負の値を取る

尖度

  • 分布が正規分布からどこまで尖っているかを表す統計量
  • 山の尖り度と裾の広がり度を示す指標
  • 平均まわりの四次モーメントを標準偏差で正規化したもの

平均値\mu、分散\sigma、確率変数X、期待値E[.]を用いて表すと、

    \[\frac{E[(X-\mu)^4]}{\sigma^4}-3\]

正規分布より尖った分布のときは、正の値を、正規分布より扁平な分布のときは負の値をとります

正規分布の場合は0になります

モーメント

上記の歪度、尖度を一般化して、確率変数X、分散\sigma、期待値E[.]における平均値\mu周りの標準化モーメントは

    \[\frac{E[(X-\mu)^r]}{\sigma^r}\]

原点周りの分散1の場合は単純にモーメントと呼び次のようになる

    \[E[X^r]\]

積率母関数、モーメント母関数

まず定義から示す。確率変数Xが離散型である場合、積率母関数M_X(t)

    \[M_X(t) = E[e^{tX}]\]

確率変数Xが連続型である場合、積率母関数M_X(t)

    \[M_X(t) = \int^{\infty}_{-\infty}e^{tx}f(x)dx\]

使い道

平均、分散、m次モーメントを求めるのに使用される

積率母関数がC^m級以上のとき、m回微分を求めると、

(1)   \begin{align*} M_X^{(m)}(t) & = E^{(m)}(e^{tX}) & \\ & = E(X^m e^{tX}) & \\  \end{align*}

これが、t=0の開区間で存在するとき、t=0を代入して、

    \[M_X^{(m)}(0) = E(X^m)\ Xのm次モーメント\]

上記のことから

(2)   \begin{align*}  M_X^{(1)}(0) & = E[X]\ 平均 & \\  M_X^{(2)}(0) & = E[X^2] & \\  & = (E[X^2] - {E[X]}^2) + {E[X]}^2 & \\  & = \sigma^2 + \mu^2& \\  V[X] & = M_X^{(2)}(0) - {M_X^{(1)}(0)}^2 &  \end{align*}

確認中

t=0の周辺の開区間で存在する場合、それが確率分布のモーメント母関数になっている

複数変数の場合

    \[M_{X_1X_2...X_n}(t_1, t_2, ..., t_n) = E[exp(\sum^n_{i=1}t_iX_i)]\]

また、

    \[M_{X_1X_2...X_n}^{(m_1, m_2, ..., m_n)}(0, 0..., 0) = E[X_1^{m_1}X_2^{m_2}...X_N^{m_n}]\]

少しわかりにくいのでn=2で確率変数X, Yに対して

    \[M_{XY}(s, t) = E[e^{sX+tY}]\]

また

    \[M_{XY}^{(m, n)}(0, 0) = E[X^mY^n]\]

確率母関数

非負離散型確率変数X、確率質量関数p(x)に対する確率母関数は下記のように定義される

(3)   \begin{align*} G_X(t) & = E[t^X] & \\ & = \sum^{\infty}_{x=0} p(x)t^x & \end{align*}

m階微分を考えると、

(4)   \begin{align*} G_X^{(m)}(t) &= \sum^{\infty}_{x=m}\frac{x!}{(x-m)!}t^{x-m} p(x)& \\ &= \sum^{\infty}_{x=m}m!{}_xC_mt^{x-m} p(x)& \\ & = E[X(X-1)...(X-m+1)t^{X-m}] & \\ \end{align*}

上記より

(5)   \begin{align*} G_X^{(1)}(1) & = E[X] & \\ G_X^{(2)}(1) & = E[X(X-1)] & \\ & = V(X) + {E[X]}^2 - E[X]& \\ V(X) & = G_X^{(2)}(1) - G_X^{(1)}(1)^2 + G_X^{(1)}(1)& \\ G_X^{(m)}(0) & = m!p(m)& \\ & = m! P(X=m)& \\ P(X=m) & = \frac{G_X^{(m)}(0)}{m!}& \\ \end{align*}

また、積率母関数との関係として下記が成り立つことが容易にわかる

    \[G_X(e^t) = M_X(t)\]

特性関数

確率変数Xに対して特性関数\Phi_X(t)は次のように定義される

(6)   \begin{align*} \Phi_X(t) & = E[e^{itX}] & \\ & = E[\cos (tX)] + iE[\sin (tX)]& \end{align*}

ここでi^2 = -1

確率変数Xが連続型であり、確率密度関数がf_X(.)であるとき

(7)   \begin{align*} \Phi_X(t) & = \int^{\infty}_{-\infty} e^{itX} f_X(x)dx& \\ \end{align*}

キュムラント、キュムラント母関数

キュムラント母関数K_X(t)の定義は次のとおりである

(8)   \begin{align*} K_X(t) & = log M_X(t) & \\ & = log E[e^{tX}]& \\ \end{align*}

(累積)分布関数

確率変数Xのとる値がxとなるまでの確率の累積和である

確率変数が離散型の場合、確率質量関数をg(.)、データをx_1 < x_2 < ... < x<em>_n = x < x_</em>{n+1} ...とすると、

(9)   \begin{align*} F_X(x) & = P(X \leq x) & \\ & = \sum_{X \leq x} P(X) & \\ & = \sum^n_{i=1} g(x_i)& \\ \end{align*}

確率変数が連続型の場合、確率密度関数をf(.)とすると、

    \[F_X(x) = P(X \leq x) = \int^x_{\infty}f(t)dt\]

上記から連続型の場合、次のことが容易にわかる

    \[f(x) = (F_X(x))'\]

つまり、累積分布関数の微分は確率密度関数になり、確率密度関数の積分が累積分布関数となる関係にある

Fishser-Neymanの因子分解定理 – 十分統計量の判定

Fisher-Neymanの因子分解定理

標本データ\bf xに対する確率密度関数f(x;\theta)が次のように分解できる場合、T({\bf x})は十分統計量である

    \[f({\bf x};\theta) = g({\bf x})h(T({\bf x});\theta)\]

証明

T(x)=tとなるx, tに対して、T(X)=tをあたえたときのX=xの条件付き確率は、

(10)   \begin{align*} P_\theta (X=x | T(X) = t) & = \frac{P_\theta(X=x,T(X)=t)}{P_\theta(T(X)=t)} & \\ & = \frac{P_\theta(X=x)}{P_\theta(T(X)=t)}\ (T(x)=tとなるxに対してなので)&\\ \end{align*}

ここで、\frac{P_\theta(X=x)}{P_\theta(T(X)=t)} = h(x)\ (\thetaに依存しない関数)であるとき、T(X)=t\thetaに大して十分統計量である条件と一致する

    \[P_\theta(X=x) = f(x|\theta)\]

    \[P_\theta(T(X)=t) = g(t|\theta) = g(T(x)|\theta)\]

とおくと、

(11)   \begin{align*} h(x) & = \frac{f(x|\theta)}{g(T(X)|\theta)} &\\ \leftrightarrow f(x|\theta) & = h(x)g(T(X)|\theta) & \\ \end{align*}

これはFissher-Neymanの因子分解定理の式である

不偏推定量

母数\thetaの推定量を\hat \thetaとすると、その期待値が下記を満たすときに\hat \thetaは不偏推定量という

    \[E(\hat \theta) = \theta\]

一致推定量

ある確率分布の母数を\theta、その確率分布の標本データ数nの場合の推定量を\hat \theta_nとしたとき、下記を満たすならば、\hat \theta_nを一致推定量という

    \[(\forall \epsilon > 0) \lim_{n \leftrightarrow \infty} P(|\hat \theta_n - \theta|<\epsilon) = 1\]

確率分布

確率分布について理解することも統計検定を攻略するうえでは重要ですが、分量が多くなるので別記事でまとめました

離散確率分布

連続確率分布

プールした分散

元々分散は残差平方和をデータ数で割っているのだから、先に残差の平方和を足しあわせtえあとでデータ数の和で割ること自体はおかしなことではない

http://www012.upp.so-net.ne.jp/doi/biostat/CT39/ttest.pdf

1変数確率変数の変数変換

確率変数XY=g(X)に変換したときに、Yの分布をXの分布から導出することを考える

まず確率分布関数を考えると、

(12)   \begin{align*} F_Y(y) & = P(Y \leq y) = P(g(X)\leq y) = P(g^{-1}(g(X))\leq g^{-1}(y)) = P(X\leq g^{-1}(y)) &\\ & = P(X\in \{x |x\leq g^{-1}(y)\})& \\ \end{align*}

よって確率密度関数は、

(13)   \begin{align*} f_Y(y) & = \frac{d F_Y(y)}{dy} = \frac{dP(X\in \{x |x\leq g^{-1}(y)\})}{dy} & \\ & = \frac{d}{dy}\int^{g^{-1}(y)}_{-\infty}f_X(x) dx & \\ & = \frac{d}{dy}\left[ F_X(x) \right]^{g^{-1}(y)}_{-\infty}\ \ (f_X(x) = \frac{dF_X(x)}{dx}より)& \\ & = \frac{d}{dy}(F_X(g^{-1}(y))-F_X(-\infty)) & \\ & = \frac{d}{dy}F_X(g^{-1}(y))\ (F_X(-\infty)は定数のため微分は0) & \\ & = \frac{dx}{dy} \frac{d}{dx}F_X(g^{-1}(y))& \\ & = f_X(g^{-1}(y))\frac{d}{dy}g^{-1}(y)& \\ \end{align*}

ここで\frac{d}{dy}g(g^{-1}(y)) = \frac{d}{dy}g(x) = \frac{d}{dy}yより、

    \[g'(g^{-1}(y))\frac{d}{dy}g^{-1}(y) = 1\]

すなわち

    \[f_Y(y) = f_X(g^{-1}(y))\frac{1}{g'(g^{-1}(y))}\]

Y=aX+bという変数変換の場合、x = g^{-1}(y) = \frac{1}{a}y-\frac{b}{a}であり、

g(x) = ax + b, g'(x) = a

    \[f_Y(y) = f_X\left(\frac{y-b}{a}\right) \frac{1}{a} = \frac{1}{a} f_X\left(\frac{y-b}{a}\right)\]

参考文献

最後に

本日はここまでです

次の更新では確率分布についてまとめていこうと思います!

正直これ1冊真面目にやるだけでも統計検定1級に必要な知識は得られる気がします

前回、統計検定1級の過去問を解きました

おすすめの書籍などもこちらで紹介しているので気になる方は是非!!

コメント

Copied title and URL