確率分布についてできるだけ詳しくまとめてみた【連続確率分布編】

プログラミング・数学・英会話
スポンサーリンク

この記事は連続確率分布編です

離散確率分布については下記の記事でまとめていますのでそちらをご覧ください

各確率分布がどういうものなのか、確率質量(密度)関数、累積分布関数、確率母関数、積率母関数、期待値、分散はどういう式になっているかは書籍などを見れば載っています

しかし、それらがどのような考えで導出されているのかが省略されていたりする場合があります

こういうところを自分でしっかりと理解したいという方も多いのではないでしょうか?

そこで本記事ではできる限り考え方や導出方法も交えて各確率分布について整理していきます

現時点での制限事項は下記です

  • 私なりに理解しずらかったところを補足したりしているつもりですが、証明がまだできていない部分、整理しきれていない部分があります
  • まだ記載し切れていない部分がいくつかあります

これらの部分は少しずつ更新して改善していく予定ですですので、暇なときにまた訪れていただければ幸いです

何か誤りなどあればコメントやお問い合わせフォームからお願いします

スポンサーリンク

連続一様分布

a \leq X \leq bの連続一様分布を考える

確立密度関数

(1)   \begin{align*}         f(x; a, b) & = \frac{1}{b-a} \ (a\leq x \leq b)&\\         f(x; a, b) & = 0 \ (a\geq x, x \geq b)& \end{align*}

確率密度関数から期待値と分散を求める

(2)   \begin{align*}         E(X) & = \int^{b}_{a} x \frac{1}{b-a} dx& \\              & = \frac{a+b}{2} & \\         E(X^2) & = \int^{b}_{a} x^2 \frac{1}{b-a} dx & \\                & = \frac{a^2+ab+b^2}{3}& \\ \\         V(X) & = E(X^2) - {E(X)}^2& \\              & = \frac{a^2+ab+b^2}{3} - \left(\frac{a+b}{2}\right)^2& \\              & = \frac{(a-b)^2}{12}& \end{align*}

累積分布関数

(3)   \begin{align*}         F_X(t) & = P(X \leq t)& \\                 & = \int^{t}_{a} \frac{1}{b-a} dx\ (a \leq t \leq b)& \\                & = \frac{t-a}{b-a}& \\ \\ \end{align*}

積率母関数

(4)   \begin{align*}         M_X(t) & = E[e^{tX}]& \\                & = \int^{b}_{a} e^{tx} \frac{1}{b-a} dx& \\                & = \frac{e^{at}-e^{bt}}{t(b-a)}& \\ \\         M_X^{(1)}(t) & = \frac{(at-1)e^{at}-(bt-1)e^{bt}}{t^2(b-a)}& \\ \end{align*}

上記を用いて期待値、分散を求めることができるが、単純にt=0を代入することはできないので下記のロピタルの定理を用いる必要がある

    \[\lim_{t \rightarrow a} \frac{f(t)}{g(t)} = \lim_{t \rightarrow a} \frac{f'(t)}{g'(t)} = \lim_{t \rightarrow a} \frac{f''(t)}{g''(t)}=\ …\]

今後の予定

ロピタルの定理の証明

正規分布

確率密度関数

(5)   \begin{align*} f(x;\lambda,\sigma^2) & = \frac{1}{\sqrt{2\pi}\sigma} \exp(-\frac{(x-\lambda)^2}{2\sigma^2}) &  \end{align*}

期待値

(6)   \begin{align*}  E(X) & = \int^{\infty}_{-\infty} x \frac{1}{\sqrt{2\pi}\sigma} \exp(-\frac{(x-\lambda)^2}{2\sigma^2}) &  \end{align*}

正規分布の求め方

まず、\lambdaで対称な、上に凸かつ全体が正となる関数を考えると、

    \[f_0(x;\lambda) = a\exp(-\frac{(x-\lambda)^2}{b})\]

このとき、期待値が\lambda、分散が\sigma^2となるようにa, bを求める

(7)   \begin{align*}  E(X) & = \int^{\infty}_{-\infty} x a \exp(-\frac{(x-\lambda)^2}{b})dx & \\ & = \int^{\infty}_{-\infty} (x+\lambda) a \exp(-\frac{x^2}{b})dx \end{align*}

x軸方向に平行移動した関数のため積分値は一致する

(8)   \begin{align*} & = a\lambda \int^{\infty}_{-\infty} \exp(-\frac{x^2}{b})dx & \\ & = a\lambda \sqrt{b} \int^{\infty}_{-\infty} \exp(-t^2)dt & \\ & = \frac{a\lambda \sqrt{b\pi}}{2} &  \end{align*}

補足予定

今後、以下について整理する予定です

    \[\int^{\infty}_{-\infty} \exp (-a x^2) dx\]

    \[\int^{\infty}_{-\infty} \exp (-a (x^2 + y^2)) dx dy\]

ガンマ分布

確率密度関数

    \[f(x;\alpha,\beta) = \frac{\beta^{\alpha}}{\Gamma(\alpha)} x^{\alpha-1} \exp(-\beta x)\]

再生成

確率変数X, Yがそれぞれガンマ分布Ga(\alpha_1, \beta), Ga(\alpha_2, \beta)にしたがうとするとき、Z=X+Yについて考える

(9)   \begin{align*}  P(X+Y) & = f(x, y; \alpha_1, \alpha_2, \beta) & \\ & = \int^{z}_{0} f(x; \alpha_1, \beta) f(z-x; \alpha_2, \beta) dx & \\ & = \int^{z}_{0} \frac{\beta^{\alpha_1}}{\Gamma(\alpha_1)} x^{\alpha_1-1} \exp(-\beta x) \frac{\beta^{\alpha_2}}{\Gamma(\alpha_2)} (z-x)^{\alpha_2-1} \exp(-\beta (z-x)) dx& \\ & = \frac{\beta^{\alpha_1 + \alpha_2}\exp(-\beta z)}{\Gamma(\alpha_1)\Gamma(\alpha_2)} \int^{z}_{0} x^{\alpha_1-1}(z-x)^{\alpha_2-1} dx & \\ & = \frac{\beta^{\alpha_1 + \alpha_2}\exp(-\beta z)}{\Gamma(\alpha_1)\Gamma(\alpha_2)} \frac{\Gamma(\alpha_1)\Gamma(\alpha_2)}{\Gamma(\alpha_1 + \alpha_2)}z^{\alpha_1 + \alpha_2 - 1}& \\ & = \frac{\beta^{\alpha_1 + \alpha_2}}{\Gamma(\alpha_1 + \alpha_2)}z^{\alpha_1 + \alpha_2 - 1} \exp(-\beta z) \sim Ga(\alpha_1+\alpha_2, \beta)&  \end{align*}

ベータ関数の積分公式

    \[\int^{b}_{a} (x-a)^{\alpha_1-1}(b-x)^{\alpha_2-1} dx = \frac{\Gamma(\alpha_1)\Gamma(\alpha_2)}{\Gamma(\alpha_1 + \alpha_2)}(b-a)^{\alpha_1 + \alpha_2 - 1}\]

分布

確率密度関数

自由度1の場合

まず、自由度1の場合について確率密度関数を求める

(10)   \begin{align*} P(Y \leq y) & = P(X^2 \leq y) = \int^{\sqrt{y}}_{\sqrt{-y}} \frac{1}{\sqrt{2\pi}}\exp(-\frac{x^2}{2}) dx = 2 \int^{\sqrt{y}}_{\sqrt{0}} \frac{1}{\sqrt{2\pi}}\exp(-\frac{x^2}{2}) dx& \end{align*}

y=x^2という置換を考えると、dy = 2x dxx= \sqrt{y}\ (x>0の範囲での積分のため)

(11)   \begin{align*}         P(Y \leq y) & = 2 \int^{\sqrt{y}}_{0} \frac{1}{\sqrt{2\pi}} \exp(-\frac{y}{2}) \frac{1}{2 \sqrt{y}} dy & \\         & = \frac{1}{2^{\frac{1}{2}}\sqrt{\pi}} \int^{\sqrt{y}}_{0} y^{-\frac{1}{2}} \exp(-\frac{y}{2}) dy& \\         & = \frac{1}{2^{\frac{1}{2}}\Gamma(\frac{1}{2})} \int^{\sqrt{y}}_{0} y^{-\frac{1}{2}} \exp(-\frac{y}{2}) dy& \end{align*}

上記の分布関数を微分すれば、確率密度関数が求まるので、

    \[f_1(x) = \frac{1}{2^{\frac{1}{2}}\Gamma(\frac{1}{2})} x^{-\frac{1}{2}} \exp(-\frac{x}{2})\]

自由度2の場合

自由度2の場合について考える

X=X_1^2, Y=X_2^2が自由度1χ^2分布に従うとき、Z = X + Yの確率密度関数について考える

(12)   \begin{align*} f_2(z) & = f_2(x, z-x) = \int^{z}_{0} \frac{1}{2^{\frac{1}{2}}\Gamma(\frac{1}{2})} x^{-\frac{1}{2}} \exp(-\frac{x}{2}) \frac{1}{2^{\frac{1}{2}}\Gamma(\frac{1}{2})} (z-x)^{-\frac{1}{2}} \exp(-\frac{z-x}{2}) dx & \\ & = \frac{1}{2^{\frac{2}{2}}\{\Gamma(\frac{1}{2})\}^2} \exp(-\frac{z}{2}) \int^{z}_{0} x^{\frac{1}{2}-1} (z-x)^{\frac{1}{2}-1} dx& \\ & = \frac{1}{2^{\frac{2}{2}}\{\Gamma(\frac{1}{2})\}^2} \exp(-\frac{z}{2}) \frac{\{\Gamma(\frac{1}{2})\}^2}{\Gamma(\frac{2}{2})} z^{\frac{2}{2}-1}& \end{align*}

y = x_1^2 + x_2^2とおくと、dy = 2x_1 dx_1, dy = 2x_2 dx_2である

ディリクレ分布

K面のサイコロの各目が出る確率を予測する確率分布と考えることができる

確率密度関数

各目がでる回数がx_k - 1とし、予測する確率をそれぞれp_kとしたときに、確率密度関数は下記の通りである

Cは正規化定数として、

    \[f(p_1,p_2,...,p_K;x_1,x_2,...,x_K) = C p_1^{x_1-1}p_2^{x_2-1}...p_K^{x_K-1}\]

    \[\sum^{}_{x_1,x_2,...,x_K} C p_1^{x_1-1}p_2^{x_2-1}...p_K^{x_K-1} = 1\]

であるので、

    \[C = \frac{\Gamma(\sum^{K}_{k=1}x_k)}{\Gamma(x_1)\Gamma(x_2)...\Gamma(x_K)}\]

多変量正規分布

確率密度関数

    \[f({\bf x};{\bf \mu}) = \frac{1}{(\sqrt{2\pi})^n |\Sigma|} \exp\left(-\frac{({\bf x}-{\bf \mu})^T \Sigma^{-1}({\bf x}-{\bf \mu})}{2}\right)\]

今後の予定

確立密度関数の導出方法について補足予定

t分布、t検定

X_1, X_2,...,X_n \sim N(\mu,\sigma^2)

Z = \frac{\sqrt{n}(\bar X - \mu)}{\sigma} \sim N(0,1)

    \[W = \frac{1}{\sigma^2}\sum^{n}_{i=1}(X_i - \bar X)^2 \sim \chi_{n-1}^2\]

のとき

T = \frac{Z}{\sqrt{\frac{W}{n-1}}}は自由度n-1t分布にしたがう

また不偏分散をS = \frac{1}{n-1}\sum^{n}_{i=1}(X_i - \bar X)^2とすると、

(13)   \begin{align*} T = \frac{\frac{\sqrt{n}(\bar X - \mu)}{\sigma}}{\sqrt{\frac{\frac{1}{\sigma^2}\sum^{n}_{i=1}(X_i - \bar X)^2}{n-1}}} = \frac{\sqrt{n}(\bar X - \mu)}{S} \end{align*}

このことから、正規分布の分散を不偏分散に置き換えると、自由度n-1t分布に従うと考えることができる

ここでt_{\frac{\alpha}{2},n-1}を信頼係数\alpha(通常5%などを設定)における自由度n-1信頼係数1-\alpha時点のt分布表の値を指す

ここでt分布表とは、信頼係数以上の値をとる確率の値を表した表であり、\alpha=5のときは、97.5%時点以上の確率となる

よってT(1-\alpha)%信頼区間は

    \[-t_{\frac{\alpha}{2},n-1}\leq \frac{\sqrt{n}(\bar X - \mu)}{S} \leq t_{\frac{\alpha}{2},n-1}\]

すなわち

    \[\bar X - \frac{S}{\sqrt{n}}t_{\frac{\alpha}{2},n-1} \leq \mu \leq \bar X + \frac{S}{\sqrt{n}}t_{\frac{\alpha}{2},n-1}\]

p値は、t_{\frac{\alpha}{2},n-1}の値のことを指し、この値が有意水準以下であれば帰無仮説を棄却する

参考文献

コメント

Copied title and URL