確率変数って言葉、漢字が多くて難しいんですけど。
たしかにね。ふつうの変数ともちょっと違うしね。
あと、ベルヌーイ分布とかもカタカナが混ざってて難しいです。
ひらがな以外NGは厳しすぎない?
こんにちは、Yunです!
仕事をするなかで「数学的思考はどんなふうに仕事に役立つの?」「確率って実際にどうやって仕事に生かせるの?」と疑問に感じることはありませんか?
そんな悩みをお持ちの方に、こちらの記事では仕事に役立つ「確率変数」と「確率分布」について解説します!
この記事を読めば、確率の知識の役立て方がわかります!
データ分析における確率変数と確率分布
データ分析の世界では、なにかが起こる確率を求めることや、手元のデータから今後どのようなことを起こりそうか、または起こりなさそうかを調べることが重要になります。
そのときに必要になってくるのが、確率変数と確率分布に関する知識です。
確率変数とはなにか
確率変数(Random Variable)とは、確率に従っていろいろな値をとる変数のことです。
たとえば「コインを10回投げたときに表が出る回数」について調べるとき、「コインを10回投げる」行為を試行と呼び、試行の結果は0回、1回……10回と毎回変化するはずです(ただし、結果の生じやすさにはかたよりが生じます)。このとき、「表が出る回数」そのものが確率変数であり、「0回」「1回」などの試行の結果の具体的な値が確率変数の値です。確率変数の値は、前述のとおり確率に左右されます。
確率変数は「箱」で、その値は「箱の中身」って感じですね。
変数とはなにか
変数(Variable)とは「x」や「y」「z」など、いろいろな値をとることができる文字のことです。たとえば\(y = x + 1\)の式では、x にさまざまな値を入れることができ、また x の値にともなって y の値も変化します。この x, y はどちらも変数といえます。
ここで述べたように、ふつう変数の中身はなんらかの実数です。この点、確率変数の中身は「試行の結果」という事象であるため、ふつうの変数とは異なります。
確率変数とはなにか
確率変数とは、「10回くじを引いて当たりが出る回数」のように、試行(今回は、くじを10回引くこと)をおこなうたびに具体的な値が決まる変数のことです。
確率変数Xの値は「○○%の確率で△△になる」のように確率によって左右されます。
確率変数は英語では「Random variable」といいます。ただし、この英名は誤解を生じさせやすくなっています。多くの場合の確率変数は、サイコロを1回振って6の目が出る確率は1/6である、など完全なランダムではなく一定の確率に従って生じる事象をあつかいます。
ランダム変数といいながら、ランダムではない、ということですね。
また、このあと述べるように確率変数は変数というよりも関数と呼ぶべきものです。
つまり、ふつうの変数は「x = 1」「x = 2」などのように変数(x)は数値を表していますが、確率変数(X)は「X = 1/2」のように確率そのものを表しているわけではありません。
「確率変数は関数である」の意味
関数(Function)とは、\(f(x) = x + 1\)のように定義され、「\(f(1)\)は2、\(f(2)\)は3」など入れた値を別の値に変換した結果を得ることができるもののことです。
「確率変数は関数である」というのは、確率変数がその内部である値を別の値に変換していることを意味します。
確率変数がどのような変換をおこなっているかを理解するためには、「確率変数は写像である」ということについても説明が必要になります。
「確率変数は写像である」の意味
写像(Map)とは2つの集合があるときに、一方の集合の要素と他方の集合の要素を結びつけることです。
写像\(f\)が集合\(A\)から集合\(B\)への変換を表しているとき、以下のように表すことができます。
\(f:A → B\)
ここで、確率変数の中身はもともとは数値でなく「試行の結果」という事象であったことを思い出してください。
たとえばコインを投げたときに「表がでること」を「1」とし、「裏がでること」を「0」と置き換えて計算するとき、集合\(A = \{表, 裏\}\)を集合\(B = \{1, 0\}\)と結びつけています。
実際は数値じゃないものを計算のために数値に変換しているってことですね!
「現実の事象」という数値じゃない集合に対応した数値の集合であるという点で、確率変数は写像であるということができます。
また、写像のあるものを別のあるものに結びつけるという働きは、ある値を別の値に変換するという関数の働きと実質的に同じです。写像は関数と数学的に同義であるため「確率変数は関数である」ということも可能になります。
確率変数は変数としての特徴も関数としての特徴ももっているのね。
確率分布とはなにか
確率分布とは、確率変数の値ごとにその値をとる確率がどのように分布しているかを表したものです。
たとえば、以下の表は「サイコロを6回投げて1の目が出る回数」の確率分布を示しています。
サイコロを6回投げて1の目が出る回数(X)の確率分布 | |||||||
---|---|---|---|---|---|---|---|
1が出る回数X | 0 | 1 | 2 | 3 | 4 | 5 | 6 |
確率 | 0.33 | 0.40 | 0.20 | 0.05 | 0.01 | 0.00… | 0.00… |
確率分布は試行回数や成功確率などを変化させることで得られる結果が変わるので、関数の1種ととらえることができます。
上の表ってなんか度数分布表みたいですね。
度数分布も確率分布
階級 | 相対度数 |
---|---|
S(秀) | 0.1 |
A(優) | 0.2 |
B(良) | 0.5 |
C(可) | 0.1 |
D(不可) | 0.1 |
ある度数分布が確率分布となることもあります。
確率の記事でも紹介しましたが「事象Aが起こる確率」とは、「すべての場合の数に対する、Aが起こる場合の数の割合」を意味します。
\(Aが起こる確率 = \dfrac{Aが起こる場合の数}{すべての場合の数}\)
「あるデータが入っている階級Aの相対度数」は「集合全体のデータの個数に対する、Aに入るデータの個数の割合」であるため、確率と同義であることになります。
\(階級Aの相対度数 = \dfrac{Aに入るデータ個数}{すべてのデータ個数}\)
相対度数はある階級の度数を割合に直したもののことよ。
ただしこれは、以下の前提が成立していることが条件となります。
上記のようなデータの取り出し方を無作為抽出といいます。
推定と推測の違い
ちなみに、データから確率分布を計算することを確率分布を推定するといい、確率分布から今後得られるであろうデータを予測することを推測するといいます。
未来について予「測」する = 推「測」 と覚えるといいわよ。
正規分布
正規分布はもっとも有名な確率分布かもしれません。身長や体重、学力テストの点数など、ランダム性の高い多くの連続確率変数は正規分布にしたがうといわれています。
正規分布の特徴は平均に対して標準偏差(σ/シグマ)が1増減した範囲にデータの68.2%がおさまり、2増減した範囲には95.4%がおさまり、3増減した範囲に99.8%がおさまることが決まっている点です。
標準偏差10の学力テストあった場合、全体の68.2%は偏差値40〜60に含まれることがわかります。また、偏差値61~70であれば上位約14%に含まれていることになります。
正規分布って便利なんですね!
ベルヌーイ分布
ベルヌーイ分布は、以下の特徴をもった確率分布です。
「成功か失敗」「表か裏か」「サイコロの目が6かそれ以外か」のような結果が2種類しかないタイプの試行をベルヌーイ試行といいます。ベルヌーイ分布はこのベルヌーイ試行のみを対象としています。
また、「試行を1回だけおこなったときの」確率分布だというのも大きな特徴です。ベルヌーイ分布では期待値がそのまま事象1が起こる確率となります。
たとえば、なんの細工もないコインの場合「1回だけ投げて表が出る確率」「裏が出る確率」はともに1/2です。表が出るという事象を1とし、裏が出る事象を0としたとき、ベルヌーイ分布は上の画像のように表されます。
ベルヌーイ分布は結果が2種類しかないため、つねに2本の棒グラフで表されます。
二項分布
二項分布もベルヌーイ試行をあつかう確率分布です。ベルヌーイ分布との違いは、ベルヌーイ分布は試行が1回だけだったのに対して、二項分布はn回おこなうことができる点です。
たとえば「サイコロを6回投げて1の目が出る確率」をグラフにしたものが上の画像です。0回が33%、1回だけが40%…という分布になっています。「1が出るか否か」はベルヌーイ試行であり、その試行を複数回おこなっているので二項分布となります。
二項分布は分散(標準偏差の2乗)が十分大きくなると、分布のしかたが正規分布に近似するという特徴があります。
試行回数をn、成功確率をpとしたとき、分散は\(np(1-p)\)で表すことができます。この式から、試行回数nが大きくなれば分散も大きくなることがわかります。
たとえば「サイコロを6回投げて1の目が出る確率」は上の画像のような分布になりましたが、試行を「サイコロを200回投げて…」に変更すると分布図は正規分布にかなり近いかたちになります。
ベルヌーイ試行しか対象じゃないことに注意よ。
ポアソン分布
ポアソン分布は「確率λで起こる事象が任意の時間(または回数)あたりに起こる確率k」を表す確率分布です。言い換えると「○分で⚫︎回起こる出来事が△分で▲回起こる確率」を表す、ということです。
ややこしい!
ポアソン分布はめったに起こらない出来事が起こる確率を求めるのによく用いられます。「成約率λの営業担当が100件訪問したときの成約数」「ダーツでブル(真ん中)に当たる確率λのプレーヤーが50回投げてブルに当たる回数」などが例として挙げられます。
上の画像は、「1000人あたり平均5人に感染するウイルスが○人に感染している確率」の分布図です。3人〜7人の範囲は確率が10%を超えています。とらえ方は人によりけりですが、10%あればまあまあありえるといえそうです。平均5人に感染するウイルスが10人に感染している確率は約1.8%です。ありえないと言い切ることはできない数字と感じられます。
ポアソン分布はさまざまな事象の発生率を分析するのに役立ちますが、そもそもの確率λの根元事象が同様に確かに発生しないといけません。言い換えると「完全にランダムな事象でないと正確でない」という特徴があります。
根元事象とは、「さいころの3の目がでる」「コインの表が出る」のような、ある1つの事象(結果)のことよ。
「成約率λの営業担当が100件訪問したときの成約数」を例にすると、ある50件のエリアでは地域性によりその商品のニーズが非常に高かったなど、なんらかの要因が加わってしまうと発生率がポアソン分布に従わなくなります。
反対に、病気による年間死亡率などランダム性の高い事象に対してはポアソン分布が効果を発揮します。
期待値とはなにか
確率変数Xが取る平均的な値を、その確率変数Xの期待値といいます。
たとえば、コインを2回投げて表が出る回数をXとしたときの確率分布は以下のようになります。
コインを2回投げて表が出る回数(X)の確率分布 | |||
---|---|---|---|
表が出る回数X | 0 | 1 | 2 |
確率 | \(\frac{1}{4}\) | \(\frac{1}{2}\) | \(\frac{1}{4}\) |
この「取りうる値 × 確率」をすべて足し合わせると確率変数Xの平均値が求まります。そしてその平均値はそのまま確率変数Xの期待値(= E[X])となります。
\(E(X) = 0 \times \dfrac{1}{4} + 1 \times \dfrac{1}{2}+ 2 \times \dfrac{1}{4}= 1\)
期待値の計算によって、コインを2回投げて表が出る回数は平均1回であることがわかります。
期待値って「平均的に期待できる値」のことだったんですね!
確率変数の分散とはなにか
分散(Variance)とは、データのばらつき具合を表す数値です。分散が小さいことは、確率変数Xが今後とる値は期待値に近いものになるという傾向を示します。
確率変数Xの分散は以下の式で表します。
\(V[X] = E[(X – μ)^2]\)
各記号の意味は以下の通りです。
上記の式の内容を言葉で説明すると、確率変数Xの分散は「確率変数のとり得る値と期待値(平均値)の差の2乗」と「確率」との積をすべて足し合わせたものです。
ちなみに「確率変数のとり得る値と期待値(平均値)の差」を「偏差」と呼ぶので、分散は「偏差の2乗と確率の積をすべて足し合わせたもの」と言ったほうがすっきり説明できます。
ややこしい!
分散から標準偏差を求めれば、データのおおよその位置もわかる
また分散の正の平方根(\(\sqrt{分散}\))を「標準偏差」といいます。
正規分布であればデータの値が平均から標準偏差1つぶん離れているなら全体の約68%以内、2つぶん離れているなら全体の約95%に含まれていることがわかります。
標準偏差から読み取れることがたくさんあるのよ。
確率変数の線型性とはなにか
線型 = 1次式
まず線型性というときの「線型」は「1次式」を意味しています。たとえば「y = ax + b」という1次式のグラフは直線を描くことをイメージしてもらえると、「1次式 = 線型」の関係もわかりやすいかと思います。
たとえばXとYという2つの確率変数があるとき、定数a, bを用いて「aX + bY」で表せるものを線型といいます。\(X^2\)や\(XY\)のように確率変数が積の関係をもつものは含みません。
確率変数が線型性をもつことのメリットは、以下で紹介するような計算のしやすさにあります。
和の期待値は期待値の和
確率変数の期待値は以下の関係をもちます。
\(E[aX+bY]=aE[X]+bE[Y]\)
たとえば「サイコロを2個同時に振ったときの出目の合計の期待値」を求めるとします。
サイコロX1つだけの出目の期待値は以下の通りです。
\(E(X) = 1 \times \dfrac{1}{6} + 2 \times \dfrac{1}{6}+ 3 \times \dfrac{1}{6}… = \dfrac{7}{2}\)
同じくサイコロYの出目の期待値も7/2です。
ここから、サイコロXとYを同時に振ったときの出目の合計の期待値を以下のように求められます。
\(E[X+Y]=E[X]+E[Y] = \dfrac{7}{2} + \dfrac{7}{2} = 7\)
このように、複数の期待値を足すことで複数の事象が同時に起こったときの期待値を求めることができます。
離散確率分布とはなにか
離散確率分布とは、確率変数が離散型の確率分布のことです。
離散型の数値(離散値)とはコインの表と裏や、サイコロの1の目と2の目のように、それぞれの値が連続していないタイプの数値のことをいいます。
離散確率分布は棒グラフで表されます。ベルヌーイ分布や二項分布、ポアソン分布などは離散確率分布です。
連続確率分布とはなにか
連続確率分布とは、確率変数が連続型の確率分布のことです。
連続型の数値(連続値)とは身長や体重、全国模試の偏差値などある値と別の値のあいだに無限の中間が存在する数値のことをいいます。
連続確率分布は線グラフで表されます。正規分布は連続確率分布です。
ところで、世の数値はほぼすべて有効数値が決められているので、離散型で解釈されています。
たとえば身長は170.000…cmも170.001cmもある連続値ですが、これを170.0cmと解釈してしまえば離散値になります。
しかし、たとえ離散値であっても範囲のなかでとり得る値が非常に多い場合にはふつう連続型として解釈されます。
たとえば100点満点のテストは1点きざみの離散値ですが、とり得る値が0~100と多いので連続値として線グラフで表すことがよくあります。
確率質量関数と確率密度関数
確率関数とはなにか
確率関数とは確率変数Xが \(x_i\) という値をとる確率 \(P(X=x_i)\) を関数 \(f(x_i)\) で表したものです。
確率分布を調べるとき、とり得る値ごとに確率をひとつずつ計算してもよいのですが、とり得る値の個数が多いと大変な作業になってしまいます。
確率関数を用いると求めたい結果を得られる確率をすぐに知ることができます。
確率質量関数と確率密度関数
確率関数は確率質量関数と確率密度関数の2種類があります。これは確率分布が離散型か連続型かの違いによって区別されます。
確率質量関数はすべてのとり得る値の\(f(x_i)\) を合計すると「1」になります。離散確率分布は棒グラフで表されることも合わせて思い出しておきましょう。
それに対して、確率密度関数はすべてのとり得る値の\(f(x_i)\) を積分すると「1」になります。積分はある図形の面積をすべて合計する作業です。連続確率分布は線グラフで表され、その線の下部分が積分対象の面積になります。
確率変数はどのように仕事に役立つのか
ここまで説明してきたとおり、確率変数を用いることで確率分布をとることができ、そこから今後起こる事象を予測することが可能になります。
また、確率変数にかかわる用語のなかで「期待値」はとくに一般にも浸透している数学用語です。正確な期待値は、正確な確率分布をとれなければ計算できません。期待値はあいまいな使い方をされることも多い言葉なので、正確さを求められる場面では数学の基礎知識を役立たせることができます。