【ポケポケ】カスミが表を出す確率は1/2なのか？－その2：仮説検定－

2024年11月29日2024年12月6日

最近リリースされたポケカアプリ「ポケポケ」のカスミで「コインの表が出る確率が下方修正されたのではないか」という噂が聞かれます。本ブログ記事では、実際にカスミを使って表が出続ける回数を集計し「コインの表が出る確率が1/2である」といえるのかを統計的に検定します。

はじめに

ポケモンカードのアプリ「Pokémon Trading Card Game Pocket」（通称ポケポケ）がリリースされてから約1カ月が経過しました。[blogcard url=”https://www.pokemontcgpocket.com/ja/”]

リリース直後から猛威を振るっているカスミですが、「最近カスミ表出なくなったな」と思っている方いませんか？

そこで前回のブログ記事では、実際にカスミを使って100回分のデータを収集し、最尤推定というアプローチによってカスミがコインの表を出す確率$p$を統計的に推定しました。最尤推定されたコインの表の確率は47.1%でした。この結果から、表が出る確率は1/2より小さいといえるのでしょうか。あるいは、サンプリングによる誤差の範囲内でしょうか。

本ブログ記事では「カスミが表を出す確率は1/2である」と判断できるのかを統計的仮説検定を用いて考察します。

前回の記事：[blogcard url=”https://blog.since2020.jp/data_analysis/poke-kasumi-estimation/”]

データ

集計方法
　・サンプルサイズ：$N=100$
　・集計期間：2024/11/21~2024/11/24
　・集計場所：オンライン対戦

データの概要
オンライン対戦で収集した100枚のカスミによるコイントスの結果を簡単に紹介します。

実際に集計された「1枚のカスミがコイントスを行った回数」を $x_i\ (i=1,2,…,N)$ と表すことにします。

カスミが獲得した水エネルギーの個数$(x_{i}-1)$の分布は次のようになりました。

標本平均の計算

収集した100回分のデータ$x_i\ (i=1,2,…,N)$から計算される$X$の標本平均は$$ \bar{x}=\frac{\sum_{i=1}^{100}x_{i}}{100}=1.89 $$となりました。

問題設定

前回の記事で詳細に解説しているので、こちらを参照してください。

モデル化の設定
　・コインの表が出る確率を$p$とする
　・1枚のカスミがコイントスを行う回数を$X$とする

カスミによる各コイントスが独立に同一なベルヌーイ分布に従うことを仮定すると、$X$は幾何分布に従います。

カスミの確率関数
1枚のカスミがコイントスを行う回数$X$の確率関数は次のように表されます：

$$ P(X=k)=p^{k-1}(1-p) \qquad (k=1,2,3, \ldots) $$

はじめの$(k-1)$回のコイントスで表を出し続け、$k$回目で初めて裏を出す確率を表しています。
※一般的な幾何分布の確率関数とは$p$, $1-p$が逆になっていることに注意してください。

期待値と分散

$X$が従う確率分布の期待値$\mu$と分散$\sigma^2$を求めておきます。

導出方法については末尾の付録を参照してください。

$$ \begin{align*}
\mu &= \frac{1}{1-p}\\
\sigma^2 &= \frac{p}{(1-p)^2}
\end{align*} $$

仮説検定

サンプルサイズ$ N=100 $が十分に大きいものとして、中心極限定理を用いたZ検定を実施します。

1: 仮説と有意水準の設定

明らかにしたい問いは「カスミのコインが表になる確率は1/2よりも低いのではないか？」というものでした。

なので、以下のような帰無仮説と（左片側）対立仮説を設定します。

　・帰無仮説$H_0: p=1/2$

　・対立仮説$H_1: p<1/2$

また、有意水準は5%に設定します。

2: 検定統計量の設定

検定統計量を作るために、$X$の標本平均$\bar{x}$を利用します。

サンプルサイズ$N$が十分に大きい場合、中心極限定理により$\bar{x}$は正規分布で近似できます。

幾何分布に従う確率変数$X$の期待値が$\mu$、分散が$\sigma^2$であるとき、標本平均$\bar{x}$は正規分布$\mathcal{N}(\mu, \sigma^2/N)$に近似されます。

そこで、$\bar{x}$を標準化した検定統計量$Z$を次のように定義します。

$$ Z=\frac{\bar{x}-\mu}{\sigma/\sqrt{N}} $$

この検定統計量$Z$は標準正規分布$\mathcal{N}(0,1)$に近似的に従います。

3: 棄却域の計算

対立仮説$H_1: p<1/2$、有意水準5%である左片側検定を考えていました。

標準正規分布の下側5%点$-z_{0.05} \approx-1.645$なので、帰無仮説が正しいと仮定した下で計算される検定統計量の値$z$が

$$ z < -1.645 $$

であれば、帰無仮説を棄却します。

4: 帰無仮説$H_0$が正しいと仮定して検定統計量を計算

帰無仮説$H_0:p=1/2$のもとでの検定統計量$Z_0$は

$$ Z_0=\frac{\bar{x}-\mu_0}{\sigma_0/\sqrt{N}} $$

と表されます。なお、$\mu = 1/(1-p),\ \sigma^2 = p/(1-p)^2$だったので

$$ \begin{align*} \mu_0=\frac{1}{1-1/2}=2,\ \sigma_0=\frac{\sqrt{1/2}}{1-1/2}=\sqrt{2} \end{align*} $$

となります。そこで、検定統計量$Z_0$に

$$ \mu_0=2, \sigma_0=\sqrt{2}, \bar{x}=1.89, N=100 $$

を代入して得られる値$z$を求めます。

$$ \begin{align*} z =\frac{1.89-2}{\sqrt{2}/\sqrt{100}} \approx-0.7778 \end{align*} $$

5: 棄却の可否を判断

$z > -1.645$であったので、帰無仮説$H_0: p=1/2$は棄却されません。

すなわち、今回収集したデータからは「カスミのコインで表が出る確率は1/2より統計的に有意に低い」ことを示すことはできませんでした。

まとめ

本ブログ記事では、カスミのコイントスが幾何分布を用いた確率モデルで表現できることを利用して、統計的仮説検定（特に中心極限定理を用いたZ検定）を行いました。

今回集めたデータからは、「カスミのコインで表が出る確率は1/2より統計的に有意に低い」ということは示されませんでした。

ここからは個人的な感想になりますが、実際にカスミを使ってデータ収集しながら「裏ばかり出るから絶対1/2より低く設定されているな」と感じていたものの、裏が出た場面が記憶に残りやすかっただけなのかもしれません。なので、おそらくオンライン対戦でもカスミがコインで表を出す確率は1/2に設定されているのではないかなと考えています。

サンプルサイズ$N=100$が十分ではないという懸念があるため、今回紹介した手順を用いて更に多くのサンプルに対して仮説検定を実施できれば、より信頼できる結果が得られると思います。

付録

1枚のカスミがコイントスを行う回数$X$の期待値$\mu$と分散$\sigma^2$の導出

期待値$\mu$は次のようになります。

$$ \begin{split} \mu &= E[X]\\ &= \sum_{k=1}^{\infty} k \cdot P(X=k)\\ &= \sum_{k=1}^{\infty} k \cdot p^{k-1}(1-p)\\ &= (1-p) \sum_{k=1}^{\infty} k \cdot p^{k-1}\\ &= \sum_{k=1}^{\infty} k \cdot p^{k-1} – p \sum_{k=1}^{\infty} k \cdot p^{k-1}\\ &= \sum_{k=1}^{\infty} k \cdot p^{k-1} – \sum_{k=1}^{\infty} k \cdot p^{k}\\ &= \sum_{k=1}^{\infty} p^{k-1}\\ &= \frac{1}{1-p} \end{split} $$

分散$\sigma^2$の計算のために、$X^2$の期待値を求めておきます。

$$ \begin{split} E[X^2] &= \sum_{k=1}^{\infty} k^2 \cdot P(X=k)\\ &= \sum_{k=1}^{\infty} k^2 \cdot p^{k-1}(1-p)\\ &= (1-p) \sum_{k=1}^{\infty} k^2 \cdot p^{k-1}\\ &= \sum_{k=1}^{\infty} k^2 \cdot p^{k-1} – p \sum_{k=1}^{\infty} k^2 \cdot p^{k-1}\\ &= \sum_{k=1}^{\infty} k^2 \cdot p^{k-1} – \sum_{k=1}^{\infty} k^2 \cdot p^{k}\\ &= \sum_{k=1}^{\infty} (2k-1)p^{k-1}\\ &= 2 \sum_{k=1}^{\infty} k \cdot p^{k-1} – \sum_{k=1}^{\infty} p^{k-1}\\ &= \frac{2}{(1-p)^2} – \frac{1}{1-p}\\ &=\frac{1+p}{(1-p)^2} \end{split} $$

以上から、分散$\sigma^2$は次のようになります。

$$ \begin{split} \sigma^2 &= E[X^2] – E[X]^2\\ &= \frac{1+p}{(1-p)^2} – \bigg\{ \frac{1}{1-p} \bigg\}^2\\ &= \frac{p}{(1-p)^2} \end{split} $$