stat.ink様のX帯のデータのサンプルが妥当と言えるのかについて

追記

下記議論では明確に誤りがありました。

登録者150人全員がX帯のように扱っていますが、実際には150人のうち一部のみがX帯です。具体的な人数はデータの仕様上把握できないです。

 

ざっとデータを確認しましたが、データ量的には30%前後です(7/1~7/10の野良ガチにおいて700/2300)。なのでここでは、ハイパーざっくり150×30%=45人がX帯とイメージしたいと思います。非常に雑ですが、これくらいしか現状推定の方法が思いつきません。

 

なので、下記の150人の部分は「ざっくり45人」に置き換えて読んでいただけるとありがたいです。

結論も「やっぱりX帯だと少し足りないかも…。」になります。

100人くらいいれば何となく許せるラインなのではないのでしょうか…。

 (7/21更に追記 miikun様によると142人とのことです!

 https://catch-on-everywhere.hatenablog.com/entry/2018/07/20/163800 )

 

 

 

 

〇きっかけ

 

私のフォロワーさん(@rod_aurora1014 )とスプラトゥーン2ブキ研究所さん(@splatoon_weapon)との間で統計に関する議論がされていました。


納得できる所まで話せずに困っていたようなので、フォロワーさんには個別に下記内容を伝えたのですがせっかくなので公開します。


(ちなみに私は統計を学部レベルで学んだ程度で、今回も思い出しつつ調べつつ記事を書いています。)

 

 

 

 

 

 

議論の流れは「投稿者150人では少なすぎないか?」「無作為抽出と呼べるのか」「信頼できるものなのか」です。

 

私個人の結論は「もしかしたら落とし穴があるかもだけど、信頼しても問題ないんじゃない?」です。


〇論点の整理


まず第一に、stat.inkのデータは投稿者以外の7名をデータとして分析に使うことを推奨されています。
これは本人を含めてしまうと、本人は当然毎試合登場するわけですからデータとして偏ってしまうためです。
これを踏まえるとサンプル数は「投稿データ回数×7」です。数としては非常に膨大です。


ちなみに投稿者150人程度の根拠はこちらのページです。https://stat.ink/entire/users
ただし、これは最近1日のデータなので過去データを合計した場合には増加するとと思われます。
なお、具体的な人数については公表されているデータでは個人に紐づく項目が無いので判断できないようです。
(プライバシーの観点等の配慮だと思われます。データには勝敗やプレイ時間帯等のデータがありますので。)


ですが、「投稿データ×7」が「無作為抽出なのか」が問題となりました。
公式ではガチパワーが近い相手同士がマッチングするとされており
「X帯においては投稿者と近しいガチパワーの人間としかマッチングしない」ことがあげられます。
https://www.famitsu.com/news/201711/28146904.html

 

なので例えば投稿者が数人しかいない場合はその人たちのガチパワー周辺のデータしか分析に使えません。
数が膨大でも一部のガチパワーしかデータが無いと困ってしまいます。

ですので、改めて投稿者150人が妥当なのかという判断が必要です。

 

※ちなみにこの公式発表が本当かどうかも上記では議論されていました。ガチパワーがランダムでマッチングする場合は、投稿者1人でも2人でも無作為抽出となります。この記事では本当であると仮定しています。

 

〇直感的な話

ちなみに、個人の直感としては「そこまで問題にならなそう」と思いました。

 

まず、1億人の国民全体の世論調査でも2000人程度集めれば十分と言われています。
スプラトゥーンプレイヤーのX帯の人数は1~2万人程度が妥当かなと思うのでまぁ10分の1くらいでもいけるかなっていうのが直感的な意見です。

 

ただ、実際そんな単純な比例式で説明はできません。数万人の母集団なら400人集めれば特に分析の必要もないみたいです。150人だと普通に足りないけど絶対ダメって程じゃないって印象です。

 

(※X帯アクティブ数は、
①Xパワー2000程度で18,000位程度の報告画像があったこと、
②ウデマエXに寄せてのページでのS+10以上割合が1%かつ
任天堂の株式報告資料のアクティブユーザーのグラフから現在100万人がアクティブと推計できること、
の2点から妥当と考えています)

http://xn--2-keutcycxd6e2c9c.net/archives/07231964.html
http://xn--eckybzahmsm43ab5g.com/splatoon2/29810/
https://www.nintendo.co.jp/switch/aab6a/rank/index.html

 

〇もう少し統計的な話

150人が妥当かどうかについて、私のフォロワーさんの意見として
「登録者150人の分布が母集団全体のガチパワーの分布に近ければ、登録者150人が母集団を代表していると言える」という仮説を立てられていましたがこれは誤りです。

 

統計学では一部の分布の場合を除いて、「ある母集団から十分な数のサンプルを抜き出した場合、そのサンプルは正規分布に従う」ことが知られています。(※正規分布=きれいな山なりの分布)
これは、基本的には母集団の分布がどのようなものであっても成り立つ、とても強力な理論です。これは中心極限定理と呼ばれています。


そして、これを利用してサンプル数が十分かどうかを知りたい場合は、「サンプルの分布が正規分布に従っているかどうか」を確認すればよいです。
今回のケースにおいては、150人のガチパワーの分布が正規分布になっているかどうかを確認すれば分かります。


大抵の場合、グラフにすれば大体分かるのですが、数値を用いて主張したい場合にはかなり高度な分析が必要になります(少なくとも私には無理です)。

 

ただし、上述の通り、公表されているデータでは投稿者とデータに紐づきが無いためグラフを作成することはできません。


統計的な分析で中心極限定理を仮定しないことはかなり稀じゃないかなと思います。
研究者ではないので何とも言えませんが。


〇更に統計的な話

中心極限定理は「一部の分布を除く」という条件があります。
例えば、べき乗分布の場合は成り立ちません。

べき乗分布とは、片側に極端に寄っている分布です。平均年収をイメージしてもらえればよいかと思います。


ガチパワーは特性上、べき乗分布になる可能性があると言えるでしょう。
この場合、①まずべき乗分布かどうかを検証する②べき乗分布の場合、どれ程のサンプル数がベストなのか検証する
のステップが必要です。

まぁ、無理ではないと思うのですが、べき乗分布を仮定した分析はマイナーなものになるので高度なものになると思います。(少なくとも私にry)。


〇結論

個人的には趣味であるゲームのさらに趣味の分析でここまで踏みいって分析する必要性は感じません。


正直、通常の研究ですら基礎的な定義は前提に置いてしまっていたりします(個人調べ)。雑誌・新聞ならなおさら気にも留めないレベルでしょう(これは常識)。

 

まず、やったところで評価してくれる人はそうそう存在しないですし、コストに見合わないと感じます。この部分は見逃しちゃって議論してもいいのではないでしょうか。

 

直感的な部分での「普通に足りないけど絶対ダメって程じゃない」ことから、まぁ信頼してもバチは当たらないでしょう、というのが私の意見です。
それに、150人というのはあくまで最低値ですし。

 

なので結論は「もしかしたら落とし穴があるかもだけど、信頼しても問題ないんじゃない?」です。


〇実用的な部分の話

 そもそもstat.inkに登録している人物をサンプルにしていますので、ランダム抽出かどうか議論が必要な部分です。

 

stat.inkに登録する人としない人で、モチベーション等に差があり、無視できない偏りがあるかもしれません。追記stat.ink様のFAQページに明確に強い側に偏る傾向があると記載があります。https://stat.ink/faq

 

ただ、スプラトゥーン界隈での統計としては代替品がないですし(ツイッター上でのアンケートでは信頼性があまりにも乏しすぎます)
ここの議論をしても話が進まないので無視しています。


また、X帯上位と下位で傾向が違うということも考えられます。それを加味した分析は比較的容易に可能です。数週間あればできると思います。
某氏の分析の式は、勝率=αブキ種 という式でしかないのですが、 勝率=αブキ種+βXパワー のように変数を増やせばよかったりします。
こうすれば、Xパワーに依存していないブキだけの係数αが分かります。
ちなみに、他の「ガチルール」「ステージ」等も組み込むことは可能です。

 

〇個人的な感想

統計的な議論は結論が誰にでも分かりやすい一方で、厳密性を担保するのは簡単ではないものと考えます。
ですので、統計に基づいて主張したい時には
①どのようなデータを用いているのか、
②どのように加工したのか、
③どのような仮定を置いているのか、
を最低限公開する必要があると思います。
そのうえで、皆に伝わるような分かりやすい言葉で説明する必要があると思います。
有用な分析が説明不足で胡散臭いと思われてしまうのは、もったいないことだと思います。

 


間違い・ご意見等がある場合はいえこもり@kichisyumiに指摘してくださると助かります。