2014年5月25日日曜日

数学不要論-最近の「統計学」事情

いま統計学を勉強する方法が激変しつつある。一言でいえば
数学を勉強するより、統計ソフト”R”を使いこなせ
これに尽きる。

先日の授業のテーマは、確率的な見方だった。これまではサイコロを例にとって「6の目が出る確率は6分の1ですよね。どの目もそうです。じゃあ、正しいサイコロを6回振って、1から6まで1回ずつ出ると思いますか?そうなる場合が多いと思いますか?」と、そんな質問から始めたものである。

6回振って1から6まで1回ずつ出る確率はどのくらいあるのか。これを計算するのは大して難しくもないが、確率の勉強からやっていては時間がかかって仕方がない。そこで自分のPCでRを起動して、
sample(1:6,6,replace=T)
を何度か反復するように指示した。その後、『これまでの結果で1から6までが1回ずつ出た人はいますか?順番は問いませんよ』ときくと、一人もいなかった。サイコロを6回振るとすれば、同じ目が2回以上出るのが普通であって、確率のとおりに目が出る方が珍しいということが実感できたようである。

では、6回サイコロを振って<2番目に大きな目>は何になるだろうか?確率のとおりに目が出るとすれば、2番目に大きい目は言うまでもなく5である。しかし、確率のとおりに目は出ない方が多いのだ。これは、確率論の勉強を相当積み重ねた人にとっても計算が易しい問題ではない。しかし、数学を勉強する代わりにRを使い慣れると、すぐに次のように数値実験をすることを思いつく。
> second <- function(x){n <- length(x); sort(x)[n-1]}
> second(1:10)
[1] 9
> kekka1 <- replicate(30000,second(sample(1:6,6,replace=T)))
> mean(kekka1)
[1] 4.783433
> sd(kekka1)
[1] 0.9919501
> barplot(table(kekka1))
サイコロを6回振って2番目に大きな目を記録する作業を3万回繰り返す実験であっても、瞬時に済ませることができる。得られた結果をヒストグラムに描いたのが下の図だ。
2番目に大きな目が5になるのは、3万回振って1万回ちょっと、半分もないのだな。

期待値は4.78、標準偏差は0.99だ。もちろん実験結果だから厳密解ではない。「その程度」と言わなければならない。
> mean(kekka1)
[1] 4.783433
> sd(kekka1)
[1] 0.9919501
3万回の結果は理論的な期待値とほぼ一致していると考えてよい。正解を先に確認してから、上のヒストグラムに当てはまっている真の確率分布をゆっくりと導出する方がずっと楽である。というか、「理論的導出」が必要かどうかもハッキリとしない。もはや不必要かもしれない。

昔、計算尺を常用している工学部の教授が授業中に2×3に出くわして、そこで計算尺をとりだし『これは…大体6くらいだから』と、平然として授業を続けたそうな。これは極端で笑い話に属するかもしれないが、まあ実際にはこんな感性で全く問題はないのである。

真の視聴率が20%であるとき、100人をサンプルにとって実際に視聴率調査をするとすれば、どんな結果がどの位の確率で出てくるか。これは二項分布の例題である。しかし、確率論の勉強をせずとも、次のコマンドを入力すると理論的正解に近い答えがすぐに得られる。
> sityouritu <- replicate(30000,sum(sample(c(rep(0,80),rep(1,20)),100,replace=T)))
> sum(sityouritu>25)/30000
[1] 0.0855
> sum(dbinom(26:100,size=100,p=0.20))
[1] 0.08747538
100人の結果が25%を上回ってしまう確率を求めてみたが、3万回も反復実験をすれば、何も理論的に確率計算をせずとも自然と分かってしまうわけである。実験結果から分かる確率8.55%と理論的結果である8.74%は、ほぼ合致していると見なすのがビジネス現場の感覚であろう。
> barplot(table(sityouritu))
視聴率が20%の場合、30%を超える結果はまず得られないことは一目瞭然である。また25%を超える結果は、あまり出てはこない結果であり、実際にやってみてそんな結果が最初に出てくるというのもあまりない。『確率が小さなことは何度もやっている内に出くわすものであって、いの一番にそんな結果に当たってしまうのは、相当アンラッキーである』、そんな確率的な感覚も経験できる。これも統計をマスターするためには不可欠の感性である。

だから『数学を勉強する時間があったら、まずRを使いこなしなさい』と言う時代になった。そんな風に感じつつあるのだ。統計学者になる志をもっているのでなければ、断言してもよいのではあるまいか。時代は変わりつつある……





0 件のコメント: