2013年10月8日火曜日

覚え書 ― ビッグデータ時代は本物か?

某会社でビジネススクール出前版を提供しているのだが、今月から小生が担当する「統計」が全4回の予定で始まった。1回は90分なので4回とはいえ、話せるテーマはごくごく限られたものだ。昨年は3回で、平均・標準偏差に始まって、回帰分析まで、というか被説明変数が質的変量である場合のロジット分析までをとりあげた。理解度的には消化不良となるのは当然である。この3回が4回に増えても、更に5回、6回に増えても、事情はあまり変わらないであろう。ならばと、今回はベストセラー『統計学が最強の学問である』(西内啓)を一緒に読むというスタイルで、前半2回は「統計というものの見方の特徴」を聴いてもらい、それから後半2回に統計入門の話しをすることにした。

★ ★ ★



上の本を著した西内氏の力点がどこに置かれているか、ビッグデータ時代をどう見ているかなど、それはそれで大変面白い見解が述べられていて、色々な指摘は大変ロジカルである。

<統計ユーザー>として(=統計学者としてではなく)一番大事なことは何だろうか?それは、集まったデータから<最速・最善>のソリューションを引き出す技術を提供することにある。西内氏の意見の中で、これぞベストという点を一つ上げるとすれば、まさにこの点だ。その具体例として、19世紀のロンドンにおいて4度に及ぶコレラ大流行の惨状に立ち向かったジョン・スノウの提案を挙げている。ロンドン市民が利用している水道会社はA社とB社の二つがあったのだが、スノウの提案は
水道会社A社の水を使うのは止めよう、以上。
という簡単なものだった。スノウが生きた当時、コレラがコレラ菌による伝染病であることは、未知であった。また「止めよう」と指弾された水道会社A社がコレラ流行の<真の原因>ではないことも明らかだった。だから、スノウの提案は実に<非科学的>である。しかしながら、他に方法もないからスノウの提案を採用してみたところ、コレラ感染者は減少していったのである。現在では、スノウの提案がなぜ有効であったのか、その理由も解明されている。

<できないことの説明>は、専門家なら誰でもできる。「このデータから真の原因がわかるはずがない」、「測定方法を明らかにするべきだ」、「サンプルはどうとったか」、「データが正確であることの根拠は」等々、あらゆる点について問題点を指摘することは常に可能である。データ・クリーニングは確かに統計分析の第一歩である。可能なら、データを慎重に吟味するべきだ。しかし、こう言っておけば専門家としてリスクを負担せずともすむ、そんなホンネが隠された不毛な逃げ口上がいかに頻繁に口にされていることか……
いろいろ不明な個所があるので、このデータから信頼性のある結論は得られません

こんな風に言い出せば、日本の実質GDPにだって、大きな問題は多々あるのだ。

「真理」を求める統計学者ならこんな風なことを言ってもまだ許されるが、統計ユーザーがこんなことを言えば、これだけで失格である。統計ユーザーの仕事は答えを出すことである。データを前に逃亡を図ってはいけない。とにかく分析する。何か使える情報がこのデータに含まれていないか。含まれていれば『なんでこのデータが役に立つんだ』と。後でもいいのである。

そんな心構えが統計ユーザーには最も大切なのだ、な。ま、こんな意味合いで、上のベストセラーは、実に全うである ― 敢えていえば、標準誤差の数値など細かい点でミスプリが残っているが。

★ ★ ★

そんな西内氏であるが、ビッグデータ時代に向ける眼差しに熱いものは感じられない。それはトラディショナルな統計学で問題を十分解決できると(正確に)考えているからだ。

それでもなお出前授業で、小生は、こんな話をしているのだ。
100万件のPOSデータを丸ごと分析するより、1万件をサンプルにとって、1万件を分析する方がよほど簡単です。簡単だから速く計算できるし、計算がすぐ済むので、答えもすぐに出てきます。そして、サンプルから出てくる結果は、全数調査とほとんど変わらない。そう証明されているのですからね。であれば、『ビッグデータ時代の到来』といっても、それは統計学の進歩ではなくて、コンピューター・メーカーやソフトウェア企業の営業戦略なのだ、そうみるほうが適切でしょうかね。著者の見方はこれに近いかもしれません。 
ただね……、データ分析の生命は、「時間を食わずに正確に」なんです。「サンプリングせよ」というのは、間違っていません。正しい意見です。しかし、サンプルをとること自体が面倒くさいですよね、と。ビッグデータのままで効率よく保管しておいて、ビッグデータのまま分析する。それでもって計算も比較的簡単なやり方で、簡単に正確な答えを出すやり方が見つかってきた。だとしたら、どうです?これはこれで新しいデータ・サイエンスが創造されつつあるのかもしれない。そういう見方も出てくるのですよね。私はそう見ているのです。
まあ、1990年代から2008年までは<金融工学>の時代でした。IBMとか、SASとか、メジャーな大手企業ばかりではなく、アメリカという国全体が金融工学でメシを食ってきました。それが「リーマン危機」で崩壊して、いまさらまた金融工学ルネサンスとは言い出せない。だから、今度は<ビッグデータ>。ビッグデータを支える三本の柱は、高速・大容量なコンピューターとデータベース技術、インターネット、そして統計学です。この三つともアメリカが最先端であって、アメリカの知的財産です。確かに、「ビッグデータ=ニューサイエンスの創造」ではありますが、アメリカの新・国家戦略でもある。そんな気がしてならない。こういうと、西内氏の見方に近くなりますかね。
ビッグデータを支える七つ道具に統計ソフト<R>が含まれている。これまでビジネススクールでやっている基本段階の統計授業では、エクセルに付属している「分析ツール」を標準にしていた。そろそろ<R>を標準にして授業を進めるほうが歓迎される状況になってきたのかもしれない。



0 件のコメント: