2015年3月29日日曜日

「データ分析」の境界はどこなのか?

「データ分析」と言えば、普通は統計学を教えればよい。そう思ってずっとやってきた。ところが、(特に)ビジネススクールにおいては、それでは駄目なのだ。

たとえばQC(=品質管理)と言えば、戦後アメリカが世界に輸出した技術の中で最も成功したものの一つだ。「QC七つ道具」を基礎づけるために戦後の統計教育の骨格が定まった。そういってもよいくらいだ。その要点は、一言でいえば「標本誤差」と「有意性」にある。この点は、単純な一変量の母平均検定でも二標本問題でも、回帰分析でも変わらない。

しかし、QC七つ道具の中で最も大事な道具は、実は統計学とは関係がない「特性要因図」である。統計分析サイクルはいまでもPPDAC。つまりProblem→Plan→Data→Analysis→Conclusionだが、最初にどんな問題発見からスタートするかが、実は一番大事なのだ、な。これは現にやっていることの実態から定まってくる話しだから、(普通の解釈では)統計学プロパーには属さないし、問題発見の方法を解説する統計学の授業はないはずだ。しかし、意味のある統計分析を行うのに、何を知りたいかを自覚するのは当然の前提だ。問題を明確化するステップ。それが特性要因図である。

ま、QCはこんな風に成功し、組織に浸透し、社会でも制度化されてきた。

データマイニング、ビッグデータ分析が進みつつある現在、QCにはおさまらない統計技術が進化している。ここでもPPDACは大事だ。

一体、ビッグデータから何を知りたいのか。これまでは本質的に分からなかったことが分かるのがビッグデータなのか?これまでも分かっていたことが、より安く、効率的に分かるようになったのがビッグデータなのか?

最近の流行に従って、主成分分析から樹形モデルまでをやるつもりだが、どんな問題を解決するツールとして修得するのか?ツールとして最も効率的な方法を提供していることになるのか?

まだよく分からない。

テキストごとに内容がひどく違っているのは、分からない専門家が多い証拠だろう。「統計学」のテキストはどれも同じだ。しかし、データ分析は統計学だけでは知識不足になる。統計学ではないことも統計分析の授業で解説する。それが非常に重要になってきている。そんな時代なのだろう。

0 件のコメント: