2016年3月2日水曜日

統計分析はいつ人工知能で置き換わってくれるのか

人工知能技術の進化で多くの専門職はやることがなくなるだろうと言われて(=心配されて)いる。

医療しかり、税理士・公認会計士しかり、判事しかり、弁護士しかり・・・そして、最も不要となるのは大学教授ということだ。

ただし不要となるのは、授業担当としての教員であって、研究者としての仕事と役割はむしろ加速度的に高まるとは見ているところだ。


いま昨年に実施した某アンケート結果の分析に時間を使っている。

質問票の質問数は17であるので、分量的にはマアマア、分析しがいのあるデータなのだ、な --- ただ回答者数が200人強であり、何を分析するにしても欠損値を除外すると、有効なレコードは150人程度に減ってしまう。

それでも統計調査として合格圏内に入るだけの信頼性はあるだろう。

早く人工知能でやってもらいたいと思います。これは真剣な願いだ。


回答をコード化し、(特定のソフトウェアによって)分析可能なデータテーブルに持っていく前処理だけで結構面倒であるのに、各質問の回答を一つのカテゴリー変量で表すべきか、それとも各質問の個別選択肢ごとにその選択肢を選んだかどうかを0、1で表しておくべきか。

どんな分析メニューをとるかによって求められるデータテーブルは違ってくる。内容の本質は同じであるので、この辺は機械的処理で本来はあるのだが、いまはまだ人の手でやっている。

先刻作業をしたのは幾つか複数の質問に対する回答パターンに着目して、回答者全体を行動パターンが異なる幾つかのクラスターに細分化する作業であった。そのため、まずはデータテーブル全体から対象とする質問部分だけを取り出して、各質問の未回答を除去し、最後にマージして対応分析にかければ、行得点を使ってクラスタリングできる。こんな手順でやっていったのだが、クラスターごとの平均消費額、男女別、年齢別構成など、データ全体の内容を含んだ状態で欠損値を除かなければならなかった。

質問ごとに個別にやってしまったのだね。

これでは使えぬ。


元のデータテーブル全体が変わることはないのだから、それを1回最初に知らせておけば、あとは分析したいテーマに応じて、作業手順を提案するくらいのことは、そして機械的なデータ準備くらいのことは済ませてほしい、人が考えなくともやってもらいたいなあ・・・。
この元ファイルを使ってね、これとこれをまとめて対応分析、その後クラスタリングをして、それでグループごとの所得の違いや動機の違い、年齢や男女別、居住区域など特性にどんな違いがあるかを知りたいんだ・・・ 
では、こうしたらいかがでしょう・・・この作業は私でできますから、このステップからあとをお願いできますか・・・
既に自然言語も理解できてきているのだから、このまま会話式で機械にやってもらいたい。

このあとをお願いできますか・・・と機械のほうから言う必要がなくなったとき、 最後までレポーティングを含めて全てを機械処理できるようになったときは、データサイエンティストなる専門職は失業するのだろう。

あと20年は大丈夫だと思うが、50年となると全く予想もつかない。




0 件のコメント: