2015年8月27日木曜日

データ分析におけるPython利用計画の変更

統計分析でメシを食っている小生はこれまで幾つものソフトを利用してきた。

最初は ― もう随分昔になったが ― FORTRANで書かれたソースプログラムの管理と時どき必要になる修正、それに新規ルーティンの追加だった。どうしても納得できないので1行1行、サブルーティンの間をたどりながら調べていくと、変数名が"TSUIKA"と"TUIKA"になっている複数の箇所があることに気がついたこともある。まあ、今ならデバッガーがあるし、昔は変数宣言がなくとも警告は出なかったのだ、な。その後は、PL/Iが伝家の宝刀になった。これまさにIBM−MVSのJCLとともに「我が懐かしの言語」である。

そんな時代が怒濤のように過ぎ去ってから使ってきたのは、SAS、RATS、SPSS、TSP、MATLAB、GAUSS、JMP、Ox…まだあったかな、VBとかそういうのは除く。そして今ではもう20年くらいR(昔はS)を使っている。

ところがごく最近になって機械学習ではPYTHONの方に最先端のパッケージが揃っていると聞いて、統計分析の覇権争いに新星現るかとも思われ、本式に勉強してみる気になった……のだが、結局は止めることにした。

その理由は、

  1. 最先端の機械学習ルーティンは(Pythonの世界に一歩だけ時間差が出るにせよ)Rでもどんどん開発・提供されている。
  2. 日本語テキストの分析を予定しているが、愛用しているMeCabはPython2.7にしか原則対応していないようである。文字列データの処理はUnicodeに統一されたPython3でないと使う気になれない。Rの"RMeCab"はとにかく使いやすく、文字処理については"stringr"で間に合っている。
  3. 時系列データ解析でARIMA分析ができるのは当然だが、Prof. HyndmanがRの予測用パッケージとして提供している"forcast"相当の機能がPythonにはない。特に"auto.arima"がないのは致命的である。
  4. 樹木構造分析で不可欠な描画機能がPyhtonは弱い(という印象だ、Pythonのこの分野はよく知らないが)。
  5. これは特定の言語に限った話しではないが、e-StatのAPIを利用できるデータの中に景気動向指数(CI)が含まれていない。もし含まれているなら、Pythonでソースを書こうと思っていた。が、ないならこの作業も取りやめだ。一体、このオープンデータの時代に内閣府は何をしているのだろうねえ…

すべて仕事には不可欠であり、優先度が高く、この夏にとりかかろうと考えていたのだが、こんな状態である。で、出した結論はPythonに時間をかけて勉強する価値は少ないというものだ。失われる機会コストをカバーできるとは思えない。故に、計画は取りやめにした。

Pythonほど関心をそそられながら、本式にマスターしようとすると『ま、いいか』と思わせる言語、というかツールには、これまでに出会ったことがない。

Juliaは小生が現役の間にメジャーになるとは思えない。Scalaの方はどうだろう。こっちを少しやってみるか…いいかどうか分からないけど。小生の言語趣味の近況はこんなところだ。

0 件のコメント: