2015年4月12日日曜日

RとPython: ファイル・ディレクトリー操作と日本語

統計ソフトであるRは実際には開発言語である面がある ― というより、言語そのものである。しかし、複数のディレクトリーに散在している同一修飾子のファイルをまとめて、別の一つのディレクトリーに移動するような、単純だが大量にあると耐えられない作業は、やはりRでなくて普通の開発言語でやるものだ。

統計分析自体に限れば、最近人気が出てきているPythonは、とてもとてもRの代わりになるものではない。そう断言してもいい。

しかし、▲▲分析の計算に入るのは統計分析のどちらかと言えば最終段階なのだ。それ以前に多数のデータファイルを整理したり、まとめたり、ディレクトリーをきれいにしたりする、そんなHousekeeping作業が無秩序に進行するのが普通である。

そういうゴタゴタ仕事にRを使う御仁は(よほどのマニアでない限り)いないだろう。最近の小生はもうWindowsでしか仕事をしないので、雑用は手でやるか、量が多ければVBでやるか、そんな意識が強かったが、せっかくインストールしたPythonだ。言語なんだから、科学技術計算ツールのPython(x,y)でもこの位は出来て当然。そんな役の振り方をしているのだな。

しかしというべきか、それにしてもというべきか、Pythonのあの日本語処理。あれは何なんだろうね……。

今日はこれだけを一言メモしておこう。

Rでは何かプログラミングをするとき日本語の扱いで面倒になることはない。分析自体に日本語は不要だし、面倒になりそうな作業ははじめからRではやらないと言う方が正確だ。しかしネ・・・、Pythonって開発言語でしょ。多言語のコードをユニコードで統一的に扱いたいというのは分かるが、日本には日本の事情というのがある。一寸したことを一寸やるために、何故こんなに学習しないといけないのか、と。前にもスーパーの経営幹部の人と話したことがあるが、大半の会社においては "Python + R"、というより、"Excel VBA + R"のほうが、いわゆる「つぶしのきく」データマイニング・チームになるだろう。いや出来れば"Excel VBA"だけで業務をこなしたい。ま、それはかえって難しさを増すことになるのだが、それでも(非大都市圏にある)普通の企業はそう思っているはずである。

営業だけでも言葉の壁があって昨今大変なのに、システム開発作業の中にまで言語のゴタゴタを持ち込まないでほしい。これが共通の思いだろうねえ・・・、そんな風に感じるこの二、三日であります。

ま、多言語をまたいで作動することが鍵となるWEBビジネスでは、複数言語を統一的に記述できるほうが有難いのだろうが。この辺はまた改めて。

0 件のコメント: