2018年2月27日火曜日

データ収集が政争のタネになる信じられない状況

裁量労働制をめぐって厚労省のデータ収集プロセスが国会で問題になっている。「働き方改革」そのものは、今後の日本にとって絶対に必要な政策である。しかし、与党と対立している野党からみれば、データの統計的処理の不適切、データ収集プロセスの「ずさん」は、(もし報道がすべて本当なら)確かに攻めどころではあり、その後の説明の不手際ぶりをみていると、なるほど「これはいかんネエ」と感じる。

分からないのは、今回の問題はデータという実体がある(原票は保存されなければならない)以上、標本調査の目的、質問事項の設計、サンプリング方法、収集されたサンプルデータをどのようにデータ・クリーニングしたか、どのような統計的処理をしたか、これらの点を淡々と国会の場で(多分、担当局長あたりが適任だと思うが)説明すれば、それまでの話しである。政治家が技術的な話題をことさらにとりあげて、一つ一つなぜそんな結果になっているのかなどと質問するのは、本来は時間の無駄のはずである。それなのに・・・現に紛糾が続いている。ここがまったく分からないのだ。

非常に不思議である。

これって野党がロジカルな審議を拒否して、「時間の空費」を強要するという戦術をとっているってこと? それとも、与党が本当にデータ・クッキングをしていて、詳細を説明できないってこと? 両方が可能なように感じられて、よく分からないのだな。

まあ、小生のメシのタネでもあるので、付け加えておくと、大体1万件程度のサンプルデータがあって複数項目の平均値を出す時、これらの項目のいずれかが不記入であるケースは予想外に多いものである。更に、明らかに異常値である数値が回答されていたり、複数項目間に不整合があったりもする。データ分析の前に分析に値するようなデータ状況に整えるデータ・クリーニング作業が不可欠なわけであるが、この種の作業を済ませた後、最初にあった1万件のデータが6千件程度にまで減ってしまう(=4千件程度は使えない)ことは、それほど驚く事ではない。

新聞記事を書いている記者もデータ分析の実際はよく知らないに違いなく、記事を読んでも大事なポイントは何も書かれていない。ではあるが、「異常値が200件もある」とか、そんな文章を読むと母数が1万件もあれば当然でしょ、とも言いたくなるわけで、大事な要点は「それらの異常値を分析段階ではどのように処理したのか」ということである。

まあ、具体的なことは何も伝えられていないので、多くは書けないが、厚生労働省という官庁は、その昔、「就業構造基本調査」や「毎月勤労統計」、あるいは「国民生活基礎調査」等々、日本でも最重要な統計調査を所管する組織として作業協力もし、学生時代には直接訪れてデータをもらったり、懐かしい思い出が数多くある。「産業連関表」の作成作業を担当していた時も大変お世話になったことがある(当時はまだ厚生省と労働省に別れていたが)。現在の状況は小生にとっても悲しく、情けないものである。

0 件のコメント: