国土交通省の建設工事受注動態統計の書き換え問題、すごいですね。
国交省 不適切な統計処理 推計で8年間に34兆円余 過大に計上
日本の大手製造業でもデータ改竄問題が、定期的にニュースに上がってきています。
偽装に不具合、品質不正 日本のものづくりをむしばむ病
データを改竄しても品質そのものは高くなることはありません。
データ活用という観点で考えると、こういった問題は何とも言えません。
今回は、「データ改竄問題」というお話しです。
データが注目される時代
ここ10年ぐらい、ビッグデータ、統計解析、データサイエンス、機械学習、AI、DXといったキーワードと共に、データそのものが注目されてきました。
データは新しい原油であると言われたりします。
データは新たな土壌であると言われたりしています。
時代に逆行するかのようなもの
不純物が多く含まれた質の悪い原油の価値は小さいでしょう。
汚染土壌から新たな社会サービスやテクノロジーなどは育ちにくいでしょう。
データに不純物をあえて混ぜたり、データを汚染するような行為は、時代に逆行するかのようなものです。
データクレンジングは大変
データ集計や分析、モデル構築などをしたことのある人なら分かると思いますが、データを綺麗にするクレンジング作業は非常に大変です。
さらに、1次データ(元データ)であればまだクレンジング対応可能ですが、2次データの場合どうしようもないことが多いです。
国土交通省の建設工事受注動態統計は、2次データなので、そのデータを活用する側から見たらクレンジングしようのないデータです。
間違ったデータが消えない怖さ
一番怖いのは、修正前の統計データと、修正後の統計データが2つあることです。
修正前の統計データをこの世から消し去ることはできません。どこかの誰かが持っている可能性があります。
意図せず、修正前の統計データを見つけ、これはいいということで、無邪気に使う可能性があります。
怖いことです。
今回のまとめ
今回は、「データ改竄問題」というお話しをしました。
国土交通省の建設工事受注動態統計の書き換え問題といい、日本の大手製造業でもデータ改竄問題といい、どうなっているのでしょうか。
データ活用という観点で考えると、こういった問題は何とも言えません。
統計データを書き換える意味というかメリットも理解不能です。
品質データを改竄しても、数値上はよく見えても、そのモノの品質は高くなることはありません。
このデータ活用が注目される時代に、逆行しているかのような動きです。
データの時代に、データの力を過小評価しているかのようです。