第96話|データ分析が大きく変わる! と、2012年頃のビッグデータブーム時に感じたこと

第96話|データ分析が大きく変わる! と、2012年頃のビッグデータブーム時に感じたこと

2012年のNHKクローズアップ現代で、ビッグデータの特集が組まれました。

特集で組まれた事例は、特別なものではありませんでしたが、この日を境にある変化を私は感じるようになりました。

データ分析への注目度が非常に上がっただけでなく、2000年前後のデータマイニングブームの本質を実現する機会の訪れと感じました。

今回は、「データ分析が大きく変わる! と、2012年頃のビッグデータブーム時に感じたこと」というお話しをします。

NHKクローズアップ現代

2012年5月28日(月)、あまり注目されることのないデータ分析の特集が、NHKでなされました。クローズアップ現代「社会を変えるビッグデータ革命」です。

今でも、NHKのHPに当時の番組の概要が掲載されています。

スマートフォン、ICカードなど身近な電子機器から、私たちは膨大な情報を発信している。

インターネットで検索した内容、買い物をした商品や価格、駅の改札を通った移動、さらには病院で受けた検査結果まで、あらゆる情報がデジタル化され記録される時代。

生まれるデータの量は、この数年で飛躍的に増え、“ビッグデータ”と呼ばれている。解析不可能だったビッグデータを技術の発達で分析できるようになったことで、生活や社会が劇的に変わりつつある。

コンビニでは、購買行動をリアルタイムで捕捉しパターンを発見、利用者が買う商品を事前に予測する。

カーナビを使って100万台の自動車の位置情報をつかむことで急ブレーキ地点を地図化、“未来の事故現場”を見つけて事前に事故対策をする。

アメリカでは医療分野でビッグデータを活用した“先読み”をする医療が加速している。一方で個人の情報が膨大に広がっていくことを懸念する声も。

“ビッグデータ”時代の最前線を見ていく。

引用元:http://www.nhk.or.jp/gendai/articles/3204/1.html

データ分析をしていた立場から考えると、当たり前のことのように思えてきます。似たような事例は、いくらでもあるからです。

さらに、数カ月前にさかのぼると、当時の米国のオバマ政権があるイニシアチブを発表しました。「ビッグデータイニチアチブ」です。

ビッグデータイニチアチブ

ビッグデータが単なるブームではなく、米国という国が、国を挙げて取り組む何かであることが伺える出来事でした。

この「ビッグデータイニチアチブ」は、未来に向けた研究投資に関するものです。今何か得るためではなく、未来の米国の国益を生み出すものです。

この点は非常に重要です。「今すぐ」ではなく、「未来」という点です。

ビッグデータやAIなどのキーワードとともに、今すぐ特別な何かを手にできるような錯覚を覚える方もいます。現実はそのようなことは、あまりないと思います。

ガベージイン・ガベージアウト

2012年から約12年前、同じようなデータ分析に関わるムーブメントがありました。データマイニングブームです。2000年ごろのことです。

データマイニングブームで喧伝されていたキーワードの1つに、「有象無象のデータの山から、今までにない宝となる何かが発見される」というものです。

よく「ガベージイン・ゴスペルアウト」と呼ばれ、「ゴミの山から福音(良い知らせ)がもたらされる」と言われましたが、現実はそう簡単なものではありませんでした。

そのうち、「ガベージイン・ゴスペルアウト」ではなく、「ガベージイン・ガベージアウト」と呼ばれ、「ゴミの山からでるのは、やっぱりゴミ」と言われるようになり、世間からデータ分析は忘れ去れました。

データマイニングブーム時と本質は変わらない

データマイニングブーム時に、データ分析上ある重要なパラダイムシフトが起こりました。

従来のデータ分析は、少量の高品質なデータを相手に統計学的なアプローチでデータ分析するものでした。

2000年ごろから、データが大量に蓄積されるようになりました。理由は単純で、IT化の副産物としてデータが勝手に蓄積されるようになったからです。

つまり、IT化の広がりとともに、蓄積されるデータ量が爆発的に増えていきます。

その爆発的に増えた有象無象のデータ、言い換えると「大量の低品質なデータ」に対し、何かしたデータ分析をしようという試みが生まれます。それが、データマイニングの諸手法です。

なぜならば、少量の高品質なデータを相手にする統計学的なアプローチでは、大量の低品質なデータを上手く扱えないからです。

2012年頃から始まるビッグデータブームも、大量の低品質なデータを上手く活用しようという本質部分は、変わらないと思います。

大きな違い

大きな違いは、12年の歳月の間に、大量の低品質なデータを上手く活用し収益急拡大したドットコム企業などの成功事例が生まれたからです。

単なる夢物語を現実化する企業が現れたということです。

そこで、私は次のように強く感じました。

少量の高品質なデータを相手にする時代から、大量の低品質なデータを相手にする時代へ、データ分析の主流が変化したのだ

これからのデータ分析は、「合目的的なデータ」ではなく、「有象無象なデータ」を相手にしなければならないし、すべきである。このように感じました。

ちなみに、合目的的なデータとは「ある目的のために計画的に集められたデータ」、有象無象なデータとは「ある目的のために集められたデータに、そうでないデータが大量に混在されたデータ」という意味で使っています。

そのような有象無象なデータから、いかに価値を作るのかが求められる時代だと、私は2012年頃のビッグデータブーム時に感じました。

今回のまとめ

今回は、「データ分析が大きく変わる! と、2012年頃のビッグデータブーム時に感じたこと」というお話しをしました。

単なる、2000年と2012年のデータ分析ブームの比較で、本質的には何も変わっていないというお話しです。「大量の低品質なデータを上手く活用する」という根幹の部分が同じということです。

そこで、私は次のように強く感じました。

少量の高品質なデータを相手にする時代から、大量の低品質なデータを相手にする時代へ、データ分析の主流が変化したのだ

このように、私は2012年頃のビッグデータブーム時に感じました。

私がこのように感じたある事例があります。ある大手電機メーカーの工場のデータ分析の事例です。

従来の統計的品質管理の統計学的アプローチでは上手くいかなくなったのです。別の機会に、そのお話しをします。