第314話|データ活用プラットフォームとデータサイエンス

第314話|データ活用プラットフォームとデータサイエンス

データをいかに活用しビジネスを加速させればいいのか。

そのためのツールとして、データ活用プラットフォームがあります。呼び方は様々で、単にデータプラットフォームと呼ばれたり、データ活用基盤と呼ばれたり、データマネジメントプラットフォームと呼ばれたり、色々です。

データ活用プラットフォームをどのように構築するのかは、ビジネスに重大な影響を与える可能性があるため、とても刺激的で、そして困難を伴うものです。

データ活用プラットフォームの部品は、AWSやAzure、Google Cloudなどでクラウドサービスとして提供されているため、多くに場合はそれらを組み合わせれば十分でしょう。

そういう意味では、非常に手軽にデータ活用プラットフォームを構築できるようになりました。

今回は、「データ活用プラットフォームとデータサイエンス」というお話しをします。

何のためにデータ活用プラットフォームを作るのか?

何のために、データ活用プラットフォームを構築するのでしょうか?

理由は様々ですが、抽象的に表現すると「意思決定プロセスを支援しビジネス拡大するため」でしょう。

意思決定プロセスのスピードや質などを向上させたり、効率化したり、といったところだと思います。

要は、「誰かが何かを判断し決めるときにデータに基づいたサポートをする」という感じです。

そういうことは、すぐに実現できないため、当面の目的としては「データ分析作業の効率化」があげられます。

まとめると……

  • 短期的には、今やっている(もしくは、やろうとしている)「データ分析作業の効率化」
  • 中長期的には、「意思決定プロセスを支援しビジネス拡大するため」

データ活用プラットフォームのイメージ

発生したデータが活用されるまでに、例えば、次のような幾つかのレイヤー(層)が必要になります。名称は、適当に私が付けました。人に呼び方は異なると思います。

  • データ収集レイヤー
  • 統合レイヤー
  • 前処理レイヤー
  • ストレージレイヤー
  • アナリティクスレイヤー

データ収集レイヤーとは、様々なデータソースを集めるレイヤーです。購買履歴データであったり、財務データであったり、Webログデータであったり、各種マーケティングデータだったりします。

農作物で例えると、果物や野菜を収穫する感じです。

それらのデータを統合するのが、統合レイヤーです。ETLと呼ばれる処理が実施されることが多いです。ETLとは、Extract(抽出)・Transform(変換)・Load(格納)の頭文字をとったものです。要は、データソースから必要なデータを抽出し変換し、そしてストレージに格納します。ETLは非常に地味ですが、非常に重要です。

農作物で例えると、収穫した果物や野菜を選別し出荷した感じです。

ストレージレイヤーとは、端的に言うとBIツールなどを接続するデータウェアハウスです。このデータウェアハウスに接続し、集計や分析、数理モデルなどの構築などを実施していきます。

農作物で例えると、出荷された果物や野菜を格納する倉庫(ウェアハウス)といった感じです。

前処理レイヤーでは、ストレージレイヤーデータウェアハウスに接続し、前処理を実施します。

統合レイヤーからストレージレイヤーに流れてきたデータは、畑から選別され出荷された果物や野菜のようなものです。そこにさらに何かしら処理を加えます。調理する人などが使いやすいように一手間二手間加えます。例えば、小分けにしてみたり、カットしてみたり、調理してみたりし、店先に並べます。

データも同じで、統合レイヤーからストレージレイヤーに流れてきたデータ対し、データ活用する人などが使いやすいように一手間二手間加えます。それが前処理です。

アナリティクスレイヤーとは、BIツールなどでストレージレイヤーデータウェアハウスに接続し活用したり、データサイエンティストがストレージレイヤーデータウェアハウスに接続し活用し高度なデータ分析や数理モデル構築などをしたりします。

アナリティクスレイヤーで各種検討されたデータ分析方法や数理モデルなどの中には、定期的に実施しよう、というものが登場します。そういったものは、前処理レイヤーに移行します。そのとき、ほぼ人手から離れた状態にしておく必要があります。

制約事項と優先すべきお困りごと

データ活用プラットフォームの構築を開始するとき、先ず明らかにすべきは、以下の2点です。

  • ヒト・モノ・カネ・時間・技術などの制約事項
  • 優先すべき「お困りごと」(ビジネス課題)

ヒト・モノ・カネ・時間・技術などの制約事項とは、文字通り人的リソースや使える金銭的資源、社内人財だけでできそうなこと、外部に依頼したほうが良さそうなこと、必要な時間などです。

優先すべき「お困りごと」(ビジネス課題)とは、データ活用のテーマを洗い出し、そこに優先順位を付けていくことです。

いきなり、予測モデルや異常検知モデルなどの数理モデルを活用するテーマにするのではなく、集計ベースのデータ活用で実現できるテーマを選ぶなどをしたほうがいいでしょう。

データ活用プラットフォームを構築することは、非常に刺激的ですが、困難を伴うものです。そこに、挑むデータ活用テーマそのものが難しいと、2重苦になります。

そのため、データ活用プラットフォームを使ったデータ活用テーマは、最初は集計ベースのデータ活用で実現できるテーマを選ぶといいでしょう。

長期的視点も忘れない

先程、データ活用プラットフォームを作る理由として……

  • 短期的には、今やっている(もしくは、やろうとしている)「データ分析作業の効率化」
  • 中長期的には、「意思決定プロセスを支援しビジネス拡大するため」

……と言いました。

データ活用プラットフォームを構築し始めると、中長期的視点が記憶の彼方に行ってしまったり、恐ろしいことに短期的視点も消え去りさったりし、データ活用プラットフォームを構築することのみに目が行ってしまうことがあります。

言いたいことは、長期的視点も忘れないようにしよう、ということです。

先程、「意思決定プロセスを支援しビジネス拡大するため」と抽象的に表現しましたが、この抽象的なものを可能にするため、どうすればいいでしょうか。

答えは簡単で、より高度なデータ活用を可能にする柔軟かつスケーリング可能なデータ活用プラットフォームを作る、となります。

そのためには、「意思決定プロセスを支援しビジネス拡大するため」を具体化し、それらが構築中のデータ活用プラットフォームで実現可能なのかどうかを、チェックする必要がでてきます。

データ活用プラットフォームは、データのサイロ化を打破するための1つとして作られる側面もありますが、データ活用プラットフォームそのものがサイロ化されないように気をつける必要があります。

今回のまとめ

今回は、「データ活用プラットフォームとデータサイエンス」というお話しをしました。

データをいかに活用しビジネスを加速させればいいのか。

そのためのツールとして、データ活用プラットフォームがあります。呼び方は様々で、単にデータプラットフォームと呼ばれたり、データ活用基盤と呼ばれたり、データマネジメントプラットフォームと呼ばれたり、色々です。

データ活用プラットフォームをどのように構築するのかは、ビジネスに重大な影響を与える可能性があるため、とても刺激的で、そして困難を伴うものです。

データ活用プラットフォームの部品は、AWSやAzure、Google Cloudなどでクラウドサービスとして提供されているため、多くに場合はそれらを組み合わせれば十分でしょう。

そういう意味では、非常に手軽にデータ活用プラットフォームを構築できるようになりました。

データ活用プラットフォームを作る理由として……

  • 短期的には、今やっている(もしくは、やろうとしている)「データ分析作業の効率化」
  • 中長期的には、「意思決定プロセスを支援しビジネス拡大するため」

……があります。

発生したデータが活用されるまでに、例えば、次のような幾つかのレイヤー(層)が必要になります。

  • データ収集レイヤー
  • 統合レイヤー
  • 前処理レイヤー
  • ストレージレイヤー
  • アナリティクスレイヤー

データ活用プラットフォームを使ったデータ活用テーマとして、いきなり、予測モデルや異常検知モデルなどの数理モデルを活用するテーマにするのではない方がいいです。

数理モデルを構築するテーマではなく、集計ベースのデータ活用で実現できるテーマを選ぶなどをしたほうがいいでしょう。

データ活用プラットフォームを構築することは、非常に刺激的ですが、困難を伴うものです。そこに、挑むデータ活用テーマそのものが難しいと、2重苦になります。