BI(ビジネスインテリジェンス)ツールで先ずすべきは、外部にあるデータの読み込み(データ取得)です。
前回は、複数のCSVデータを取得し結合するやり方について説明しました。
最近は、ExcelやCSVファイル、データベースなどのデータだけでなく、Web上にあるデータを取り込むケースも少なくありません。
今回は、Web上のデータを取得する方法と簡単なデータ加工ついて説明します。
取得するWeb上のデータ
今回は、WikipediaのUEFA European Football ChampionshipにあるResultsのデータを取得します。
UEFA European Championship
https://en.wikipedia.org/wiki/UEFA_European_Championship#Results
綺麗に見えますが、データ分析という視点から考えると「整備されてないデータ」になります。
データ分析という視点で考えた綺麗なデータとは、少なくともテーブル形式(Excelなシートのイメージ)のデータです。
このデータを、PowerBIで読み込み、テーブル形式(Excelなシートのイメージ)に加工したいと思います。
Web上ののデータを取得する
①「データを取得」→②「Web」をクリックします。
①URLに「https://en.wikipedia.org/wiki/UEFA_European_Football_Championship」を入力し、②「OK」をクリックします。
① Results[edit]のチェックボックスをONにして、②「データの変換」をクリックします。
「読み込み」を選択しない理由は、テーブルビューで表示されている通り、形式がバラバラで読み込みできる状態ではないためです。そのため、「データの変換」をクリックして、データを加工します。
取得したデータを加工し保存する
Power Query エディターで取得したデータを加工します。
①Column1とColumn4を選択し、②「列の削除」→③「他の列の削除」をクリックします。Column1とColumn4の列だけ残ります。
Column1から、不要な単語の「Details」を削除します。
①「値の置換」→②「検索する値」に「Details」を入力→③OKをクリックします。
次に、Column1の変数(カラム)の名前を「Year」に、Column4の変数(カラム)の名前を「Country」に変更します。
①変更する変数(カラム)を右クリックをし「名前の変更」を選択し、②変数(カラム)の名前を変えます。
Column1(year)のデータには、 「null」と「Year」 という不要な単語が入っているセルがあります。
列をフィルター処理して、「null」と「Year」 という単語が含まれていない行のみを表示させ、レポートを保存します。
①フィルターのプルダウン→②「null」と「Year」のチェックボックスをオフ→③OKをクリックします。
レポートの保存は、保存ボタンなどをクリックします。名前は分かりやすいものにしましょう。
次回
今回は、Web上のデータを取得する方法と簡単なデータ加工について説明しました。
次回も、Webデータの取得について扱います。ただ、もう少し先に進み、簡単なレポートを作ってみたいと思います。