BI(ビジネスインテリジェンス)ツールで先ずすべきは、外部にあるデータの読み込み(データ取得)です。 前回は、Web上のデータを取得する方法と簡単なデータ加工について説明しました。 Web上にあるデータを取り込んだら、加...
RだろうがPythonだろうが、データフレームを再構築することは少なくないでしょう。 例えば…… 縦持ち(Long)のデータフレームを、横持ち(Wide)のデータフレームに再構築 横持ち(Wide)のデータフレームを、縦...
データを集めたら、次にデータを分析しなければなりません。 集めたデータと分析の関係は、食材と料理の関係に似ています。良い食材であっても料理人の腕に問題があると台無しになることがあります。不十分な食材でも調理しだいで美味し...
Pythonでデータ分析をするとき、Pandasを使わない人はいないぐらいです。 Pandasの幾つかの機能を高速化するライブラリーがあります。 計算処理を並列化するPandaralellです。 ただ、すべての処理が高速...
データ分析では、よく数理統計学の手法が使われます。 その中で、比較的高頻度で登場するのが「相関分析」です。 2つの変量の間の関係性を見るものです。 今回は、「『相関』は曲がったことが大っ嫌い」というお話しをします。 相関...
BI(ビジネスインテリジェンス)ツールで先ずすべきは、外部にあるデータの読み込み(データ取得)です。 前回は、複数のCSVデータを取得し結合するやり方について説明しました。 最近は、ExcelやCSVファイル、データベー...
データ分析を実施するとき、必ずと言っていいほど実施するのが、EDA(探索的データ分析)です。 Pythonだと、Pandasを使いEDAを実施する人も、多いのではないでしょうか。しかし、PythonでEDAを実施する場合...
前回は、STEP2の「集める」のその5の「データは対で集める」についてお話ししました。 STEP 2(収集)その5|データは対で集める データを集めたら、次にデータを分析しなければなりません。 集めたデータと分析の関係は...
データサイエンスは、データとドメイン(データ活用の現場)の間の橋であり、その橋を走る汽車のようなものです。 ドメイン(データ活用の現場)を覗いてみれば、そこには何かに困っている人がいます。 何かに困っている人が、何に困っ...
ビジネス系のデータ分析には、時間という概念が付いて回ることが多いです。 必ずというわけではありませんが、場合によっては「時間」に関する情報を使用することもあるでしょう。 Pythonですと、datetimeモジュールを利...
BI(ビジネスインテリジェンス)ツールで先ずすべきは、外部にあるデータの読み込み(データ取得)です。 前回は、データベース「PostgreSQL」のデータ取得について説明しました。 読み込むデータは、Excelファイルで...
データ分析・活用(データサイエンス実践)するとき、いつまでも手作業ベースで分析結果や予測結果を、データ分析者やデータサイエンティストなどが提供し続けるのは困難です。 そのため、データ活用の現場でも使えるように、何かしらツ...
いざデータ活用を始めようと考えたとき、データ収集から始めることがあります。 そのとき、完璧にデータを集めようと考える人も少なくありません。 しかし、データ分析・活用(データサイエンス実践)をする前に想像する必要そうなデー...
スタッキングは機械学習のアンサンブル学習の一つです。複数の学習器の出力を特徴量とし、さらに別の学習器で予測する方法です。 TPOTのスタッキングは、指定のアルゴリズムで予測した結果とそのアルゴリズムに入力した特徴量を組み...
Rを使いデータ分析やモデル構築などをするとき、RStudioを使うケースは多いでしょう。 最近、RStudio上でPythonを使うことができるようになっています。 RStudio上で、RとPythonでダイレクトにやり...
データから新たな知見を得たい! という要望は、昔からあります。 仮説発見をするぞという、データマイニングがその現れでしょう。 従来のメインが「仮説検証型データ分析」で、それを進化さえたような感じを与えるようなモノでした。...