特徴量エンジニアリング(feature engineering)は、私がデータ分析を始めた20数年前から非常に重要なものでした。 特徴量(feature)とは、数理モデルの説明変数Xを指します。 ドメイン(データ活用の現...
データアナリティクス(データ分析)には、幾つか種類があります。 以下の5つです。 Descriptive Analytics:記述的分析(過去から現在、どうだった) Diagnostic Analytics:診断的分析(...
ビジネスの現場で売上などの数値を予測することは多いでしょう。 例えば、予測モデルを構築し予測したり、例年踏襲型で数値を予測したりします。 例年踏襲型とは、昨年と同額もしくは昨対比10%UPみたいな感じの予測というものです...
データ分析では、よく数理統計学の手法が使われます。 その中で、比較的高頻度で登場するのが「相関分析」です。 2つの変量の間の関係性を見るものです。 今回は、「『相関』は曲がったことが大っ嫌い」というお話しをします。 相関...
データサイエンスは、データとドメイン(データ活用の現場)の間の橋であり、その橋を走る汽車のようなものです。 ドメイン(データ活用の現場)を覗いてみれば、そこには何かに困っている人がいます。 何かに困っている人が、何に困っ...
いざデータ活用を始めようと考えたとき、データ収集から始めることがあります。 そのとき、完璧にデータを集めようと考える人も少なくありません。 しかし、データ分析・活用(データサイエンス実践)をする前に想像する必要そうなデー...
データから新たな知見を得たい! という要望は、昔からあります。 仮説発見をするぞという、データマイニングがその現れでしょう。 従来のメインが「仮説検証型データ分析」で、それを進化さえたような感じを与えるようなモノでした。...
データ活用をするとき、「見える化」というキーワードが多々出てきます。 取り急ぎ「見える化」するためにデータを集めよう DX(デジタルトランスフォーメーション)の初手として「見える化」から始めましょう データ環境を整備し「...
各報道機関の選挙速報で、よく開票率が数%なのに当確(当選確実)が出ることがあります。 データサイエンスっぽいアプローチとしては…… 出口調査を利用したもの 中間投票状況(開票率○○%)の結果を利用したもの ……を利用した...
営業活動やマーケティング活動にとって、顧客の離反対策は重要課題の1つでしょう。 顧客の離反などのイベントが発生するまでの期間を扱う分析手法があります。 生存時間分析(survival time analysis)というも...