scikit-learnのモデルをOptunaでCV(クロスバリデーション)を実施する方法は2種類あります。 良し悪しを判断するメトリクスにscikit-learnのCVを指定する方法 OptunaのCV関数(Optun...
生存時間分析とは…… 生物の死 顧客の離反 機械システムの故障 ……など、あるイベント(例:死、離反、故障など)が発生するまでの時間(期間)を推測するための統計学的なデータサイエンス技術です。 ここでは、顧客の離反までの...
離反時期や故障時期などを分析する生存時間分析を実施する手段は色々ありますが、生存時間用のライブラリーを活用するのがいいでしょう。 今回利用するのは、LifelinesというPythonのライブラリーです。 生存時間分析ラ...
生存時間分析とは…… 生物の死 顧客の離反 機械システムの故障 ……など、あるイベント(例:死、離反、故障など)が発生するまでの時間(期間)を推測するための統計学的なデータサイエンス技術です。 詳細というか概要を以下の記...
機械学習などの数理モデルには、通常幾つかのハイパーパラメータがあり、そのハイパーパラメータの設定次第で大きく精度が変わります。 このハイパーパラメータを調整し最適な設定を探すタスクを、ハイパーパラメータチューニングと言い...
機械学習などの数理モデルには、通常幾つかのハイパーパラメータがあり、そのハイパーパラメータの設定次第で大きく精度が変わります。 このハイパーパラメータを調整し最適な設定を探すタスクを、ハイパーパラメータチューニングと言い...
売上などのビジネス系のデータの多くは、時間概念が紐付いた時系列データです。 時間概念を取っ払ったテーブルデータと異なり、時系列データは、過去の値に大きく依存する、という特徴があります。そのため、一工夫必要になります。例え...
最近色々な自動機械学習 AutoML(Automated Machine Learning)が登場しています。TPOT、MLBox、Auto-Sklearnなどの様々なAutoML(自動機械学習)Pythonライブラリー...
最近色々な自動機械学習 AutoML(Automated Machine Learning)が登場しています。 AutoML(自動機械学習)は、機械学習パイプライン(データセット→特徴量エンジニアリング→学習→評価など)...
クラスター分析で利用されるメジャーなアルゴリズムは、非階層型クラスタリングのk-means法か、階層型のWard法がよく使われます。 問題は、量的データ(数値変数)のみを使うというところにあります。質的データ(カテゴリカ...