機械学習モデルを本番環境で運用していると、ある日突然「予測精度が急落した」「思ったように結果が出ない」といった問題に直面することがあります。 これらの症状はしばしばデータドリフトと呼ばれる、訓練時と本番時におけるデータ分...
Pandas が登場してから Python はデータ分析の事実上の標準言語になりました。 しかし、データ量が数千万行を超えると途端に RAM が足りない・処理が遅い という現実にぶつかります。 クラスタ環境に逃げる選択肢...
Pythonでのデータサイエンスや開発を効率的に行うためには、適切な環境構築が欠かせません。 Miniforgeは、Conda環境をシンプルかつ軽量に提供してくれるツールであり、特に余計なパッケージを省いた環境を構築した...
Conformal Prediction とは、特定のモデルに依存せず、あらゆる機械学習モデルに対して予測区間を提供する手法です。 従来の統計モデル(例:線形回帰モデル)では、ある程度の確率分布(多くの場合は正規分布など...
機械学習の世界では、予測の精度を高めるだけでなく、その予測がどの程度信頼できるかを示す「不確実性の評価」がますます重要視されています。 そこで近年注目を集めているのが、学習データから得られる非適合性スコアを用いて、各予測...
機械学習のモデルの予測値の多くは、「点」です。要は、ある数値の1点ということです。 1点予測は分かりやすいですが、現代の機械学習では、単なる点予測に加え、予測区間を用いた不確実性の評価が求められています。 今回は、Ind...
時系列データの予測モデルでは、一般的な回帰や分類タスクとは異なる点が多々あります。 例えば、将来のデータは現在手元にないため、データの分割や評価に注意を払わなければなりません。 例えば、ランダムにデータをシャッフルして分...
私たちの周りには、時間とともに変化するデータであふれています。 毎日の気温、株価の変動、心電図の波形など、これらはすべて時系列データと呼ばれ、私たちの生活や社会活動に深く関わっています。 今回は、そんな時系列データを「分...
データにあふれた現代において、情報を正確に理解し、効果的に伝えることは、あらゆる分野で重要性を増しています。膨大なデータの山から意味を見出し、価値を引き出すためには、データ可視化が欠かせません。 データ可視化とは、データ...
時系列データ分析は、特定の期間における変化を捉え、将来の動向を予測するための重要な手法です。 前回の記事では、mlforecastライブラリを使用して基本的な時系列予測モデルを構築する方法と、モデル性能を向上させるための...