Pandasは、データ分析にPythonを使うデータサイエンティストにとって、最もよく使われているツールの1つです。
GPU データフレームのライブラリーの1つに、pandasライクなRAPIDS cuDF(cuda based Dataframes)というものがあります。
v23.10から、cuDFはpandasアクセラレータモードを提供するようになりました。
このことによって、%load_ext cudf.pandas
をjupyterノートブックに追加するだけで、Pandasを150倍速く動かすことができます。
GPUが利用可能な場合、データ操作を高速化します。GPUが利用できない場合、CPUにフォールバックし高速化の程度が弱くなります。
RAPIDSのインストール
以下から、インストールするためのコードを取得できます。
今現在(2023年11月16日現在)、pipでインストールするときのコードは以下です。
pip install cudf-cu11 --extra-index-url=https://pypi.nvidia.com
Jupyterで使う場合
Notebookに、以下のように%load_ext cudf.pandas
を記述するだけです。
%load_ext cudf.pandas import pandas as pd
おまけ:Google Colab.の無料GPU環境
無料のGPU環境で試してみたい方は、Google Colab.(https://colab.research.google.com/)で試せます。Googleアカウントが必要です。
Google Colab.を開いたら、Notebookを作成(もしくは開く)します。
Google Colab.のメニューの[ランタイム]から[ランタイムのタイプを変更]を選択します。
[ランタイムのタイプを変更]が表示されたら、[T4 GPU]を選択し[保存]をクリックします。
以上です。