Pandasを150倍速く動かす1行コード%load_ext cudf.pandas

Pandasを150倍速く動かす1行コード%load_ext cudf.pandas

Pandasは、データ分析にPythonを使うデータサイエンティストにとって、最もよく使われているツールの1つです。

GPU データフレームのライブラリーの1つに、pandasライクなRAPIDS cuDF(cuda based Dataframes)というものがあります。

v23.10から、cuDFはpandasアクセラレータモードを提供するようになりました。

このことによって、%load_ext cudf.pandasをjupyterノートブックに追加するだけで、Pandasを150倍速く動かすことができます。

GPUが利用可能な場合、データ操作を高速化します。GPUが利用できない場合、CPUにフォールバックし高速化の程度が弱くなります。

RAPIDSのインストール

以下から、インストールするためのコードを取得できます。

今現在(2023年11月16日現在)、pipでインストールするときのコードは以下です。

pip install cudf-cu11 --extra-index-url=https://pypi.nvidia.com

 

Jupyterで使う場合

Notebookに、以下のように%load_ext cudf.pandasを記述するだけです。

%load_ext cudf.pandas
import pandas as pd

 

おまけ:Google Colab.の無料GPU環境

無料のGPU環境で試してみたい方は、Google Colab.(https://colab.research.google.com/)で試せます。Googleアカウントが必要です。

Google Colab.を開いたら、Notebookを作成(もしくは開く)します。

Google Colab.のメニューの[ランタイム]から[ランタイムのタイプを変更]を選択します。

 

[ランタイムのタイプを変更]が表示されたら、[T4 GPU]を選択し[保存]をクリックします。

 

以上です。