python pandasでDataFrameの列の中央値を計算する

python pandasでDataFrameの列の中央値を計算する

pythonで、ライブラリpandasのmedianを使用して、DataFrameの列の中央値を計算するサンプルコードを記述してます。pythonのバージョンは3.8.5を使用してます。

環境

  • OS windows10 pro 64bit
  • python 3.8.5

pandasインストール

pandasをインストールされていない方は、pipでインストールしておきます。

pip install pandas

# numpyも使用するのでインストールしておきます
pip install numpy

median使い方

medianを使用すると、DataFrameの列の中央値(小さい順に並び替えた際に中央に位置する値)を求めることが可能です。

import pandas as pd

DataFrame['列名'].median()

以下は、ランダムな値で生成した3行5列のDataFrameの列の中央値を求めるサンプルコードとなります。

import numpy as np
import pandas as pd

df = pd.DataFrame(
    np.random.randint(1,10,size=(5, 3)),
    columns=list('123'))

print(df)

#    1  2  3
# 0  1  2  6
# 1  4  3  7
# 2  8  9  8
# 3  5  3  4
# 4  4  8  7

m = df['1'].median()
print ("列1 中央値:",m)
# 列1 中央値: 4.0

m = df['2'].median()
print ("列2 中央値:",m)
# 列2 中央値: 3.0

m = df['3'].median()
print ("列3 中央値:",m)
# 列3 中央値: 7.0