2024年9月19日木曜日

四分位数

午前
・ハンミョウ調査

午後
・資料作成
・論文書き

論文用に箱ヒゲ図をチェックしている最中にビックリしたこと。

例えば、「4,5,11,23,27,44,75,87,90,100」で箱ヒゲ図を描き、プロットを載せると下記のような図になる。
ちなみにコマンドは以下の通り。
a <- c(4,5,11,23,27,44,75,87,90,100)
b <- rep("B", 10)
ab <- data.frame(a,b)

ggplot(data=ab, aes(x=b, y=a)) +
  geom_boxplot() +
  geom_point(size=5, col="red")
データ数が10個なので、中央値は下(or上)から5番目と6番目の値の平均値となる。

上記のデータでは「27, 44」の平均値で「35.5」となる。図から正確な数値は読み取れないが、中央値の線が点と点の真ん中にあることから、この考えが正しいことは分かる。

で、問題は第1四分位数と第3四分位数である。第1四分位数は下から数えて25%、第3四分位数は75%となるデータである。

データが偶数の場合は、半分に分けて、それぞれの真ん中の値が、それらに当たる。
この考えに基づくと、データが偶数で「箱ヒゲ図+プロット」を描くと、箱の下線と上線にプロットが重なるはずである、、、が重なっていない。

昨夜、投稿用の図を眺めていて、このことに気づいてヒヤっとした。何かミスがある〜、と。

ただ、summary()で四分位数を算出すると、図の値と一致している感じ。私の認識が間違っているのか?
> summary(ab)
       a              b            
 Min.   :  4.0   Length:10         
 1st Qu.: 14.0   Class :character  
 Median : 35.5   Mode  :character  
 Mean   : 46.6                     
 3rd Qu.: 84.0                     
 Max.   :100.0    
答えを教えてくれるサイトがありました。「四分位数の違いについて~みんなちがってみんないい~」さん、ありがとうございます。

四分位数には、複数の考え方があるそうです。

私の認識は「文部科学省推奨の定義」だった。文部科学省の指導要領の下で勉強してきた成果か。

で、サイトに「ExcelやRで使われる、“計算機タイプの四分位数”」と書かれていました。

概念は分かりにくいのだが、大量のデータに対して効率よく計算できる仕組みだそうです。計算方法は下記サイトに書かれています。計算方法自体は簡単です。

参考にしたサイト
四分位数の違いについて~みんなちがってみんないい~