・ハンミョウ調査
午後
・資料作成
・論文書き
論文用に箱ヒゲ図をチェックしている最中にビックリしたこと。
例えば、「4,5,11,23,27,44,75,87,90,100」で箱ヒゲ図を描き、プロットを載せると下記のような図になる。 ちなみにコマンドは以下の通り。
a <- c(4,5,11,23,27,44,75,87,90,100) b <- rep("B", 10) ab <- data.frame(a,b) ggplot(data=ab, aes(x=b, y=a)) + geom_boxplot() + geom_point(size=5, col="red")データ数が10個なので、中央値は下(or上)から5番目と6番目の値の平均値となる。
上記のデータでは「27, 44」の平均値で「35.5」となる。図から正確な数値は読み取れないが、中央値の線が点と点の真ん中にあることから、この考えが正しいことは分かる。
で、問題は第1四分位数と第3四分位数である。第1四分位数は下から数えて25%、第3四分位数は75%となるデータである。
データが偶数の場合は、半分に分けて、それぞれの真ん中の値が、それらに当たる。 この考えに基づくと、データが偶数で「箱ヒゲ図+プロット」を描くと、箱の下線と上線にプロットが重なるはずである、、、が重なっていない。
昨夜、投稿用の図を眺めていて、このことに気づいてヒヤっとした。何かミスがある〜、と。
ただ、summary()で四分位数を算出すると、図の値と一致している感じ。私の認識が間違っているのか?
> summary(ab) a b Min. : 4.0 Length:10 1st Qu.: 14.0 Class :character Median : 35.5 Mode :character Mean : 46.6 3rd Qu.: 84.0 Max. :100.0答えを教えてくれるサイトがありました。「四分位数の違いについて~みんなちがってみんないい~」さん、ありがとうございます。
四分位数には、複数の考え方があるそうです。
私の認識は「文部科学省推奨の定義」だった。文部科学省の指導要領の下で勉強してきた成果か。
で、サイトに「ExcelやRで使われる、“計算機タイプの四分位数”」と書かれていました。
概念は分かりにくいのだが、大量のデータに対して効率よく計算できる仕組みだそうです。計算方法は下記サイトに書かれています。計算方法自体は簡単です。
参考にしたサイト
四分位数の違いについて~みんなちがってみんないい~