箱ひげ図の定義は一つではない？

160217_00

　以前別サイトに書いていたものを少し修正したものです.

　※スマホで閲覧される方は, 横向き画面をおすすめします.

[Contents]

箱ひげ図とは
各指標の定義
四分位数
定義ごとの違い
実験
検定教科書とExcelで異なるという事実
〆

箱ひげ図とは

　箱ひげ図とは, 統計学の標本調査で用いられる指標の一つであり, 主に

最小値
第一四分位数
中央値(メジアン, 第二四分位数)
第三四分位数
最大値

の5つの指標を視覚的に評価するために用いられます.

　こんな風に描かれ, 中央が「箱」, そして上下に「ひげ(髭)」が伸びているいるように見えることから箱ひげ図と呼ばれますね.

　箱ひげの大ざっぱな書き方は同じで

上にある「ひげ」の上端が最大値
「箱」の上端が第三四分位数
「箱」の下端が第一四分位数
下にある「ひげ」の下端が最小値

であり, 中央値は場合によって書かれたり書かれなかったりですが, 書く場合は箱内部に横線を引きます(記事トップ画像のような感じ).

　細かい書き方も特に厳しいきまりがあるわけではありません, 記事トップのようなシンプルなものから, Googleスプレッドシートのように箱内部を塗りつぶしたりと色々です.

　最大値, 最小値の部分に横線を加えるかどうかも違いますね, あった方が分かりやすいと思いますが, 目的次第でしょうね.

各指標の定義

　最大値, 最小値, 中央値は簡単ですね.

最大値

　標本の要素のうち, 最も小さくない要素のことです.

　なぜここで「最も大きい」としないかは, 例えば標本が 1, ,2, 3, 3 の場合, 3と3は"等しい"を除いた大小の比較ができないからです.

最小値

　最大値と同様, 標本の要素のうち, 最も大きくない要素のことです.

中央値

　標本を大きい順, または小さい順に並べたとき, ちょうど真ん中に来る要素のことです.

　中央値はメジアン, 或いは第二四分位数と呼ばれることもあります.

　例えば標本が 1, 2, 4, 5, 5の場合, 標本数は5なので中央値は3番目の4になります.

　しかし例えば標本数が偶数だと, 真ん中の要素…を考えることができません.

　この場合は前後の要素の相加平均を中央値とします.

　例えば標本が 1, 2, 4, 5 の4つの場合, 2つ目と3つ目の要素である2, 4の相加平均である

$\frac{2+4}{2}=3$

が中央値になります.

四分位数

　データ解析の分野で高校数学にも採用されるようになった箱ひげ図ですが, それに欠かせない指標がそもそもこの四分位数です.

　おおまかに言えば標本の分布を4分割するための, その値が四分位数になります.

　記号としては小さい方から順に ${ Q_{1}, Q_{2}, Q_{3} }$ と書き表します.

　問題はその定義が一通りでない…ということですね, 順に紹介しましょう.

　因みにいづれの場合も第二四分位数 $Q_{2}$ は中央値で一致しているため, 第一, 第三四分位数 $Q_{1}, Q_{3}$ のみ記述します.

　また標本数は $n$ とし, 標本が小さい順に

$x_{1}, x_{2}, x_{3}, ..., x_{n}$

という風に与えられているとします.

　また $\lfloor x\rfloor$ は床関数, $\lceil x\rceil$ は天井関数です.

　床関数は日本国内ではしばしば「ガウス記号」と呼ばれ, $[ x]$ と書き表しますが後述するように天井関数に触れる部分があるので今回は床関数を採用します.

四分位数からわかること

　こういったものを考えるのですから, 計算して意味があるということです.

　定義の前に簡単に説明すると

$Q_{3}-Q_{1}$ の値はデータの散らばり具合を表しているひとつの指標である
$Q_{3}-Q_{1}$ の値が大きければ大きいほど, データの散らばり具合が大きいと言える
$Q_{3}-Q_{1}$ は四分位範囲と呼ばれ, データの散らばり具合を表す数値としてより適している

[参考]日本評論社「数学セミナー2013年1月号　『数学I』の四分位数・箱ひげ図に悩む　何森仁」

定義A : 検定教科書

　ちょっと古いですが2013年度の時点で調べたものです.

(nが偶数のとき)

　 $Q_{2}$ で分割された標本2グループそれぞれの中央値が, 小さい方から順に $Q_{1}, Q_{3}$ と定められます.

(nが奇数のとき)

　 $Q_{2}$ を除外して分割した標本2グループそれぞれの中央値が, 小さい方から順に $Q_{1}, Q_{3}$ と定められます.

定義B : Webio辞書より

　 $Q_{1} = x_{f},　但し　f := \lfloor\frac{n}{4}\rfloor$

　 $Q_{3} = x_{t},　但し　t := n-f+1$

定義C

　質問サイト「OK WAVE」で見つけたものですが出自は不明.

　 $\lfloor\frac{kn}{4}\rfloor　(k=1, 2, 3)$ が整数　⇒　 $Q_{k}:=\frac{x_{\frac{kn}{4}}+x_{\frac{kn}{4}+1}}{2}$

　 $\lfloor\frac{kn}{4}\rfloor　(k=1, 2, 3)$ が整数でない　⇒　 $Q_{k}:=x_{\lfloor\frac{kn}{4}+1\rfloor}$

定義D : 内分点による定義1

　Microsoft Excelで使われ, Wikipediaでも紹介されている定義です.

　 $m_{1}:=\frac{n+3}{4},　m_{2}:=\frac{n+1}{2},　m_{3}:=\frac{3n+1}{4}$

として内分点 $m_{i} (i=1, 2, 3)$ を定義し,

　 $m_{i}$ が整数　⇒　 $Q_{i} := x_{m_{i}}$

　 $m_{i}$ が整数でない　⇒　 $Q_{i} := (H-m_{i})x_{L}+(m_{i}-L)x_{H}$

$(但し, L := \lfloor m_{i}\rfloor,　H := \lceil m_{i}\rceil)$

と定義します.

定義E : 内分点による定義2

　定義Dと同じ内分点を用いますが, $Q_{i}$ の定義が異なります.

$(m_{i}が整数の場合)$

　定義Dと同じです.

$(m_{i}が整数でない場合)$

　 $Q_{i}$ は $m_{i}$ 番の前後の標本による相加平均になります.

定義ごとの違い

　これらすべてを比較するには, 標本数を4で割った余りで分類するのが都合がよいです.

　実際に分類してみると以下のようになります.

n = 4k型

	A	B	C	D	E
$Q_{1}$	$\frac{x_{\frac{n}{4}}+x_{\frac{n}{4}+1}}{2}$	$x_{\frac{n}{4}}$	$\frac{x_{\frac{n}{4}}+x_{\frac{n}{4}+1}}{2}$	$\frac{x_{\frac{n}{4}}+3x_{\frac{n}{4}+1}}{4}$	$\frac{x_{\frac{n}{4}}+x_{\frac{n}{4}+1}}{2}$
$Q_{2}$	$\frac{x_{\frac{n}{2}}+x_{\frac{n}{2}+1}}{2}$	$\frac{x_{\frac{n}{2}}+x_{\frac{n}{2}+1}}{2}$	$\frac{x_{\frac{n}{2}}+x_{\frac{n}{2}+1}}{2}$	$\frac{x_{\frac{n}{2}}+x_{\frac{n}{2}+1}}{2}$	$\frac{x_{\frac{n}{2}}+x_{\frac{n}{2}+1}}{2}$
$Q_{3}$	$\frac{x_{\frac{3n}{4}}+x_{\frac{3n}{4}+1}}{2}$	$x_{\frac{3n}{4}+1}$	$\frac{x_{\frac{3n}{4}}+x_{\frac{3n}{4}+1}}{2}$	$\frac{x_{\frac{3n}{4}}+x_{\frac{3n}{4}+1}}{2}$	$\frac{x_{\frac{3n}{4}}+x_{\frac{3n}{4}+1}}{2}$

n = 4k+1型

	A	B	C	D	E
$Q_{1}$	$\frac{x_{\frac{n-1}{4}}+x_{\frac{n-1}{4}+1}}{2}$	$x_{\frac{n-1}{4}}$	$x_{\frac{n-1}{4}+1}$	$x_{\frac{n-1}{4}+1}$	$x_{\frac{n-1}{4}+1}$
$Q_{2}$	$x_{\frac{n+1}{2}}$	$x_{\frac{n+1}{2}}$	$x_{\frac{n+1}{2}}$	$x_{\frac{n+1}{2}}$	$x_{\frac{n+1}{2}}$
$Q_{3}$	$\frac{x_{\frac{3n+1}{4}}+x_{\frac{3n+1}{4}+1}}{2}$	$x_{\frac{3n+1}{4}+1}$	$x_{\frac{3n+1}{4}}$	$x_{\frac{3n+1}{4}}$	$x_{\frac{3n+1}{4}}$

n = 4k+2型

	A	B	C	D	E
$Q_{1}$	$x_{\frac{n+2}{4}}$	$x_{\frac{n+2}{4}-1}$	$x_{\frac{n+2}{4}}$	$\frac{3x_{\frac{n+2}{4}}+x_{\frac{n+2}{4}+1}}{4}$	$\frac{x_{\frac{n+2}{4}}+x_{\frac{n+2}{4}+1}}{2}$
$Q_{2}$	$\frac{x_{\frac{n}{2}}+x_{\frac{n}{2}+1}}{2}$	$\frac{x_{\frac{n}{2}}+x_{\frac{n}{2}+1}}{2}$	$\frac{x_{\frac{n}{2}}+x_{\frac{n}{2}+1}}{2}$	$\frac{x_{\frac{n}{2}}+x_{\frac{n}{2}+1}}{2}$	$\frac{x_{\frac{n}{2}}+x_{\frac{n}{2}+1}}{2}$
$Q_{3}$	$x_{\frac{3n+2}{4}}$	$x_{\frac{3n+2}{4}+1}$	$x_{\frac{3n+2}{4}}$	$\frac{x_{\frac{3n+2}{4}-1}+3x_{\frac{3n+2}{4}}}{4}$	$\frac{x_{\frac{3n+2}{4}-1}+3x_{\frac{3n+2}{4}}}{4}$

n = 4k+3型

	A	B	C	D	E
$Q_{1}$	$x_{\frac{n+1}{4}}$	$x_{\frac{n+1}{4}-1}$	$x_{\frac{n+1}{4}}$	$\frac{x_{\frac{n+1}{4}}+x_{\frac{n+1}{4}+1}}{2}$	$\frac{x_{\frac{n+1}{4}}+x_{\frac{n+1}{4}+1}}{2}$
$Q_{2}$	$x_{\frac{n+1}{2}}$	$x_{\frac{n+1}{2}}$	$x_{\frac{n+1}{2}}$	$x_{\frac{n+1}{2}}$	$x_{\frac{n+1}{2}}$
$Q_{3}$	$x_{\frac{3n+3}{4}}$	$x_{\frac{3n+3}{4}+1}$	$x_{\frac{3n+3}{4}}$	$\frac{x_{\frac{3n+3}{4}-1}+x_{\frac{3n+3}{4}}}{2}$	$\frac{x_{\frac{3n+3}{4}-1}+x_{\frac{3n+3}{4}}}{2}$