データの分布状態を調べる方法の一つは、基本統計量を使って数値的に把握することです。
基本統計量は要約統計量や記述統計量とも呼ばれ、データの基本的な特徴を理解するのに役立つ情報です。
Excelの「データ分析」機能を使って、これらの基本統計量を簡単に取得できるので、さっそく見ていきましょう。
Excelの「データ分析」機能
「データ」タブの中から「データ分析」を開きます。
データタブにデータ分析が見つからない場合は、次の順でアドインします。
「ファイル」⇒「オプション」⇒「アドイン」⇒「設定」⇒分析ツールにチェック
基本統計量
「データ分析」を開いたら基本統計量を選択します。
5段階評価のような順序尺度のデータは、数量データとして扱うのは適切ではないとされていますが、数量データとみなして統計処理を行うこともよく行われます。
ここでは、R3年からR5年までの3か年の「蔵書の満足度」のデータについて、基本統計量をまとめて取得してみましょう。
結果は以下のとおりです。重複する項目列は削除しています。
尖度と歪度
尖度(せんど)と歪度(わいど)は、データの分布の形状を教えてくれる便利な指標です。
尖度は、データがどれくらいとがっているかを教えてくれます。尖度が正の値の場合は尖った形状を示し、負の値の場合はより平らな形状を示します。
一方、歪度は分布の偏りを示すもので、歪度が正の値の場合は裾野が正の方向に広がっていることを示し、負の値の場合は裾野が負の方向に流れていることを示します。
R3~R5の3年間の満足度評価の集計結果は次の通りでした。
これらの評価の分布を、下の図でわかりやすく示してみました。曲線はイメージですが、尖度や歪度の値と分布の形状との関係が少しわかってきたでしょうか。
特に、基本統計量の歪度の値から見ると、分布が「満足」の方向にどんどん傾いていく様子が感じられるかもしれません。
※正規分布については別途説明します。
次回は、平均、分散、標準偏差についてです。