データ分析の方法:ピボットテーブルのすゝめ
データ分析の基本用語である「仮説」「検証」は難しい話ではありません。例えば、「結果Bには原因Aが影響している」とのABの関係(仮説)についての自分の疑問をたてて、その関係をデータで確認(検証)するのがデータ分析です。
データ分析ではよくクロス集計(Microsoft Excelなどでは「ピボットテーブル」と呼ばれます)が用いられます。これを用いて「データ分析」を考えてみましょう。
クロス集計表だけがあるとき
ここでは、平成31年の京都市民の政治意識調査(報告書はこのWebにあります)の巻末に掲載されている資料(データ)を使って、仮説の検証をやってみます。ここに掲載されているのは、すでにクロス集計されたものです。
Chromebook(上の、Google スプレッドシート)あるいは Excel を使って、調査報告書の既存のクロス集計を加工し、関連を確かめる方法はこちら
補足
Google スプレッドシート や Microsoft Excel には、グラフ作成までが簡単にできるという利点がありますが、簡単なクロス表の分析だけならば手書きでも完了できます。
さて、上の調査報告書の既存のクロス集計を加工し、関連を確かめる方法では、表の形を維持して計算しやすくするため、性別や年齢層を左(行方向)に置きましたが、クロス表分析では、左(行方向)に結果B、上(列方向)に原因Aを置く場合が多いです。せっかく手書きなので、そのようにしてみましょう。
使用データ:平成31(2019)年調査報告書の質問票の問1-1
たとえば、「性別によって土木施策の行政サービスへの期待には違いがある」という仮説(性別→土木)の検証の場合は列方向に原因(性別)を置きます。平成31年のデータではこのようになります。
クロス表では人数を頻度と呼び、原因(ここでは性別)と結果(ここでは土木施策への期待)とをこのように配置したクロス表では横に頻度が100%になるように計算します。
このクロス表分析での検証は、横100%での縦のパーセント差に注目します。男性では51.0%-41.5%=9.5%、女性では49.0%-58.5%=−9.5%です(2×2のクロス表では両者の数値は一致します)。
したがって、この例での仮説「性別によって土木施策の行政サービスへの期待には違いがある」の検証については、クロス表分析の結果、パーセント差9.5で、男性のほうが女性よりも土木施策の行政サービスに期待する傾向があるということです。
そして、その先へ:時系列の変化
例として使ったのは平成31(2019)年調査ですが、その次の令和5(2023)年調査や、あるいはその前の平成27(2015)年調査にも、「力を入れてほしい行政サービス」の質問があります。同じ分析をすると時系列(年の推移)で比較できます。
他にも政府と国民の関係についてなど、共通した質問はたくさんあるので、ぜひ変化を追ってみてください。
性別だけでなく、年齢層でみても面白いかもしれません。たとえば2015年に30代だった世代の多くは2023年には40代に、40代だった人たちは50代になっているはずです。同じ人を調査しているわけではありませんが、加齢に伴って(=年をとって)その世代の人たちの考え方に何か変化があったかもしれませんよ。
もし、手元に、クロス集計表を作る前のデータ(素データ、と呼んだり、個票データと呼んだりします)があるのなら、もっと柔軟な分析ができます。
たとえば、報告書巻末のクロス表では年齢が10歳刻みの「x0代」としてまとめられていますが、実際には10歳刻みではなく「満年令で何歳か」をたずねています。また、巻末のクロス表にはないクロス表を自分で作ることもできます。
分析前のデータがあるとき
Chromebook(上の、Google スプレッドシート)あるいは Excel でのピボットテーブルを使って、個票データからクロス表分析する方法はこちら