R二乗は、回帰モデルにおいて独立変数や変数群によって説明される従属変数の分散の割合を表す統計的指標です。値は0から1の範囲で、モデルの適合度を示します。
R二乗の理解
定義と解釈
- 値の範囲: R二乗の値は0から1までです。
- 解釈:
- R二乗が0の場合、モデルは応答データの平均周りの変動性を全く説明していないことを意味します。
- R二乗が1の場合、モデルは応答データの平均周りの変動性を全て説明していることを示します。
- 1に近い値はより良い適合を示し、0に近い値は悪い適合を示します。
R二乗の計算
R二乗は次の式を使用して計算できます:
R² = 1 – (SSres / SStot)
- SSres: 残差の二乗和(観測値と予測値の差)。
- SStot: 総二乗和(観測データの分散)。
R二乗の例
勉強した時間と試験で得られたスコアの関係を分析したい単純線形回帰分析を考えてみましょう。
- 次のデータがあると仮定します:
- 勉強した時間: [1, 2, 3, 4, 5]
- 得られたスコア: [50, 55, 65, 70, 80]
- 線形回帰モデルがモデルを用いて予測スコアを与えると仮定します。
- 残差の二乗和 (SSres) は次のように計算されるかもしれません:
– 予測スコア: [52, 57, 62, 67, 72] – 残差: [50-52, 55-57, 65-62, 70-67, 80-72] = [-2, -2, 3, 3, 8] – SSres = (-2)² + (-2)² + (3)² + (3)² + (8)² = 4 + 4 + 9 + 9 + 64 = 90 - 総二乗和 (SStot) は次のように計算されます:
– 平均スコア = (50 + 55 + 65 + 70 + 80) / 5 = 62
– SStot = (50-62)² + (55-62)² + (65-62)² + (70-62)² + (80-62)² = 144 + 49 + 9 + 64 + 324 = 590 - R二乗の式に値を代入すると:
R² = 1 – (90 / 590) ≈ 0.846
これは、試験スコアの変動性の約84.6%が勉強した時間によって説明でき、両変数間に強い関係があることを示しています。