|
・「R with Excel」(※Excelでの操作については省略) ・「R with Excel」(続き) ・「R with Excel」(続き)
(約5000字)
[4458]の続きです。
・「Rと重回帰分析」
https://www1.doshisha.ac.jp/~mjin/R/Chap_15/15.html
> 特別な説明がない限り、一般的には線形重回帰分析を略して重回帰分析と言う。
> データの変数間の関係を考察するため、相関行列と対散布図を求める。
ここまでを[4458]で行ないました。
> 相関係数と対散布図からわかるように、体重と身長、体重とウエストの間には強い線形的相関がある。また、身長とウエストの相関係数が約0.59で、相関関係が見られる。
今回のわたしたちが見ていくデータセットでは、どうだったでしょうか。相関係数だけで言っていいのであれば、まあ…(てんてんてん)。かくかくしかじかして、えいやっと、その、こうですか、えー(しばらくお待ちください)以下のようなデータセットになってございます。このまま「lm()」できるでありますか。本当でしょうか。(※半信半疑)
・今回のデータセット
人口 | 住宅 | 農業 | 工業 | 商業 | 文化 | 24810 | 40371.8 | 933.5 | 2100.3 | 78176.5 | 10268.0 | 246 | 2902.9 | 426.1 | 2250.4 | 3728.5 | 1052.0 | 5951 | 15719.1 | 1088.2 | 1813.7 | 58523.3 | 3385.6 | 22160 | 25482.1 | 289.6 | 17374.1 | 32431.7 | 21862.5 | 2609 | 3713.0 | 380.8 | 22373.1 | 23706.0 | 11234.1 | 50592 | 37202.4 | 0.0 | 1138.8 | 140078.4 | 42137.4 | 29017 | 13321.2 | 261.2 | 20765.4 | 20765.4 | 29384.9 | 30384 | 2111.1 | 124.2 | 372.5 | 2111.1 | 55322.2 | 10576 | 12467.6 | 525.0 | 9974.1 | 34646.9 | 15092.4 | 152624 | 82263.4 | 734.5 | 71246.0 | 163057.9 | 108705.2 | 5387 | 6629.7 | 0.0 | 3314.9 | 78728.1 | 21132.3 | 925 | 2473.8 | 2233.3 | 1168.2 | 8967.4 | 10513.5 |
ほんとうのほんとうに、このまま「lm()」できるですか。本当でありましょうか。(※半信半疑)
■「R with Excel」(※Excelでの操作については省略)Excelからコピーしたデータを Rに取り込み | mypop12=read.table("clipboard",h=0) | いきなり重回帰分析 | (mylmpop12 <- lm(V1~., data=mypop12)) summary(mylmpop12) |
> Coefficients:
> (Intercept) V2 V3 V4 V5 V6
> -1.274e+04 7.404e-01 1.885e+00 2.501e-01 9.847e-04 7.718e-01
なんかデター。…データだけに。(違)
> Residuals:
> Min 1Q Median 3Q Max
> -5758.9 -2458.9 -932.6 2123.3 8658.3
> (Intercept) -1.274e+04 3.144e+03 -4.053 0.006700 **
> V2 7.404e-01 1.895e-01 3.907 0.007915 **
> V3 1.885e+00 2.792e+00 0.675 0.524756
> V4 2.501e-01 1.452e-01 1.723 0.135703
> V5 9.847e-04 6.674e-02 0.015 0.988706
> V6 7.718e-01 9.379e-02 8.228 0.000174 ***
> Residual standard error: 5262 on 6 degrees of freedom
> Multiple R-squared: 0.9915, Adjusted R-squared: 0.9844
> F-statistic: 140 on 5 and 6 DF, p-value: 3.991e-06
うーん。…うーん!(※悲鳴)このフォーラムのシステムの都合でうまく表示できない行は省略しています。
・「決定係数(Multiple R-Squared)」は「0.9915」
・「調整済みの決定係数(Adjusted R-squared)」は「0.9844」
ほぅ。(※ちょっといい気になったみたいな顔で。)だって、ゲームの中で絶対かつ単純なルールで動いたはずの数字を観察したのだもの。丸め誤差がなければ「1」になったはず。
■「R with Excel」(続き)回帰診断図を描く | par(mfrow=c(2,2),oma = c(1,1,2,1),mar = c(4, 4, 2, 1)) plot(mylmpop12,pch=21,bg=2,col=2,cex=1.5) |
https://neorail.jp/forum/uploads/r_power_desu_lm_plot.png
これが「回帰診断図」といふものですか@初めて見ました。
> Cook の距離と残差の散布図から個体1の影響が大きいことが読み取られる。実際の問題について本格的に分析行う際には、このような個体の影響について詳細に分析行うことが必要である。
4つ描かれたうちの右下のプロットですな。(※恐縮です。)これに倣うと、個体(データ点)「6」「8」「10」がどうたらといっているけれど、この中でどれがいちばんとか、見てもぜんぜんわからない。
「6」「8」「10」が何であるかというと、順に「おどる広告都市」「空港連絡線は続くよ」「砂浜とウォーターフロント」でした。…ほぅ。なるほど極端っぽいやつですな。しかし「砂浜とウォーターフロント」を除外してやり直したほうがいいのか。そうするともっとわるくなるのでは…(てんてんてん)。
■「R with Excel」(続き)散布図行列を描く | pairs(mypop12,panel=panel.smooth,mypop12) |
https://neorail.jp/forum/uploads/r_power_desu_pairs_smooth.png
うーん。上に戻ります。
> V2 0.007915 **
> V6 0.000174 ***
変数選択するならV6、V2の順だよとおっしゃっておられた。V6とは「文化」で、V2とは「住宅」である。わあぃ『文化住宅』。(※ソコジャナイ。)「空港連絡線は続くよ」のデータがわるさをしているに違いない。えー…(てんてんてん)。
ステップ | mylmsteppop12 <- step(mylmpop12) |
> Start: AIC=209.32
> V2 + V3 + V4 + V5 + V6
> Step: AIC=207.32
> V2 + V3 + V4 + V6
> Step: AIC=206.26
> V2 + V4 + V6
うーん。V5とV3を抜くといいんですって。えー…(てんてんてん)。V4は「工業」である。それは納得。
サマリー | summary(mylmsteppop12) |
> Residuals:
> Min 1Q Median 3Q Max
> -6559.7 -2593.0 236.1 2359.6 8133.5
> Coefficients:
> (Intercept) -1.145e+04 1.963e+03 -5.833 0.00039 ***
> V2 7.544e-01 9.743e-02 7.743 5.52e-05 ***
> V4 2.596e-01 1.198e-01 2.166 0.06216 .
> V6 7.519e-01 8.000e-02 9.399 1.35e-05 ***
> Residual standard error: 4739 on 8 degrees of freedom
> Multiple R-squared: 0.9908, Adjusted R-squared: 0.9874
> F-statistic: 287.4 on 3 and 8 DF, p-value: 1.752e-08
ほぅ。「決定係数(Multiple R-Squared)」は「0.9908」で、「調整済みの決定係数(Adjusted R-squared)」は「0.9874」とおっしゃる。
> 上記の情報を用いた回帰式を次に示す。
ここでは、「人口」を「住宅」「工業」「文化」で説明させる回帰式を得たことになります。
人口 = -1.145e+04 + 7.544e-01 × 住宅 + 2.596e-01 × 工業 + 7.519e-01 × 文化
その指数表記が自動で直りませんか。えー…(てんてんてん)。Excelに入れて「標準」だ。(※恐縮です。)
人口 = -11450 + 0.7544 × 住宅 + 0.2596 × 工業 + 0.7519 × 文化
シナリオマップ | 実際の人口 | 推定人口 | | | | 大都市構想EX | 24,810 | 27,272 | 広域都市計画EX | 246 | -7,885 | 混迷する交通都市EX | 5,951 | 3,425 | 夕日町計画 | 22,160 | 28,722 | 水面に揺れる工場の灯 | 2,609 | 5,606 | おどる広告都市 | 50,592 | 48,594 | 文明開化の薫る街 | 29,017 | 26,085 | 空港連絡線は続くよ | 30,384 | 31,836 | ひしめきあう街 | 10,576 | 11,893 | 砂浜とウォーターフロント | 152,624 | 150,840 | 海上都市計画 | 5,387 | 10,301 | 城下町の復興 | 925 | -1,375 |
ばーん。(※効果音)これが重回帰分析といふものですか。
> (Intercept) V2 V3 V4 V5 V6
> -1.274e+04 7.404e-01 1.885e+00 2.501e-01 9.847e-04 7.718e-01
人口 = -12740 + 0.7404 × 住宅 + 1.885 × 農業 + 0.2501 × 工業 + 0.0009847 × 商業 + 0.7718 × 文化
これでやり直すとどうか。
シナリオマップ | 実際の人口 | 推定人口 | | | | 大都市構想EX | 24,810 | 27,438 | 広域都市計画EX | 246 | -8,409 | 混迷する交通都市EX | 5,951 | 4,074 | 夕日町計画 | 22,160 | 27,923 | 水面に揺れる工場の灯 | 2,609 | 5,016 | おどる広告都市 | 50,592 | 47,749 | 文明開化の薫る街 | 29,017 | 25,509 | 空港連絡線は続くよ | 30,384 | 31,850 | ひしめきあう街 | 10,576 | 11,658 | 砂浜とウォーターフロント | 152,624 | 151,430 | 海上都市計画 | 5,387 | 9,385 | 城下町の復興 | 925 | 1,717 |
うーん。…うーん! あえていおう!! これが重回帰分析といふものですかッ。(※表現は演出です。)
[4460]に続きます。
| |