フォーラム - neorail.jp R16

【自由研究】の話題

 → 茨城県内で必要な「主論文・野帳・掲示物」とは? 【詳細】(2017/10/19) NEW!
 → 【自由研究】の記事一覧(新着順)


【研究ホワイトボックス】

研究を楽しく「追体験」! 真っ白のキャンバスに虹色の未来を描く方法、教えます。
R with Excel prcomp | kmeans・hclust | rpart | ggvoronoi | spantree | lm NEW!


発行:2021/3/1
更新:2021/11/3

[4459]

【研究ホワイトボックス】 【A9R:データで遊ぶA列車】

研究ホワイトボックス(45) とにかく「重回帰分析」するには


「R with Excel」(※Excelでの操作については省略)
「R with Excel」(続き)
「R with Excel」(続き)

(約5000字)

 [4458]の続きです。

・「Rと重回帰分析」
 https://www1.doshisha.ac.jp/~mjin/R/Chap_15/15.html

 > 特別な説明がない限り、一般的には線形重回帰分析を略して重回帰分析と言う。

 > データの変数間の関係を考察するため、相関行列と対散布図を求める。

 ここまでを[4458]で行ないました。

 > 相関係数と対散布図からわかるように、体重と身長、体重とウエストの間には強い線形的相関がある。また、身長とウエストの相関係数が約0.59で、相関関係が見られる。

 今回のわたしたちが見ていくデータセットでは、どうだったでしょうか。相関係数だけで言っていいのであれば、まあ…(てんてんてん)。かくかくしかじかして、えいやっと、その、こうですか、えー(しばらくお待ちください)以下のようなデータセットになってございます。このまま「lm()」できるでありますか。本当でしょうか。(※半信半疑)

・今回のデータセット

人口住宅農業工業商業文化
2481040371.8933.52100.378176.510268.0
2462902.9426.12250.43728.51052.0
595115719.11088.21813.758523.33385.6
2216025482.1289.617374.132431.721862.5
26093713.0380.822373.123706.011234.1
5059237202.40.01138.8140078.442137.4
2901713321.2261.220765.420765.429384.9
303842111.1124.2372.52111.155322.2
1057612467.6525.09974.134646.915092.4
15262482263.4734.571246.0163057.9108705.2
53876629.70.03314.978728.121132.3
9252473.82233.31168.28967.410513.5


 ほんとうのほんとうに、このまま「lm()」できるですか。本当でありましょうか。(※半信半疑)

■「R with Excel」(※Excelでの操作については省略)

Excelからコピーしたデータを
Rに取り込み
mypop12=read.table("clipboard",h=0)
いきなり重回帰分析(mylmpop12 <- lm(V1~., data=mypop12))
summary(mylmpop12)


 > Coefficients:
 > (Intercept) V2 V3 V4 V5 V6
 > -1.274e+04 7.404e-01 1.885e+00 2.501e-01 9.847e-04 7.718e-01

 なんかデター。…データだけに。(違)

 > Residuals:
 > Min 1Q Median 3Q Max
 > -5758.9 -2458.9 -932.6 2123.3 8658.3

 > (Intercept) -1.274e+04 3.144e+03 -4.053 0.006700 **
 > V2 7.404e-01 1.895e-01 3.907 0.007915 **
 > V3 1.885e+00 2.792e+00 0.675 0.524756
 > V4 2.501e-01 1.452e-01 1.723 0.135703
 > V5 9.847e-04 6.674e-02 0.015 0.988706
 > V6 7.718e-01 9.379e-02 8.228 0.000174 ***

 > Residual standard error: 5262 on 6 degrees of freedom
 > Multiple R-squared: 0.9915, Adjusted R-squared: 0.9844
 > F-statistic: 140 on 5 and 6 DF, p-value: 3.991e-06

 うーん。…うーん!(※悲鳴)このフォーラムのシステムの都合でうまく表示できない行は省略しています。

・「決定係数(Multiple R-Squared)」は「0.9915」
・「調整済みの決定係数(Adjusted R-squared)」は「0.9844」

 ほぅ。(※ちょっといい気になったみたいな顔で。)だって、ゲームの中で絶対かつ単純なルールで動いたはずの数字を観察したのだもの。丸め誤差がなければ「1」になったはず。

■「R with Excel」(続き)

回帰診断図を描くpar(mfrow=c(2,2),oma = c(1,1,2,1),mar = c(4, 4, 2, 1))
plot(mylmpop12,pch=21,bg=2,col=2,cex=1.5)


 https://neorail.jp/forum/uploads/r_power_desu_lm_plot.png

https://neorail.jp/forum/uploads/r_power_desu_lm_plot.png


 これが「回帰診断図」といふものですか@初めて見ました。

 > Cook の距離と残差の散布図から個体1の影響が大きいことが読み取られる。実際の問題について本格的に分析行う際には、このような個体の影響について詳細に分析行うことが必要である。

 4つ描かれたうちの右下のプロットですな。(※恐縮です。)これに倣うと、個体(データ点)「6」「8」「10」がどうたらといっているけれど、この中でどれがいちばんとか、見てもぜんぜんわからない。

 「6」「8」「10」が何であるかというと、順に「おどる広告都市」「空港連絡線は続くよ」「砂浜とウォーターフロント」でした。…ほぅ。なるほど極端っぽいやつですな。しかし「砂浜とウォーターフロント」を除外してやり直したほうがいいのか。そうするともっとわるくなるのでは…(てんてんてん)。

■「R with Excel」(続き)

散布図行列を描くpairs(mypop12,panel=panel.smooth,mypop12)


 https://neorail.jp/forum/uploads/r_power_desu_pairs_smooth.png

https://neorail.jp/forum/uploads/r_power_desu_pairs_smooth.png


 うーん。上に戻ります。

 > V2 0.007915 **
 > V6 0.000174 ***

 変数選択するならV6、V2の順だよとおっしゃっておられた。V6とは「文化」で、V2とは「住宅」である。わあぃ『文化住宅』。(※ソコジャナイ。)「空港連絡線は続くよ」のデータがわるさをしているに違いない。えー…(てんてんてん)。

ステップmylmsteppop12 <- step(mylmpop12)


 > Start: AIC=209.32
 > V2 + V3 + V4 + V5 + V6

 > Step: AIC=207.32
 > V2 + V3 + V4 + V6

 > Step: AIC=206.26
 > V2 + V4 + V6

 うーん。V5とV3を抜くといいんですって。えー…(てんてんてん)。V4は「工業」である。それは納得。

サマリーsummary(mylmsteppop12)


 > Residuals:
 > Min 1Q Median 3Q Max
 > -6559.7 -2593.0 236.1 2359.6 8133.5

 > Coefficients:
 > (Intercept) -1.145e+04 1.963e+03 -5.833 0.00039 ***
 > V2 7.544e-01 9.743e-02 7.743 5.52e-05 ***
 > V4 2.596e-01 1.198e-01 2.166 0.06216 .
 > V6 7.519e-01 8.000e-02 9.399 1.35e-05 ***

 > Residual standard error: 4739 on 8 degrees of freedom
 > Multiple R-squared: 0.9908, Adjusted R-squared: 0.9874
 > F-statistic: 287.4 on 3 and 8 DF, p-value: 1.752e-08

 ほぅ。「決定係数(Multiple R-Squared)」は「0.9908」で、「調整済みの決定係数(Adjusted R-squared)」は「0.9874」とおっしゃる。

 > 上記の情報を用いた回帰式を次に示す。

 ここでは、「人口」を「住宅」「工業」「文化」で説明させる回帰式を得たことになります。

 人口 = -1.145e+04 + 7.544e-01 × 住宅 + 2.596e-01 × 工業 + 7.519e-01 × 文化

 その指数表記が自動で直りませんか。えー…(てんてんてん)。Excelに入れて「標準」だ。(※恐縮です。)

 人口 = -11450 + 0.7544 × 住宅 + 0.2596 × 工業 + 0.7519 × 文化

シナリオマップ実際の人口推定人口
大都市構想EX24,81027,272
広域都市計画EX246-7,885
混迷する交通都市EX5,9513,425
夕日町計画22,16028,722
水面に揺れる工場の灯2,6095,606
おどる広告都市50,59248,594
文明開化の薫る街29,01726,085
空港連絡線は続くよ30,38431,836
ひしめきあう街10,57611,893
砂浜とウォーターフロント152,624150,840
海上都市計画5,38710,301
城下町の復興925-1,375


 ばーん。(※効果音)これが重回帰分析といふものですか。

 > (Intercept) V2 V3 V4 V5 V6
 > -1.274e+04 7.404e-01 1.885e+00 2.501e-01 9.847e-04 7.718e-01

 人口 = -12740 + 0.7404 × 住宅 + 1.885 × 農業 + 0.2501 × 工業 + 0.0009847 × 商業 + 0.7718 × 文化

 これでやり直すとどうか。

シナリオマップ実際の人口推定人口
大都市構想EX24,81027,438
広域都市計画EX246-8,409
混迷する交通都市EX5,9514,074
夕日町計画22,16027,923
水面に揺れる工場の灯2,6095,016
おどる広告都市50,59247,749
文明開化の薫る街29,01725,509
空港連絡線は続くよ30,38431,850
ひしめきあう街10,57611,658
砂浜とウォーターフロント152,624151,430
海上都市計画5,3879,385
城下町の復興9251,717


 うーん。…うーん! あえていおう!! これが重回帰分析といふものですかッ。(※表現は演出です。)


 [4460]に続きます。


この記事のURL https://neorail.jp/forum/4459/


この記事を参照している記事


[4458]

研究ホワイトボックス(44) ハイパー・ゼロ:「散布図行列」「相関係数行列」とは

2021/3/1

[4460]

【A9・Exp.】「産業構成比」と「総発電量」(重回帰編)

2021/3/1

[4464]

「JTBF旅行者調査」をひも解く(紐)

2021/3/21


関連する記事


[3669]

【自由研究】ゆるシミュ(9) tht - 2018/8/16


[3884]

【A9・Exp.】ニューゲームを自動分類するには(評価編) tht - 2020/1/11


[3881]

【A9・Exp.】ニューゲームを自動分類するには(事前編) tht - 2020/1/11


[4654]

うるう年の翌年の6月1日から10月31日まで tht - 2021/11/16


[3747]

難しい9 tht - 2019/8/15


[3927]

「DATT-A9D」のごあんない tht - 2020/2/25


[4456]

【PS4】AExp.「青十字カーソル」「グリッド」こもごも(悲) tht - 2021/3/1


[4452]

「B麺24」を「レールパターンB」で読み解く tht - 2021/3/1






neorail.jp/は、個人が運営する非営利のウェブサイトです。広告ではありません。 All Rights Reserved. ©1999-2021, tht.