フォーラム - neorail.jp R16

【自由研究】の話題

 → 茨城県内で必要な「主論文・野帳・掲示物」とは? 【詳細】(2017/10/19) NEW!
 → 【自由研究】の記事一覧(新着順)


【研究ホワイトボックス】

研究を楽しく「追体験」! 真っ白のキャンバスに虹色の未来を描く方法、教えます。
R with Excel prcomp | kmeans・hclust | rpart | ggvoronoi | spantree | lm NEW!


発行:2021/3/1
更新:2021/7/14

[4458]

【研究ホワイトボックス】 【A9R:データで遊ぶA列車】

研究ホワイトボックス(44) ハイパー・ゼロ:「散布図行列」「相関係数行列」とは


「R with Excel」(※Excelでの操作については省略)
「R with Excel」(続き)
「R with Excel」(続き)
「R with Excel」(続き)
「R with Excel」(続き)
「R with Excel」(続き)
「R with Excel」(続き)

(約17000字)

 何をしたらいいのかわからないときの「散布図行列」です。本日「このフォーラム」であります。「このフォーラム」では「多変量解析へのいざない」を定期的に特集いたしてきております。

・このフォーラム「研究ホワイトボックス」の記事一覧
 https://neorail.jp/forum/series.cgi?open-toolbox

 最も基本の部類に入る「散布図行列」そのものについてまとめたことは、これまでありませんでした。

[4014]
 > 初等で習うような「散布図」を小馬鹿にして、実際の場面でちっとも使わないからである。ましてや「散布図行列」をや。(※見解です。)初等で習うからつまらぬもの(≒『子どもが使うものだから、大人が使うのは恥ずかしい』)で、高等で習うから高尚なものだ(≒『子どもや学生や新人が使うのは生意気だ』)という変な観念がある。日本語がいけないのだと思う。難しい漢字を多用したお札はありがたいのである。ウイルス退散である。

[3636]
 > MDSみたいなので散布図を1枚だけ眺めて「印象を述べ」るだけで何か的な結論しちゃってた残念な上の世代を“白い目”で見上げながら(…そういうのを「ジト目」というんですけど)だまって散布図行列にしてみせる(※あたしのほうがおねーさんなのよ)

 「散布図を1枚だけ眺め」で終わってしまわないようにするのが「散布図行列」であり、これこそが「多変量解析」の『最初の関門』かつ『最も基本』といえないでしょうか。

・はじめてのJMP「散布図行列」
 https://www.jmp.com/support/help/ja/14-2/dj-visualize-7.shtml

 > 散布図行列は、複数の散布図をグリッド(行列)に整列して表示したものです。各々の散布図は、2変数の関係を示します。

 > どのペアの間で関係があるか
 > どのペアの関係が一番強いか

・MATLAB「散布図プロット行列」
 https://jp.mathworks.com/help/matlab/ref/plotmatrix.html

・Minitab「行列散布図の主要な結果を解釈する」
 https://support.minitab.com/ja-jp/minitab/18/help-and-how-to/graphs/how-to/matrix-plot/interpret-the-results/key-results/

 > データがモデルに適合しそうな場合は、回帰分析を使用して、関係を探ることができます。

 > 回帰式とR二乗値を表示します。

 > 外れ値

 > 時間基準のトレンド

 あまりにも「モデルに適合」かどうかばかりをいうと、かえって「散布図を1枚『ずつ』眺め」を誘発しかねません。変数選択によってばっさばっさと繊細な特徴を捨てていく重回帰分析に一直線。それでは「散布図を1枚だけ眺め」と大差ないのではありませんか。もっとぼんやり見ましょう。

[4338]
 > どんな話題も「A列車で行こう9」につなげる。

 「散布図行列」を「A列車で行こう9」という題材で説明してみせるという本邦初(?)の何か。

・本日のデータセットはこちら。
 https://arx.neorail.jp/guidebook/

 「電力需要」と「人口」というデータがございます。これだけでは「散布図を1枚だけ眺め」なのですが、なんと、このほかに「産業構成比」として「士農工商」「文化住宅」「ビジネスにもレジャーにも」…もとい、「農業」「工業」「商業」「住宅」「文化」「ビジネス」「レジャー」という7つの変数(変量)がついてまいります。「産業構成比」として「%」で表示されてしまうのですが、よくよく見ていくと、これのそれぞれはもともとの「量」を表わしているので、いわば「電力需要」という分母で割って正規化がすでにされた値がそこに7つあるという見方ができます。

・(参考)「どんな街なのかを調べる」(※ゲームのマニュアル)
 https://www.artdink.co.jp/manual/aexp/repo02/repo02.html
 https://www.artdink.co.jp/manual/aexp/repo02/repo02_01.jpg

 「A列車で行こう9」というPCゲームの中で、「産業構成比」と「人口」の関係性は『ブラックボックス』なものとしてプレーヤーに提示されます。これを解き明かしてみせようというのが、今回の話題です。

電力需要人口農業工業商業ビジネスレジャー文化住宅
131850248100.40.933.530.413.14.417.3
103602463.216.928.017.44.87.921.8
8053059510.91.548.431.32.22.813.0
97440221600.212.022.425.96.815.117.6
6140726090.423.524.929.06.611.83.9
220557505920.00.336.924.617.311.19.8
84498290170.215.915.921.913.422.510.2
60041303840.20.63.42.50.989.13.4
72706105760.47.626.433.910.811.59.5
4260071526240.19.722.230.711.314.811.2
10980553870.01.638.038.58.410.23.2
253569256.53.426.121.34.930.67.2


 このようなデータセットであります。ゲームの画面で表示される「産業構成比」の「%」の数字そのままを仮に入れましたが、このままではどうも都合がよくありません。

・(参考)「子会社の種類」(※ゲームのマニュアル)
 https://www.artdink.co.jp/manual/aexp/const01/const01.html

 > 都市の人口と住宅度の増加に効果的な建物です。

 「住宅」だけは特別な効果があるとにおわせる説明です。

 > 都市のレジャー度の増加に効果的な建物です。
 > 都市のレジャー度の増加に効果的な建物です。

 この2つだけカタカナです。ホテル業界には「ファミリーにもカップルにも」と並んで「ビジネスにもレジャーにも」という有名なフレーズがあります。平日と休日の違いやホリデーシーズンのにぎわいを連想させられます。

 > 都市の商業度や文化度の増加に効果的な建物です。

 1つの建物が複数の指標を増加させると説明しています。

・「ビジネス」と「レジャー」が別々⇒「レジャー/(ビジネス+レジャー)」にする=新しい変数「ホリデー」と呼ぶことにする
・「住宅」は単独で見る
・その残り

 7つあるうちの3つを除いたものと「電力需要」とが対応するはずだと思っておきます。そこに「住宅」を絡めると「人口」が出てくる、そして、「ビジネス」「レジャー」は、特には関係してこない独立の事象だろうと思っておきます。

・(♪〜)
 https://youtu.be/xR4IElye7eg




・「Excelヨーヨー」(仮)
 https://www.event-k.com/pic-labo/gk-913.jpg
 https://neorail.jp/forum/uploads/ss_excel_power_desu.png

https://neorail.jp/forum/uploads/ss_excel_power_desu.png


※画像はイメージです。

 これはExcelでやればいいと思いますが、もとの表の4倍の面積を使って足し算したりかけ算したり割り算したりして、最終的に以下のようにまとまりました。

電力需要人口住宅農業工業商業文化ホリデー
1318502481040371.8933.52100.378176.510268.00.301
103602462902.9426.12250.43728.51052.00.216
80530595115719.11088.21813.758523.33385.60.066
974402216025482.1289.617374.132431.721862.50.208
6140726093713.0380.822373.123706.011234.10.185
2205575059237202.40.01138.8140078.442137.40.413
844982901713321.2261.220765.420765.429384.90.380
60041303842111.1124.2372.52111.155322.20.265
727061057612467.6525.09974.134646.915092.40.242
42600715262482263.4734.571246.0163057.9108705.20.269
10980553876629.70.03314.978728.121132.30.179
253569252473.82233.31168.28967.410513.50.187


 マップのタイトルは、ちょっと忘れておきます。いろいろやって、後から「答え合わせ」として、マップのタイトルを見ようではありませんか。

 「人口」という被説明変数(従属変数)を、「住宅」「農業」「工業」「商業」「文化」(※その合計が「電力需要」)という5つの説明変数(独立変数)で説明させる重回帰分析をしていこうということになるでしょうか。本当でしょうか。

※「電力需要」という「合計」には「住宅」も含むと思いなおした、の意。

 また、「ホリデー」と「人口」は無関係ということもいえるでしょうか。もっと本当でしょうか。

[3806]
 > 何か1つ「いいこと!」と思い込んだら、何も考えずぜんぶに適用しちゃう。細かい変化をつけるという表現のしかたを身につけていない。要するに子どものすることである。この子がね(略)

[4197]
 > これを『子ども』という。

・(再掲)三中信宏「前口上――統計学概論」(2003年)
 http://cse.niaes.affrc.go.jp/minaka/R/preamble.html

 > ユーザーがあらゆる統計理論に通暁することは現在では不可能です。おそらくほとんどの農学系・生物系ユーザーは、自らの限られた統計学の知識を酷使して問題解決にあたっているという方がむしろ事実に近いでしょう。事態をさらに悪くしているのは、統計学の世界があまりに広すぎるため、数理統計学に一生を捧げている専門の統計学者以外、この世界のどこにどのような統計手法があるのか、それらの手法の間の相互関係はどうなっているのかについてまったく闇の中という現実です。

 > とりわけ、統計学をはじめて学ぶ者にとって、いま学んでいる手法が統計ワールドの中のどこに位置しているのかをまったく知らされないまま、数式や理論や分析ツールをいじらされるというのは、教育上のみならず精神衛生上もよいはずがありません。

 > 自分の抱えている問題解決にとって、いま使っている統計手法ははたして適切なのか、他にももっと使える方法があるのではないか —— この素朴な知的好奇心こそ、蔓延する無思考症候群を予防し、主体的かつ積極的な統計学ユーザーへの道を拓くのです。

 それはそれとしまして。(※恐縮です。)

[3452]
 > 「既存の遊具にちょうどいい「イカの遊具」がなく、渋谷区が「バナナの遊具」に『目』と『頭』を付けて『イカらしさ』を表現しました。」

 > 「ハレでも(ざーざー)アメでも(ごろごろ)アラシでも(ぴよぴよぴよ)いつも笑顔の公園あにマル…ず。」

 > (棒読み)

 > そんな貴重な公園アニマルの捕獲に、○○じいは見事、成功しました。(さらに棒読み)

 あの棒読みが魅力なんです。(※ソコジャナイ。)

[3708]
 > ハレでも(ざーざー)アメでも(ごろごろ)アラシでも(ぴよぴよぴよ)うぃーあーざあーるういずえくせらー…ズ(ぱらぼーら)「R with Excel」([3526])しませうか。(棒読み)

・「統計数理研究所のミラーサイトから「R」を入手しよう」
 https://www.r-project.org/logo/Rlogo.png
 https://cran.ism.ac.jp/

・「ぱらぼーら」のイメージはこちら
 https://www.kepco.co.jp/brand/for_kids/teach/images/201704/img_section1_3_1.png
 https://dic.nicovideo.jp/oekaki/388479.png
 https://blogs.itmedia.co.jp/knowledge/2007/04/post_3bc2.html
 https://dailyportalz.jp/b/2007/03/17/a/2.htm
 https://dailyportalz.jp/b/2007/03/17/a/img/graph02_09.jpg

 じぶんがいまやってることはどの程度のものかというのを、じぶんで認識しておくこと。「R」を使ってはいるけれど「ぱらぼーら」である。円グラフでいうところの「べつやくメソッド」に相当すると思ってください。ありがとうございました。

※画像はイメージです。

 https://ja.wikipedia.org/wiki/Updates_(%E3%83%99%E3%82%A4%E3%82%A8%E3%83%95%E3%82%A8%E3%83%A0)

 > UPDATES(アップデイツ)は、ベイエフエムの情報ゾーン(タイムテーブル上では「交通情報&生活情報」)の総称である。

 だって「なになにアップデイツ」とカタカナで読み上げるんだもの、しかたないじゃない。(※個人の感想です。)

 > YAMAMAN presents MUSIC SALAD FROM U-kari STUDIO

 > TOKYO GAS Curious HAMAJI

 > KEIYOGINKO POWER COUNTDOWN REAL

 > 『bayfm78〜♪』の汎用アタック

 どれとはいわないが、聞き取れなくて「ぱらぼーら」と聴こえるのがあった。

■「R with Excel」(※Excelでの操作については省略)

Excelからコピーしたデータを
Rに取り込み
mydata12=read.table("clipboard",h=0)


 上の表から、ヘッダー行を除いて、数値の部分だけを範囲選択して「コピー」しておいてから、「R」でこのコマンドを実行すれば、データが「R」に取り込まれるけれど、このコマンドを「コピー」したら、上の表の「コピー」はやり直しになるし、上の表の「コピー」ができていないのにコマンドを実行しても空っぽだから、手順をよく考えること。(※表現は演出です。)

 仮に、12行あるデータだから「mydata12」と命名しておきませう。…12行しかないのね。(ぼそっ

■「R with Excel」(続き)

散布図行列を描くplot(mydata12)
相関係数行列を求めるcor(mydata12)


 https://neorail.jp/forum/uploads/r_power_desu_plot.png

https://neorail.jp/forum/uploads/r_power_desu_plot.png


V1V2V3V4V5V6V7V8
V11.00000000.952577320.946341575-0.1318064820.780093110.91161660.85459910.3453965
V20.95257731.000000000.906138389-0.0943145110.843534070.75573930.94018370.3784387
V30.94634160.906138391.000000000-0.0098263860.735702860.85857130.73351000.3402013
V4-0.1318065-0.09431451-0.0098263861.000000000-0.04079868-0.1538808-0.2053652-0.3858955
V50.78009310.843534070.735702864-0.0407986841.000000000.50705240.76333090.1212256
V60.91161660.755739310.858571336-0.1538808040.507052421.00000000.62319160.3171239
V70.85459910.940183740.733509960-0.2053651940.763330890.62319161.00000000.3871166
V80.34539650.378438660.340201254-0.3858955320.121225610.31712390.38711661.0000000


 どーん。帰っていいですか。いるんですよね。常に帰っていいですかみたいな顔で面倒くさそうに「R」するひと。(※表現は演出です。)

 ここで使っているデータは、ゲームの中で絶対のルールに従って、ゲームの中で理想的に分布している値を誤差ゼロで取得したものだから、すべてのデータ(点)は等しく正確かつ有用で、1つたりとも「外れ値」ではないととらえます。

■「R with Excel」(続き)

個別の散布図を描くplot(mydata12$V1, mydata12$V2)


 表の列を左側から順に「V1」「V2」の順で(…の順で!)で呼べます。「電力需要」と「人口」をとったことになります。横軸が「電力需要」になります。

 https://neorail.jp/forum/uploads/r_power_desu_plot_v1_v2.png

https://neorail.jp/forum/uploads/r_power_desu_plot_v1_v2.png


 これぞ「散布図を1枚だけ眺め」ですが、もちろん最初に「散布図を1枚だけ眺め」も必要なのは当然です。(単)回帰の直線が引けますが、線から離れる点もある。直線に対して垂直な方向に「ぶれる」何らかの要因がある。そこを「住宅」「農業」「工業」「商業」「文化」に分けて細かく見ていく。こうしてわれわれは多変量解析に入ってまいります。あっけないので、身構えることはありません。ありがとうございました。

 その前に、同じく「散布図を1枚だけ眺め」で済みそうな「「ホリデー」と「人口」は無関係」を確かめてみませう。「人口」を「電力需要」で割って正規化した変量(「単位電力需要あたり人口」)と「ホリデー」との散布図を描こうということです。この割り算は「R」でその場でしませう。

・「単位量あたり」
 https://www.shinko-keirin.co.jp/keirinkan/sansu/WebHelp/05/page5_20.html

 > 下の問題場面では,畳の数,あるいは人数といった一方の数量だけでは比べることができません。混みぐあいや度合いを表すとすれば,2つの数量の組み合わせが必要です。その異種の量の割合(内包量の度)が単位量あたりです。

 https://www.shinko-keirin.co.jp/keirinkan/sansu/WebHelp/05/img/img520_02.png

 > 単位量あたりの考えとは,このようなとき,一方の量の大きさを単位量にそろえ,それに対応する他方の量の大きさで比較する考えのことをいいます。どちらか一方の量を単位量にそろえる場合,どちらの量をとってもよいと考えられます。

 「単位電力需要あたり人口」と「単位人口あたり電力需要」のどちらでもいい。本当でしょうか。

 > 単位量あたりの大きさを比べる場合,人口密度,速度など,単位量をどちらにするかがきめられているものがあります。

 ここでは「人口」に着目した上で「単位量あたり」に揃えたいという展開なので「単位電力需要あたり人口」をとります。

■「R with Excel」(続き)

手びねりで散布図を描くplot(mydata12$V2 / mydata12$V1, mydata12$V8)


 その場で割り算などする(ごにょっとした計算をハードコーディングする)ことを「手びねり」と形容してみました。いかがだったでしょうか&しつれいしました。

 https://neorail.jp/forum/uploads/r_power_desu_plot_v2_v8.png

https://neorail.jp/forum/uploads/r_power_desu_plot_v2_v8.png


 たぶん相関がなさそう。ここで「相関係数」です。

・「相関係数と無相関検定」
 http://cse.naro.affrc.go.jp/takezawa/r-tips/r/67.html

 順位ではないので「pearson」です。

■「R with Excel」(続き)

相関係数を求めるcor(mydata12$V2 / mydata12$V1, mydata12$V8, method="pearson")
無相関検定cor.test(mydata12$V2 / mydata12$V1, mydata12$V8, method="pearson")


 > 0.5592984

 …出ました! 相関係数は「0.5592984」、相関係数は「0.5592984」でありますッ!

 > t = 2.1336, df = 10, p-value = 0.05867
 > alternative hypothesis: true correlation is not equal to 0
 > 95 percent confidence interval:
 > -0.02150632 0.85784653

 https://oku.edu.mie-u.ac.jp/~okumura/stat/correlation.html

 > (p値は 0.15 ほど),統計的に有意ではありません。したがって,このデータから何かを結論づけるのは早計です。

 p値が0.05を超えているので有意ではないとしておきます。恣意的にデータを加えたり減らしたりすることによって0.05を超えなくなるかもしれないという微妙なところにあるので何もいえませんが、いまここにあるデータでは絶対に0.05を超えているので有意ではないとしておきます。(棒読み)

 一方、あえて「単位人口あたり電力需要」としてプロットすると、ちょっと別のセカイが見えてきます。

 https://neorail.jp/forum/uploads/r_power_desu_plot_v1_v8.png

https://neorail.jp/forum/uploads/r_power_desu_plot_v1_v8.png


 ゲームの作者が、個々のデータ(ゲームのマップ)をつくるときに、そういうふうに2分した考えでつくり分けたという感じに見えてきます。これはゲームの中でルールに従って生まれる分布ではなく、作者がそうしたから、というものだといえましょう。これはじぶんの言葉で考察すべきことがらです。ありがとうございました。

・「単位人口あたり電力需要」で「cor.test(mydata12$V1 / mydata12$V2, mydata12$V8, method="pearson")」

 > data: mydata12$V1/mydata12$V2 and mydata12$V8
 > t = -1.7186, df = 10, p-value = 0.1164
 > alternative hypothesis: true correlation is not equal to 0
 > 95 percent confidence interval:
 > -0.8252523 0.1327885
 > sample estimates:
 > cor
 > -0.4775024

 無相関だというのは変わらないですが、散布図の見えかたはだいぶ違う。相関係数は、明らかに複数の分布(グループ、クラスター)が混ざっているときには、あてにならない指標だということを思い出しておきます。

 https://upload.wikimedia.org/wikipedia/commons/thumb/d/d4/Correlation_examples2.svg/400px-Correlation_examples2.svg.png
 https://ja.wikipedia.org/wiki/%E7%9B%B8%E9%96%A2%E4%BF%82%E6%95%B0

 > 散布図とその相関係数の一覧。相関は非線形性および直線関係の向きを反映するが(上段)、その関係の傾きや(中段)、非直線関係の多くの面も反映しない(下段)。中央の図の傾きは0であるが、この場合はYの分散が0であるため相関係数は定義されない。

 『無相関だから!』といって、考えなくてよい(忘れてよい)ということには直結しないのです。何らかの方法でグループを分け、その各々について、改めて検討していくべきなのです。

 https://www1.doshisha.ac.jp/~mjin/R/Chap_07/07.html

 > 関数 plot に用いた type は散布図のマークの種類を指定する引数で、type="n" は散布図のマークを描かない。関数 text は散布図のラベルなどを加える関数で、plot の引数 type = "n" と text(x,y) の組み合わせで、データの番号をラベルとして付ける。

 データの番号、すなわち、何行目のデータですかという数字を表示させてみませう。どの点がどのデータなのかわかるようになります。

■「R with Excel」(続き)

plot(mydata12$V1 / mydata12$V2, mydata12$V8, type="n")
text(mydata12$V1 / mydata12$V2, mydata12$V8)


 https://neorail.jp/forum/uploads/r_power_desu_plot_v1_v8_text.png

https://neorail.jp/forum/uploads/r_power_desu_plot_v1_v8_text.png


 うーん。縦軸と横軸を逆にしたいと思ってしまった。それではさっそく。

 https://neorail.jp/forum/uploads/r_power_desu_plot_v8_v1_text.png

https://neorail.jp/forum/uploads/r_power_desu_plot_v8_v1_text.png


[3832]
 > そういえばわたしたちはパソコンというものを垂直なモニターと水平なマウス&キーボードで操作しているのだった。

[4375]
 > > 横に長い県の人

[3960]
 > 画像をブログに載せるときに縦横比が狂って
 > 「気になりかた」が縦方向と横方向とで差があるのを逆手にとって、横方向だけ細かくする技術。

 https://hamarepo.com/story.php?page_no=1&story_id=2103

 > 江の島の地を踏むと、さっそく「トンビに注意」の看板が目に入った。

 > 頭上でずーっと・・・
 > 「ピィィイィィーーーー・・・ヒュルルルルルゥウゥゥー・・・」という鳴き声が聞こえて少し怖かった。

 > ちなみに大磯ではパンを盗られたとか。お気を付けてください!

 https://hamarepo.com/writer/story/images/images/hamarepo/naito/2013/7/2103/tonbi_7.png
 https://hamarepo.com/writer/story/images/images/hamarepo/naito/2013/7/2103/tonbi_15.png
 https://hamarepo.com/writer/story/images/images/hamarepo/naito/2013/7/2103/tonbi_16.png

 われわれには目が左右についているので、発想がそういうふうに縛られている。われわれにとって『わかりいい』向きというのがある。これはしかたのないことであった。長閑な時代であった。

・「plot(mydata12$V8, mydata12$V1 / mydata12$V2, type="n", xlab="tourism dependency index", ylab="electricity consumption per population")」みたいに書く
 https://neorail.jp/forum/uploads/r_power_desu_plot_v8_v1_text_xlab_ylab.png

https://neorail.jp/forum/uploads/r_power_desu_plot_v8_v1_text_xlab_ylab.png


 データや図を取り違える恐れがないなら、じぶんで軸のラベルを指定して描いてもよいが、それはかなり後回しでよい。せめてぜんぶ小文字で書いておいて、まだ仮の図ですよーとアピールしておく。(※恐縮です。)

・横軸「ホリデー」(⇒「観光業への依存度」後藤さんも苦い顔!)の「0.20〜0.30」らへんが「最頻値」であり、いわば作者の考える「ふつう」なのだろう
・あえていえば「3」のデータは「外れ値」
・「6」と「7」には後藤さんも満足です!(※表現は演出です)
・「11」「5」「12」「2」のデータは、作者の強い意図がありそう

 ありがとうございました。「散布図を1枚だけ眺め」して「印象を述べ」していただきました。(※表現は演出です。)

[4390]
 > 後藤さんは帰ってこないけれど三郎さんは帰ってくるんですよ!(違)

■「R with Excel」(続き)

ヒストグラムを描くhist(mydata12$V8)


 https://neorail.jp/forum/uploads/r_power_desu_hist_v8.png

https://neorail.jp/forum/uploads/r_power_desu_hist_v8.png


 頻度に「0.5」はないが、そういう描画になってしまう「R」の「hist()」であったー。機械的にいえば「6」も「外れ値」ですが、「7」というデータの存在と、そのほかにもこのゲームをいろいろ遊んでの経験を踏まえれば、そこには『「6」や「7」のような』という1つのクラスターがあるのだと直感できましょう。「外れ値」として「6」だけを除外するというような機械的な操作を行なってはいけません。

手びねりでk-meanslibrary(mclust)
mykmdata12c3 <- kmeans(cbind(mydata12$V8, mydata12$V1 / mydata12$V2), 3, nstart=50)
clPairs(cbind(mydata12$V8, mydata12$V1 / mydata12$V2), cl=mykmdata12c3$cluster)
# プロットされた図を右クリックしてコピーや保存をします

text(mydata12$V8, mydata12$V1 / mydata12$V2)


 https://neorail.jp/forum/uploads/r_power_desu_plot_v8_v1_km3.png

https://neorail.jp/forum/uploads/r_power_desu_plot_v8_v1_km3.png


 うーん。むしろ「2」が「外れ値」的だということにされてしまった。これはいけない。…気がする。

 なぜこうなるのかというと、われわれは散布図の縦軸と横軸をまことに都合よく見ているけれど、縦軸は正規化していないから、実際の値としては、とてつもなく大きい。この平面の上で露骨に2点間の距離の公式みたいなことをして距離が云々といってクラスタリングしてくれちゃうので、われわれが縦軸を都合よく圧縮して見ているような扱いは、してくれていないということなのであった。(※恐縮です。)

 だからといって、ここでの縦軸を正規化する「分母」の決めかたがわかりかねる。このゲームの中で「単位人口あたり電力需要」の最大値はいくらになるのか。調べるのも考えるのも面倒くさい。たまたまここに出てきたデータの中で最小と最大の範囲を0から1とするのも乱暴である。こんな指標だけど0は絶対に0なのだ。最大のほうがよくわからないだけなのだ。

・(参考)「発電所の種類」(※ゲームのマニュアル)
 https://www.artdink.co.jp/manual/aexp/ene02/ene02.html

 > 10,0000kWh

 なんと4桁で区切る昭和時代の会社がつくったゲームであった。これは誤記ではなく、4桁区切りである。

 > 37,0000kWh

 ▼基本となる「100000」を「1」とする、▼1基で最大の「370000」を「1」とする、など、いくつかの方法が考えられますが、考えるのが面倒くさい。さらに、ここではすでに「人口」との割り算にしてあるので、なおさら面倒くさい。このゲームの中で「人口」の数字は割とリニアに積み上げていく感じ(?)であるので、どこかを「1」とするというのはなじまない。…気がする。

・エンターブレイン「プロフェッショナル公式ガイドブック」

 > (054ページ)
 > 都市の規模
 > 10,000以上 村
 > 50,000以上 町
 > 100,000以上 街
 > 200,000以上 市
 > 5,000,000以上 メガロポリス

 これらのいずれかを「1」とする、という方法がないでもない。しかし、このゲームの中で「都市の規模」がいずれであっても、また「10,000」に満たないので非表示であっても、ゲーム内でほかの要素などの挙動が変わるわけではなかった。これはまったくパッシブな数字でしかなかった。だからこそ、どこかを「1」とする、(0から始めた場合)そこを当座のゴールとするというようなことは、なじまないと感じるのであった。

・相関係数行列より「V2」

人口
住宅0.90613839
農業-0.09431451
工業0.84353407
商業0.75573931
文化0.94018374


 このデータセットでは「文化」が最も「人口」との相関係数(の絶対値)が大きい。

 https://www.artdink.co.jp/manual/aexp/const01/const01.html

 > 【文化施設】
 > 都市の文化度の増加に効果的な建物です。

 > 【ランドマーク】
 > 都市の文化度の増加に効果的な建物です。都市のシンボルとして効果的な建物がそろっていますが、多くの費用と資材が必要です。

 「都市の文化度」とは何か。それは直接には説明されず、プレーヤーに手探りさせるのであった。そして、ここでは「文化」が最も「人口」との相関係数(の絶対値)が大きいというのは、単に、にぎやかそうに見せたいマップでは作者が「ランドマーク」(という種類の建物)を乱立させているというような、ものすごく単純なことではなかったか。

 プチ「答え合わせ」。

 https://www.mkseiko.co.jp/ls/products/RM-02HW_960x450.jpg

文化
砂浜とウォーターフロント108705.2
空港連絡線は続くよ55322.2
おどる広告都市42137.4
文明開化の薫る街29384.9
夕日町計画21862.5
海上都市計画21132.3
ひしめきあう街15092.4
水面に揺れる工場の灯11234.1
城下町の復興10513.5
大都市構想EX10268.0
混迷する交通都市EX3385.6
広域都市計画EX1052.0


 正規化してなかった。しつれいしました。

8空港連絡線は続くよ55322.20.921
12城下町の復興10513.50.415
7文明開化の薫る街29384.90.348
10砂浜とウォーターフロント108705.20.255
4夕日町計画21862.50.224
9ひしめきあう街15092.40.208
11海上都市計画21132.30.192
6おどる広告都市42137.40.191
5水面に揺れる工場の灯11234.10.183
2広域都市計画EX1052.00.102
1大都市構想EX10268.00.078
3混迷する交通都市EX3385.60.042


 この中でマップの作者が「ランドマーク」を乱立させているのは「おどる広告都市」と「夕日町計画」でした。特に激しいのが「おどる広告都市」ですが、ここで見る限りではほかのマップから突出するものではないといえます。

電力需要人口
混迷する交通都市EX805305951
空港連絡線は続くよ6004130384


 「空港連絡線は続くよ」と「混迷する交通都市EX」が両極端だということです。「空港連絡線は続くよ」は「混迷する交通都市EX」と比べ、「電力需要」が74.6%ほどでありながら、「人口」は5.1倍にも達するマップです。この差は「文化」(※「文化度」を持つ建物の多寡)で説明できるということです。

 相関係数(の絶対値)が小さいものは、どのペアでしょうか。「農業」は除いて見ていきませう。

工業文化
商業0.507052420.6231916


 https://neorail.jp/forum/uploads/r_power_desu_plot_v6_v5_text.png

https://neorail.jp/forum/uploads/r_power_desu_plot_v6_v5_text.png

 https://neorail.jp/forum/uploads/r_power_desu_plot_v6_v7_text.png

https://neorail.jp/forum/uploads/r_power_desu_plot_v6_v7_text.png


 うーん。「10」こと「砂浜とウォーターフロント」は別格です。「2」こと「広域都市計画EX」は、このデータセットの中で最小かつゲームの中でも小さなほうであるミニマムスタートなマップといえます。それを除くと「8」「5」「6」のマップが目に留まります。それぞれ「空港連絡線は続くよ」「水面に揺れる工場の灯」「おどる広告都市」ですね。

・「商業」を、ニュートラルというかベースラインととらえて、それ以外に特筆すべきものがあるのかないのか、あるならどれで、どのくらいか、という見方をしている
・「水面に揺れる工場の灯」は「工業」が特筆すべき!
・「空港連絡線は続くよ」「おどる広告都市」は「文化」が特筆すべき!

 ありがとうございました。マップを見れば『見たまま!』のことなんですが、それを数字でも見ていただきました。

 最小の「2」と最大の「10」を結ぶ直線の上にだいたいのってくる「7」「4」「9」などは、このゲームの中では「ふつう」に見える「産業構成比」であって、「10」もまた、規模が大きいけれど内訳は「ふつう」だということでした。「7」「4」「9」は、「文明開化の薫る街」「夕日町計画」「ひしめきあう街」でした。


 [4459],[4460]に続きます。


この記事のURL https://neorail.jp/forum/4458/


この記事を参照している記事


[4459]

研究ホワイトボックス(45) とにかく「重回帰分析」するには

2021/3/1

[4460]

【A9・Exp.】「産業構成比」と「総発電量」(重回帰編)

2021/3/1

[4464]

「JTBF旅行者調査」をひも解く(紐)

2021/3/21


関連する記事


[3639]

【自由研究】ふわコレ(6) tht - 2018/4/30


[3884]

【A9・Exp.】ニューゲームを自動分類するには(評価編) tht - 2020/1/11


[3676]

【正宗の名刀で速射砲と立合をするような奇観を呈出】発生学から出立するディープラーニング(仮)【社会調査工房オンラインあり】 tht - 2018/9/13


[3653]

【北見北上】「もんじゃストリート」は続くよ(網走編)【網走アポロ石油あり】 tht - 2018/6/10


[3669]

【自由研究】ゆるシミュ(9) tht - 2018/8/16


[3649]

【お知らせ】ストリートビューの表示を休止します tht - 2018/5/31


[3469]

研究ホワイトボックス(17) 「数量化理論」を一般化して理解するには / 「SD法」に確率論とグラフ理論を導入するには tht - 2017/5/6


[3689]

いわゆる「よん・さん・とお」等につきまして(仮) tht - 2019/2/1






neorail.jp/は、個人が運営する非営利のウェブサイトです。広告ではありません。 All Rights Reserved. ©1999-2021, tht.