フォーラム - neorail.jp R16

【自由研究】の話題

 → 茨城県内で必要な「主論文・野帳・掲示物」とは? 【詳細】(2017/10/19) NEW!
 → 【自由研究】の記事一覧(新着順)


【研究ホワイトボックス】

研究を楽しく「追体験」! 真っ白のキャンバスに虹色の未来を描く方法、教えます。
R with Excel prcomp | kmeans・hclust | rpart | ggvoronoi | spantree | lm NEW!


2023年1月の話題
更新:2024/7/24

[4969]

【研究ホワイトボックス】

研究ホワイトボックス(49) とにかく「主成分分析つき回帰木」するには


「人口集中率」と「人口密度」
「人口集中地区人口」と「社会経済分類別15歳以上人口」
「R with Excel」(※Excelでの操作については省略)
「R with Excel」(続き)
「R with Excel」(続き)

(約34000字)

 [4968]からのありあまる余波で「R」でございます。


[4968]
 > 電子音楽(や楽器)をおもしろがっていながら、技術にも技術史にも話はあまり広がらない。技術というものの前に『壁』をつくって「あちら側」みたいな顔をしてしまうのが、いかにも古い時代の文系の人らしい。

 > 「現代音楽」というテーマには「内省的」というイメージもあるので、その「現代音楽」を語るあなたはどこで何を食べるのか(※哲学的な問い)ということである。

[3401]
 > > GPLVMってぐぐってみると... なるほど、わからん\(o)/
 > > 一体、何をしているのかくらいは理解したい
 > > PCA(主成分分析)のド発展版に相当する
 > > PCAのお化けのような手法とでもいえばよいのでしょうか。

 > > PCA
 > > Dual PCA
 > > Kernel PCA
 > > Probabilistic PCA このままでは解けない
 > > Probabilistic Dual PCA → GPLVM

 > どこで薄氷を踏み抜いたのか…じゃなくて、さえてる「ガラスのてんじょう」のやぶりかた…でもなくて、どのように化けていったのか丹念に追って『さい終けい態!』のほうなど鮮やかにですね(略)おおー、ここでBGMが変わるぞう。わあぃ『第6章!』ではGPLVMが仲間になりたそうに(もっと略)。

・(再掲)筑摩書房「ちくま」9月号で上野センセイいわく(※リンク先は目次です)
 http://www.chikumashobo.co.jp/blog/pr_chikuma/entry/1373/

 > 「同じか違うか」はYes/Noの二つの値しかとりません。これを二値論理といいます。
 > AI(人工知能)とはこの大脳シナプス連結を模倣したものにほかなりません。どんなに複雑なAIでも、基本は二値論理の膨大な集積回路から成っています。

 現代っ子としてはかなり面食らう物言いなのであるが、これが「重回帰分析」をけちょんけちょんに言うものであったら、まったくその通りだと。つまり上野センセイは「AI(人工知能)」というものを「しょせん重回帰分析のお化けでしょ?」という見方をしたわけだ。…うーん! 主成分分析や確率論的アプローチと呼ばれるようなものを(耳学問でなく)自分で納得できるまで使ってみる体験があれば、「AI(人工知能)」について「重回帰分析」みたいな言いかたで言えるなんて、思わなくなるでしょ。(※見解です。)

 こういう感じのことでいう「耳学問でなく自分で納得できるまで使ってみる」という感覚が、「哲学的な問い」じみた言いかたでいえば「あなたは何を食べるのか」(※直訳)になるんですね。(ねちねち)

[3885]
 > 電気としてもケミカルとしてもスレッショルドというものがあってだなぁ(げふ)どちらともつかない領域を挟んでるとかいうことを概念的でいいから学びませんか。そうですか。(※すごく残念そうな顔で!)

 > 上野センセイの(頭の中の)辞書にも「ファジィ」は載ってなかろう。その時代にそんなことを勉強する余裕があったとは思えない。本当でしょうか。余裕があれば勉強したとでもいうんでしょうか。…ギクッ。

 多変量解析は別のセンセイの仕事で、上野センセイの仕事は仮説を思いつくことと考察をモーレツにねちねちこね上げるところにあるといえば、それまでではある。ちゃんとチームで仕事している限りはまったく問題ない。(棒読み)

[4014]
 > 「興味がない」ということの、底なしに危ういことよ。

[4641]
 > ユーザーの「属性」として「都道府県」という47通りの値に着目するということは、47つある都道府県から1名ずつのユーザーが訪れたとき『47人47様!』であると仮定することになる。しかし、そこまでユーザーはばらばらだろうか。

[3538]
 > 都心からびみょーに離れた(お手ごろながら広くて快適な)家でなんでも済ませようというのが「埼玉・兵庫・岡山タイプ!(通勤快速&家庭でお好み焼きっ!)」

[4630]
 > 岡山だからしかたない。

[4968]
 > だから佐賀県で「トムとジェリー」というわけでもないだろうが…(てんてんてん)。

・総務省統計局「都道府県別人口集中地区人口,面積及び人口密度(エクセル:34KB)」「社会経済分類別15歳以上人口(エクセル:40KB)」
 https://www.stat.go.jp/data/nenkan/back63/02.html
 https://www.stat.go.jp/data/nenkan/back63/zuhyou/y0205000.xls
 https://www.stat.go.jp/data/nenkan/back63/zuhyou/y0211000.xls

■「人口集中率」と「人口密度」

都道府県人口集中地区
人口(率)
全域
人口密度
人口集中地区
人口密度
北海道74.0665101
青森46.01423950
岩手29.6874679
宮城59.93225793
秋田34.2934256
山形42.41254308
福島40.01474406
茨城37.34864570
栃木44.23134691
群馬39.93163997
埼玉79.618958340
千葉72.912047145
東京98.2601412022
神奈川94.237458979
新潟48.11884894
富山37.12573864
石川50.12795478
福井41.81934308
山梨32.61934668
長野34.81594244
岐阜38.91954523
静岡59.64835267
愛知76.814356179
三重42.23204200
滋賀46.73516120
京都83.05718300
大阪95.846699366
兵庫76.66667415
奈良64.83806340
和歌山39.52134347
鳥取35.31694304
島根25.01074174
岡山45.62734368
広島63.63385983
山口48.22373317
徳島31.71904708
香川32.85294178
愛媛52.42524872
高知42.81075871
福岡70.910196351
佐賀29.83474662
長崎47.13475574
熊本46.62455440
大分45.21894713
宮崎45.91464573
鹿児島39.91855364
沖縄66.86127109


■「人口集中地区人口」と「社会経済分類別15歳以上人口」

北海道40774150352731391711012416469335486276275833.22948351012
青森6328.710125.58.37.836294.04.0109731456565221.775183283
岩手3941111105.66.87.939284.85.11117216455629.82.271174251
宮城14077.619151114176842118.621415724891105232.0145330387
秋田3714.18.39.15.45.96.530223.73.0925713547539.32.154166227
山形4953.211106.37.57.033224.23.91016616544549.32.961140226
福島8115.9161413131259397.86.11681082798089143.5108253377
茨城11071121192020299253127.5266156393119124273.6162400479
栃木8885.3151315141664388.75.51781112878195143.2107251322
群馬8025.6161417131364389.15.71831112787795124.6105267326
埼玉57305.45535504550240114491978850477833131064124011029940
千葉45299.255283136512251014425675427530272279585.7333897862
東京129173.0158808083159456181187311509887846522630871069017231580
神奈川85224.481415050874191428323997612781402420776.548113401182
新潟11417.519171514147148106.9211137326103115176.2131306418
富山4052.59.69.67.07.38.039225.24.21056616844506.92.053138184
石川5863.29.49.68.88.09.239246.14.01137514749599.82.569135188
福井3372.37.77.16.75.55.627194.02.8774611832385.42.64394131
山梨2812.27.47.47.36.65.528194.82.7794810633456.61.753110135
長野7491119151714147342116.419512228584112124.6103273338
岐阜8085.318171915136540116.41961213068599157.9110268337
静岡22438.832303227271236720113432245751681803012180468576
愛知5693115845564852247125411770646910273143304820374937985
三重7825.6131313121253398.66.5169952648083134.295253308
滋賀6593.29.68.37.78.11146307.44.51297619157599.93.084191192
京都21872.424231719307856205.9239171257109134256.6175374394
大阪84922.176726059732691395618841602831360410551247213521471
兵庫42815.650413134511871043520522346558221248427.5306875913
奈良9071.713107.98.21445348.94.6142891184758103.391244233
和歌山3963.66.3126.47.27.228243.73.086539940497.91.853156193
鳥取2082.44.84.72.64.14.519142.62.054326825296.11.53273103
島根1794.25.96.44.04.44.524183.02.868398230365.91.238100129
岡山8873.6151313121560399.95.01671102427984125.8109276322
広島18205.424201818239958159.2270184324112131305.5153411444
山口6993.611128.19.81147306.44.8129811755970161.372225264
徳島2492.76.17.25.04.96.826183.22.563408332355.41.343111163
香川3262.68.57.36.96.27.132225.13.6956211138457.41.650139179
愛媛7505.110139.18.99.147296.14.01227415555678.92.572209274
高知3275.95.98.94.44.95.426183.23.062416631405.60.73999169
福岡35986.44139243143168912813455340465200239454.3305696879
佐賀2532.85.67.14.25.15.627193.73.471479632427.20.850100158
長崎6727.910137.18.61051325.34.4115781395177200.881194297
熊本8487.913148.9101361397.85.21481011806693161.6101224354
大分5415.39.7106.57.17.740244.83.4996512947609.71.261171227
宮崎5219.98.1105.68.17.436254.03.7925911744559.81.359141216
鹿児島6811212148.79.81157366.04.7142901626588131.898238345
沖縄9313.68.5135.49.27.735307.73.610763995269150.586164247


■「R with Excel」(※Excelでの操作については省略)

ライブラリを読み込みますlibrary(rpart)
library(rpart.plot)
Excelからコピーしたデータを
Rに取り込み
mydata22=read.table("clipboard",h=0,row.names=1)
rpartを実行するmyrpart2201 <- rpart(V2~., mydata22, minsplit = 3)
# データフレーム「mydata22」のうち、
# V2を目的変数(従属変数)、
# それ以外を説明変数とする回帰です
# 変数名を定義していない(ヘッダーがない)場合です
# V1は行名になりますので変数はV2からです
rpartの実行結果を
rpart.plotでプロットする
rpart.plot(myrpart2201, type = 2, uniform = TRUE, extra = 1, under = 1, faclen = 0)
# プロットされた図を右クリックしてコピーや保存をします
RからExcelに
rpartによる分割結果の表をコピーする
write.table(myrpart2201$where, file="clipboard", sep="\t")


 https://neorail.jp/forum/uploads/tododo3_rpart.png

https://neorail.jp/forum/uploads/tododo3_rpart.png


4岩手
秋田
島根
5青森
山形
福島
茨城
栃木
群馬
富山
福井
山梨
長野
岐阜
三重
和歌山
鳥取
岡山
山口
徳島
香川
佐賀
大分
宮崎
8新潟
高知
熊本
鹿児島
9宮城
石川
静岡
滋賀
広島
愛媛
長崎
10北海道
12埼玉
千葉
愛知
京都
兵庫
奈良
福岡
沖縄
13東京
神奈川
大阪


 だいたいそうなるんですね。(※ひらがな)

 https://neorail.jp/forum/uploads/todowork21_rpart.png

https://neorail.jp/forum/uploads/todowork21_rpart.png


 こちら「社会経済分類別15歳以上人口」はどうなったかというと「農林漁業者」と「農林漁業雇用者」しか見なくていいですという回帰木ができる。まさに上野センセイおっしゃるところの「大脳シナプス連結を模倣したもの」「基本は二値論理」とはこのことだ。貴重な脳細胞を有意義に無駄遣いしよう。(違)

・いつかどこかで東急電鉄全面協力(違)「固型えのぐ」のイメージは東急ハンズ…デスカ!!(※白目)
 https://pbs.twimg.com/media/DFowlXsWsAQA8LY.png

 緑が好きだから緑だけ使う、といった感じ。混色という概念がない。これはまさに上野センセイの表現する通り「基本は二値論理」そのものである。わけもわからぬまま「重回帰分析」を振り回す人がしているのは、こういう「固型えのぐ」で緑だけ使うようなことなのである。幼児に「好きな色は?」と問いかけて「緑ー」と答えさせて変な暗示をかける。緑という色が嫌いでは生物として生きてゆけぬ。…じゃなくて、好きな色を挙げることと、その色しか使わないことが、なぜか直結してしまう。絵を描くとは、色を好き嫌いで選ぶことではない。ましてや混色もせずに1つの色の絵の具をそのままべたべた塗りたくるものでもない。そこをわかっていないから「重回帰分析」しか使わない(使えない)ということでもある。な・・・なんだってー!!(※白目)

※東急ハンズの見せかたというかこの商品がというか、フタのウラを使って混色するんだよというのがわからん商品である。

[4622]
 > 「房総半島」は、どこから先を言うのか。「チーバくん」のせいとはいわないけれど、千葉県ぜんぶが房総半島だと思わされていませんか。千葉市は房総半島ですか。…ギクッ。

[3884]
 > ひらがなで「ちば」と書けば千葉市ではなく千葉県という地方自治体を指す。県土の全体という意味ではなくてね。…なにそれ××い。

[3886]
 > > 千葉県庁の被害情報などの集約が不十分だったと指摘したうえで、災害に不慣れな自治体で大規模被害が予想される場合、ただちに「内閣府調査チーム」を派遣するとしています。

 > > 災害に不慣れな自治体
 > > 災害に不慣れな自治体

 > そういうことじゃないやいとは思うけれど…(てんてんてん)。人口と県土の面積(※注:それを「県土」という)と山地の険しさなどのバランスが(47都道府県の中で)「外れ値」みたいになってる(=全県が千葉市内みたいな地勢だと決めつけたみたいな人員配置しかない=)都道府県は千葉県のほかにはどこかな(※『ミニ北海道』だととらえて「支庁」を置けるようにしないと!)、という見かたを数字を使ってしないといけない。

3青森
岩手
宮城
秋田
山形
福島
茨城
栃木
群馬
新潟
富山
石川
福井
山梨
長野
岐阜
三重
滋賀
奈良
和歌山
鳥取
島根
岡山
山口
徳島
香川
愛媛
高知
佐賀
長崎
熊本
大分
宮崎
鹿児島
沖縄
4静岡
京都
広島
福岡
6北海道
埼玉
千葉
愛知
兵庫
8神奈川
大阪
東京


 それでも東京と神奈川と大阪は、それだけで1つにくくられるのね。(ねちねち)

■「R with Excel」(続き)

主成分分析を実行するmycmp22 <- prcomp(mydata22, scale=TRUE)
主成分分析の結果のサマリーを表示するsummary(mycmp22)
# 各主成分の累積寄与率が表示されます


 > Importance of components%s:
 > PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8 PC9 PC10 PC11 PC12 PC13 PC14 PC15 PC16 PC17 PC18 PC19 PC20 PC21
 > Standard deviation 4.323 1.06769 0.84908 0.4149 0.36826 0.2292 0.17670 0.13112 0.1209 0.08578 0.07322 0.06152 0.05702 0.04482 0.03759 0.03043 0.02398 0.02316 0.01964 0.01667 0.01059
 > Proportion of Variance 0.890 0.05428 0.03433 0.0082 0.00646 0.0025 0.00149 0.00082 0.0007 0.00035 0.00026 0.00018 0.00015 0.00010 0.00007 0.00004 0.00003 0.00003 0.00002 0.00001 0.00001
 > Cumulative Proportion 0.890 0.94427 0.97860 0.9868 0.99326 0.9958 0.99725 0.99807 0.9988 0.99911 0.99937 0.99955 0.99970 0.99980 0.99987 0.99991 0.99994 0.99996 0.99998 0.99999 1.00000

 わあぃ…(てんてんてん)。ちょっと余裕をとってPC9まで見ようかな(1.0を下回ってすぐのところまで見ようかな)という気持ち。(※あくまで気持ちです。)

データフレームを用意しますmydowo22 <- data.frame(cbind(mydata22[,2], mycmp22$x[,c(1, 2, 3, 4, 5, 6, 7, 8, 9)]))
つつしんでrpartでごんすmyrpartdowo2202 <- rpart(V1~., mydowo22, minsplit = 3)
rpart.plot(myrpartdowo2202, type = 2, uniform = TRUE, extra = 1, under = 1, faclen = 0)
write.table(myrpartdowo2202$where, file="clipboard", sep="\t")


 https://neorail.jp/forum/uploads/todowork21_cmp_rpart.png

https://neorail.jp/forum/uploads/todowork21_cmp_rpart.png


 「PLS回帰」([3572],[3717],[4221])の真似事みたいな回帰木(主成分分析をかませたCART法)ができました。本当でしょうか。そしてCART法による総当たりのごりごり(…総当たりのごりごり! ごりごり! …ごりごりっ!!)の結果(ぎゃふん)、「PC1」なんてのは「V1」そのものだから見なくていい、見るなら「PC2」と「PC7」を見なさいという『御託宣』である。…ハハーっ!(※正座)

 https://p1-e6eeae93.imageflux.jp/c!/f=jpg,w=1200,u=0/cookfan/1485702686fe1e604bf1.jpg
 https://media.istockphoto.com/id/470612294/ja/%E3%82%B9%E3%83%88%E3%83%83%E3%82%AF%E3%83%95%E3%82%A9%E3%83%88/%E8%96%AC%E5%89%A4%E5%B8%AB%E8%96%AC%E3%81%AB%E3%81%99%E3%82%8B%E3%81%99%E3%82%8A%E9%89%A2.jpg?s=1024x1024&w=is&k=20&c=Htuw--KQOV7mAfz-3K8L_roV-68O_BO_2u4k5xMdcC4=
 https://www.daido-kako.com/wp/wp-content/uploads/2021/09/9bac8ec6493857f0b8b0907f636011bc.jpg
 https://www.jiji.com/news/handmade/topic/d4_as/kfj328-jpp12840610.jpg

※一部の画像は白黒です。(※ソコジャナイ。)

4秋田
山形
東京
神奈川
富山
石川
福井
山梨
滋賀
京都
大阪
奈良
和歌山
鳥取
島根
岡山
山口
徳島
香川
佐賀
沖縄
5福島
栃木
群馬
埼玉
岐阜
三重
兵庫
広島
愛媛
高知
福岡
大分
7青森
宮城
千葉
新潟
静岡
長崎
熊本
8岩手
茨城
長野
愛知
宮崎
鹿児島
9北海道


 何も考えずに「重回帰分析」というのに匹敵する(と、個人的には思う)「MDS」([3740],[4548],[4629])でPC1とPC2の平面しか取り上げない(何も考えない)のに比べて、ここに挙げたような方法は粗雑ではあるけれど「PC2」と「PC7」を見なさいみたいな『御託宣』を引き出せるくらいには、マシな方法である。たぶん。

・「mycmp22$rotation[, c(2, 7)]」

PC2PC7
V2-0.079581266-0.092484137
V30.9108883400.139103256
V4-0.065088464-0.013714780
V5-0.021371859-0.055535717
V6-0.0600147480.148469126
V7-0.037104897-0.009850346
V8-0.1171363350.027273701
V9-0.0318767030.363463683
V100.055648783-0.003801695
V11-0.200614193-0.063096504
V120.0636041340.098658684
V13-0.0676865190.048912445
V14-0.033304720-0.035992013
V150.0588063370.386366602
V160.052487340-0.040646300
V170.0063169150.059872153
V180.258124020-0.715599357
V19-0.062074080-0.312361914
V20-0.008560642-0.101855269
V210.0130128270.056191059
V220.0973887900.136812098


 V3つまり「農林漁業雇用者」を大きく見るというのはPC2にも入ってくるけれど、そのほかにPC2ではV18「保安職」とV11「文筆家・芸術家・芸能家」、PC7では同じくV18のほか、V15「技能者」、V9「技術者」、V19「内職者」あたりを同じくらいずつ見ようということです。わあぃこれからは「保安職」と「技能者」「技術者」「内職者」あたりを見ようじゃないか…わあぃこれからは「保安職」と「技能者」「技術者」「内職者」あたりを見ようじゃないかっ!(※真っ赤)あと、同じ数まで気にしておこうかなということではPC2で4番目に絶対値が大きいV8は何かというと「専門職業者」であった。

・「保安職」とは
 https://www.e-stat.go.jp/classifications/terms/20/02/F

 > 国家の防衛、社会・個人・財産の保護、法と秩序の維持などの仕事に従事するものをいう。自衛官・警察官・海上保安官・消防員として任用されていて、医療・教育・事務などのように、他の分類項目に該当する仕事に従事するものも含まれる。

・「技能者」とは
 https://www.e-stat.go.jp/surveyitems/items/251030031

 > 企業、非営利団体・公的機関、大学等で実際に研究関係業務に従事している技能者の数。研究とは、事物、機能、現象などについて新知識を得るために、又は既存の知識の新しい活用の道を開くために行われる創造的な努力及び探求をいい、いわゆる学術的な研究のみならず、製品開発、既存製品の改良及び生産・製造工程の開発や改良に関する活動も含む。技能者とは、研究者及び研究補助者以外の者で、研究者又は研究補助者の指導及び監督の下に研究に付随する専門的な技術サービスを行っている者をいう。実際に研究関係業務に従事している技能者には、他の法人、団体など(以下「法人等」という。)から派遣されている者(労働者派遣法にいう派遣労働者)、在籍出向など、他の法人等に籍がありながら当該法人等に来て働いている者のうち、技能者を含む。他の法人等へ派遣している者(労働者派遣法にいう派遣労働者)、在籍出向など当該法人等に籍がありながら他の法人等で働いている者は除く。技能者の具体例として、検査・測定専門の技師、無菌動物の飼育に従事している者、試験用材料の作成・加工に従事している者などを含む。

・ここでいう「専門職業者」とは
 https://www.stat.go.jp/data/kokusei/2010/users-g/pdf/shakei.pdf#page=2

 > 研究者
 > 保健医療従事者
 > 法務従事者
 > 経営・金融・保険専門職業従事者
 > 教員

 「教員」のうち「小分類」が「50」(※書いてある番号が一致しない資料しか見ていないがたぶん「大学教員」)だけ「専門職業者」のほうに入れる。職業の表面的な形式ではなく立場や役割をよく見ての分類です。

・(再掲)
 http://sk-photo.main.jp/tetsu/2009/0308123/130.jpg
 https://www.mikanmike.com/wp-content/uploads/2011/05/DSC01259.jpg
 https://dhiemueichi.c.blog.ss-blog.jp/_images/blog/_6ee/dhiemueichi/m_IMGP0913_R-59a3f.JPG
 http://chironet.way-nifty.com/.shared/image.html?/photos/uncategorized/2012/07/12/c1205a0524.jpg

 「ミニエコー」みたいな名前の力士がいるでしょ。(違)

 https://ja.wikipedia.org/wiki/%E7%90%B4%E6%81%B5%E5%85%89%E5%85%85%E6%86%B2

 > 趣味は寝ること。

 https://upload.wikimedia.org/wikipedia/commons/0/09/%E4%BC%8A%E8%97%A4%E8%8B%A5%E6%B2%96%E7%AD%86_%E8%91%A1%E8%90%84%E5%8F%8C%E9%B6%8F%E5%9B%B3-Hen_and_Rooster_with_Grapevine_MET_DT10494.jpg

 > 好物はチキン南蛮。
 > 宮崎県出身の関取誕生は草竹以来32年ぶりとなった。

 それはぜったいチキン南蛮が好物にならざるを得ない。(キリッ

・(2018年6月26日)
 https://www.sponichi.co.jp/sports/news/2018/06/26/kiji/20180625s00005000389000c.html

 > 宮崎県出身として金城以来44年ぶりの新入幕

 ますますチキン南蛮であります。(※謎の実況)

 > しこ名に入る「恵」は(以下略)

 https://tenhama.up.seesaa.net/image/IMG_3310-a58c3.JPG
 https://www.jaf.or.jp/jafnavi/membership/facility/detail/big-echo/img/image04.png

 いかにして「ミニエコー」みたいな音になったのか知りたい。(※恐縮です。)

[4843]
 > たゆたうシチューうどん。(※詠嘆)

・(1月12日)
 https://www3.nhk.or.jp/lnews/miyazaki/20230112/5060014514.html

 > 日南市では12日、市内の3つの小学校と2つの中学校の合わせて5校の給食が当初予定されていたパンからごはんに変更されました。

 > 男子児童は「きょうはメニューにシチューがあるのでごはんはちょっと合わないかなと思う。またパンが出るようになってほしいです」と話していました。
 > 一方、女子児童の1人は「私はパンよりもごはんのほうが好きなのでちょっとうれしいです。これからずっとごはんの給食でもいいです」と話していました。
 > このほか、「ごはんもパンも好きなので1か月に3回くらいはパンも出してほしいです」と話す男子児童もいました。

 これがもともとの宮崎発のストレートニュースだったわけですが、後日、全国ニュースになったときには、ラジオとテレビで、それぞれ「切り取り方」が違っていた。ラジオでは「ごはんのほうが好きなのでちょっとうれしいです」発言を紹介していたがテレビでは出していなかった。大人は先回りしてものすごく心配するきらいがあるが、子どもがあまり気にせず食べてくれているようすを伝えて関係者をほっとさせることも使命だとは思う。「シチューうどん」にならない限りは、とてもまともな給食である。(※個人の感想です。)

・(再掲)
 https://img.hmv.co.jp/image/jacket/800/81/9/5/176.jpg

 > 欲しいものを
 > ていねいに
 > 言ってみよう!
 > 切り取って使える

[4812]
 > …「切り取って使える」切り取って使えるっ。

 > > 切り取って使える

 > …「切り取って使える」切り取って使えるぅ!

・「t(mycmp22$rotation[c(7, 14, 17),])」

V8V15V18
PC1-0.223756877-0.21631746-0.216475842
PC2-0.1171363350.058806340.258124020
PC30.213766254-0.384310370.120364632
PC4-0.2289868020.138712430.310552867
PC5-0.057073308-0.09152180-0.090958583
PC60.080666513-0.14197527-0.191852947
PC70.0272737010.38636660-0.715599357
PC80.357443482-0.07051401-0.004597833
PC90.3604933500.487635410.311649472
PC10-0.1401506000.100643620.295874699
PC110.418064478-0.249756820.044377759
PC120.2701404610.45496925-0.043457661
PC13-0.0387947050.050669400.071214733
PC14-0.3862445120.156578830.006541998
PC150.119417447-0.09268694-0.090809502
PC160.147540836-0.16790449-0.082209885
PC170.0439950950.02232099-0.050849074
PC180.008410034-0.047109030.052207192
PC19-0.2532336070.051299130.013888549
PC200.2213189420.111358750.064592163
PC210.024921789-0.033443880.008617757


 これは相関係数の行列のようなものと思っても(大ざっぱに結果を自分だけで見るときは)よいと思うので、ここに並ぶ数字は相関係数と同じ見かたをすれば、とりあえずよいでしょう。ああ、あの「ほとんど相関がない」みたいな言葉で書いてあるやつね!(きらーん

 https://kdsv.jp/news/wp-content/uploads/2015/07/20150713_sg_04.png

※いい感じに気の抜けた言いかた。(※言いかた)そもそも相関係数ごときで最終の結論など出すものじゃないから気が抜けてていいんですよ。(ぼかーん

 https://pixta.jp/audio/78544231
 https://pixta.jp/audio/98109770
 https://pixta.jp/audio/81134078
 https://audio16.pimg.jp/mp3/616/930/100/1039616_sample.mp3
 https://audio12.pimg.jp/mp3/274/093/100/1390472_sample.mp3
 https://audio16.pimg.jp/mp3/615/180/100/1081516_sample.mp3
 https://tk.ismcdn.jp/mwimgs/4/7/-/img_47d2b879a7347d322bb75393e49b3b7c110510.jpg

 > 本当の駅では、つかえません

[4606]
 > 多次元の空間のイメージなど、じぶんがわかれば(≒わかった気になれて、それ以上、特に気にならないようにできれば)それでいい(げふ)どうしてもといえば「重力レンズ」のイメージでいい。ただし「重力レンズ効果」のイメージではなく「重力」そのもの=ベクトル(風向・風速のイメージ!)を3次元の空間にプロットしたようなイメージで「プラスワン」の次元をイメージすれば“御の字”じゃないか。

 算数の「比例と反比例」の単元と混同して「正の相関」「負の相関」(つまり符号)を強く意識するかたもおられましょうが、これは多変量解析ですから符号は気にしないで絶対値で見ていきます。

 V18のほうから見て、最もV18を大きく見ようという主成分はPC7なんだけれども、PC9というのは、PC7に次いで大きくV18を見ようという主成分であることがわかります。(※微妙な言いかた)これに対してV8とV15のほうは、これを突出して大きく見ようという主成分はないということがわかります。(※さらに微妙な言いかた)

・「printcp(myrpartdowo2202)」

 > Root node error: 1611.5/47 = 34.287

 > n= 47

 > CP nsplit rel error xerror xstd
 > 1 0.764741 0 1.000000 1.04457 0.76656
 > 2 0.178553 1 0.235259 1.02740 0.76736
 > 3 0.030756 2 0.056706 0.68475 0.60775
 > 4 0.015214 3 0.025950 0.64989 0.60846
 > 5 0.010000 4 0.010736 0.69840 0.65868

・「cp = 0.001」でやりなおし
 https://neorail.jp/forum/uploads/todowork21_cmp_rpart_cp.png

https://neorail.jp/forum/uploads/todowork21_cmp_rpart_cp.png


 圧倒的にPC2じゃないかっ(げふ)PC7の次にはPC6を見よとおっしゃる。

5東京
富山
福井
山梨
京都
大阪
奈良
鳥取
徳島
香川
6秋田
山形
神奈川
石川
滋賀
和歌山
島根
岡山
山口
佐賀
沖縄
7福島
栃木
群馬
埼玉
岐阜
三重
兵庫
広島
愛媛
高知
福岡
大分
10青森
宮城
新潟
長崎
熊本
11千葉
静岡
12岩手
茨城
長野
愛知
宮崎
鹿児島
13北海道


・「mycmp22$rotation[, c(2, 6, 7)]」

PC2PC6PC7
V2-0.079581266-2.352665e-01-0.092484137
V30.910888340-1.073853e-050.139103256
V4-0.0650884641.644734e-01-0.013714780
V5-0.0213718592.163353e-01-0.055535717
V6-0.060014748-1.783049e-010.148469126
V7-0.0371048971.973429e-02-0.009850346
V8-0.1171363358.066651e-020.027273701
V9-0.031876703-3.267771e-010.363463683
V100.0556487835.532303e-02-0.003801695
V11-0.2006141932.595448e-02-0.063096504
V120.0636041347.782460e-010.098658684
V13-0.067686519-6.226023e-020.048912445
V14-0.033304720-5.634185e-02-0.035992013
V150.058806337-1.419753e-010.386366602
V160.052487340-1.757704e-01-0.040646300
V170.006316915-5.436425e-020.059872153
V180.258124020-1.918529e-01-0.715599357
V19-0.0620740801.082263e-01-0.312361914
V20-0.008560642-1.911175e-02-0.101855269
V210.013012827-3.575929e-020.056191059
V220.0973887906.856221e-020.136812098


 はにゃーん。なぜ指数表記になるのだ。(※遠い目)

PC2PC6PC7
V2-0.080-0.235-0.092
V30.911-0.0000.139
V4-0.0650.164-0.014
V5-0.0210.216-0.056
V6-0.060-0.1780.148
V7-0.0370.020-0.010
V8-0.1170.0810.027
V9-0.032-0.3270.363
V100.0560.055-0.004
V11-0.2010.026-0.063
V120.0640.7780.099
V13-0.068-0.0620.049
V14-0.033-0.056-0.036
V150.059-0.1420.386
V160.052-0.176-0.041
V170.006-0.0540.060
V180.258-0.192-0.716
V19-0.0620.108-0.312
V20-0.009-0.019-0.102
V210.013-0.0360.056
V220.0970.0690.137


 Excelで整形した。(※恐縮です。)PC6まで持ち出してきて3次元で見るということは、V2「農林漁業者」とV9「技術者」をもっと見るということと、V12「管理職」を見ようということでした。…なんてこったい。(※遠い目)官公庁に関しては東京とそれ以外という違い以外はあまり違わないかなということにしておくとして(ぎゃふん)、民間企業の本社や工場が多く立地していれば「管理職」も多い。えー…(てんてんてん)。

 ただ、これはやはり回帰木も重回帰分析のなかま(※言いかた)なので、PC6まで使って見分けているのは、木の下のほうの狭いところだけなんです。全域でPC6を考慮したわけではない。「青森・宮城・新潟・長崎・熊本」ではPC6が小さくて「千葉・静岡」では大きい。この2群を見分けるためにしかPC6は使われてこないんです。そんなことがわかってだれがよろこぶというのでしょうか。PC2とPC7で見えるところまでを見るだけでよかった。(※音声を変えています。)

・「管理職」とは
 https://www.jil.go.jp/institute/zassi/backnumber/2005/12/pdf/004-017.pdf

 > しばしば,国勢調査の日本標準職業分類の「管理的職業従事者(大分類)」の約200万人程度をもって管理職とされているが,その3分の2は会社・団体等の役員であるため, 注意を要する。

 > 社会経済分類は,職業および従業上の地位を考慮して作成した区分である。1970年以降集計され,2000年は,22 の区分がある。「管理職」は,標準職業分類の大分類の「管理的職業従事者」のうち,中分類の「公務員」と,中分類の「その他の管理的職業従事者」のうち従業上の地位が「家族従業者」または「雇用者」であるものとしている。

 お父ちゃんが社長でお母ちゃんが専務である。(息子が専務というタイプとは違う。お母ちゃんがバリバリである。…だって、男どもは海に出ちゃうから!)

 > なお中分類は他に「会社団体等」の「役員」しかない。
 > 「その他の管理的職業従事者」は,日本標準職業分類の中分類で,会社・公益法人・組合・特殊法人などの法人・団体における課(課相当を含む)以上の内部組織の業務を管理・監督する仕事に従事するものなどをいう。

・(♪〜)
 https://pbs.twimg.com/media/FSTSInVUcAAkWwL.png
 https://guide.jr-odekake.net/spot/13684/image/no/1/size/10.jpg
 https://www.tsjiba.or.jp/kankou/images/icon/ogp-twitter.png

 新潟で工場といえば米菓と鍋!(ぐぇ)工場は大きいが工場の種類や数は少ない。それに比べると千葉や静岡は水産会社や食品加工会社の種類が(まぐろだけとかいわしだけとかみたいに)多い。1つ1つは小さいけれど会社が多いから「管理職」が多い。静岡では漁船の数だけ会社があるんじゃ(ぐぇ)&千葉では成田と幕張に本社のある会社が多いのでは。(※言いかた)

[4105]
 > 専門家はエキスパート! 静岡のダイエーで売ってた激安パソコン(※当時)についてきたあの有名なソフト

・(再掲)
 https://www.dreamcast.nu/wp-content/uploads/2019/06/Compaq-Presario-CDS-520.jpg
 http://h10032.www1.hp.com/ctg/Manual/c01854458.pdf
 https://auctions.c.yimg.jp/images.auctions.yahoo.co.jp/image/dr000/auc0101/users/b197b7b5b7e0665f497fd2be36d6e4eb18dcac07/i-img640x480-1578902967flieoh598254.jpg
 https://auctions.c.yimg.jp/images.auctions.yahoo.co.jp/image/dr000/auc0101/users/b197b7b5b7e0665f497fd2be36d6e4eb18dcac07/i-img480x640-1578902978tfxcli602570.jpg

 何を隠そう「A列車で行こう4 for Windows」というソフトである。(※なぜかすごく照れながら!)

・(再掲)「Homepage Builder Version 6.0.3.0 for Windows」(※ソコジャナイ)
 http://www13.plala.or.jp/hiro1999/wakwak/hurettuai.htm

 > 7月の初旬、パソコンショップに行くと静岡市は7月25日から常時接続で定額料金でインターネットができることを若いアルバイトの女の子が団扇を配りながら宣伝をしていた。

 http://sky-crews.com/promo/wp-content/uploads/2011/07/22.jpg

 コレジャナイ。

・(再掲)
 http://d.hatena.ne.jp/ekke/20070318/1174206043

 > たぶん1994年のことだったと思います。静岡のTOPOS(当時のダイエーの一業態)の電気製品売り場を何気なく見ていると、聞いたことのない外国製パソコンが無造作に山積みされ87,800円とかで売られていました。けばけばしいカラー印刷が施された外箱を見ると、カラー画面上になにかのプレゼン資料っぽい、かっちょいいグラフが描かれています。売り場の店員さんに「このパソコン、カラーなの?」と訊くと、そうだと言います。即決して当時乗っていたホンダ・ドマーニの後部座席に押し込んで持ち帰りました。

 こういう感じが静岡と同じくらい千葉でもあるんでしょうね。

・(2009年7月18日)
 https://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q1328431283

 > ブログなどで「かっちょいい」をよく目にするのですが、
 > 若者言葉ですか?

 えー…(てんてんてん)。「ブログ」というものを出始めの時期(2003年まで)に始めた世代の人は多用するよ。うん。(※個人の感想です。)

[4526]
 > うっかり「ARXヤングがんがん(4969)」が出てしまった。ひらがなだし「ARX紅の源さん(17881)」に免じて、ここはどうかお許しください。

 半蔵さんの甘栗モンテがとまらない。

[3574]
 > 主成分分析(ひいてはMDS)を使いながら、(可視化の都合だという言い訳をしながら)あらかじめ第2主成分までしか使わないと決めつけてしまうような分析例も散見されましょう。

[4628]
 > 「黒板のメタファー」に縛られ続ける「学校の数学」と同様に、▼論文やスライドに載せられる(平面の)図表と、▼見栄えのする可視化、それに▼ほんのわずかな時間の口頭発表で発表できてしまうような(わかりやすい=割り切った)内容ばかりが横行するという悪循環。

 15分で発表しろという形式だけになってしまっては研究活動が「いわば大衆化」しすぎて、学生には発表の場が『公平に』与えられはするけれども研究者が育っていかない。時間も形式も無視して好きなだけ議論させろやい。…お、おぅ!(※私見です。)

[4967]
 > 「荻窪消防署つき」:「トルコ行進曲つき」「合唱つき」の「つき」をひらがなで表記する流儀がある。なんでもかんでも漢字で書くのが絶対に正しいなどと思わないように。

 そのノリで「主成分分析つき回帰木」とひらがなで表記してみた。いかがだっただろうか。(棒読み)

・(参考)いますぐ「RでPLS回帰」(※恐縮です)
 https://www.rdocumentation.org/packages/pls/versions/2.6-0
 http://www014.upp.so-net.ne.jp/acremaker/r2.html

 > RMSEP値は小さい程よい回帰式が得られているといえます。

 「R2値(決定係数)」の代わりにこれを見よということですね、わかります!(棒読み)

 https://www.jstage.jst.go.jp/article/jacc/54/0/54_0_420/_pdf/-char/ja

 > 取り込む潜在変数の増加に対する予測値の平方平均二乗誤差(RMSEP:root mean squared error of prediction)の減少推移にも注意して判断

 > 縦軸に「RMSEP値」を取ったグラフで,この折れ線の減少推移から

 …だめじゃん! あらぶる二荒山神社…じゃなくて、ふれねる主成分分析でいう「スクリープロット」([3587])と同じことを言っていてホイヘンスだよおねーちゃん!(※表現は演出です。)

[3587]
 > > 6.1.3 The Scree Graph and the Log-Eigenvalue Diagram
 > > An alternative to the scree graph, which was developed in atmospheric science, is to plot log(lk), rather than lk, against k; this is known as the log-eigenvalue (or LEV) diagram (see Farmer (1971), Maryon (1979)).

 > デスヨネ〜…。対数でプロットしないで「どやぁ」みたいなの低〜い!(※感想は小町です。)

 > 固有値で見ると(44変数からの主成分分析で)第7主成分まで採るべしと示唆されていながら「スクリープロット」を見て結局、2つだけでいいんだというのは、ドイツの地ビールの『バリアシオン!』をぜんぶ無視する(※ハイネケンと、地ビールというものが半分ずつあるんだね、といって、個々の地ビールには目を向けない)に等しいといえましょう。

 そういうやわなことには頼らずに潜在変数の数を決めるか、決めかねるならぜんぶ使ひたまへよしょくん(「恣意的に変数選択」せず「ぜんぶ使う」ときは特に根拠はいらない?:「スクリープロット」を使って決めたと言い張るのはかえって信頼性を下げませんかねぇ)みたいなことを誰か言ってくださいオネガイシマス。(※主成分分析で出てくる成分をぜんぶ使うというのは、多重共線性の解消だけに着目したときにはまともな方法でしょうが、しかし、ぜんぶといってその数が44もあると、その後の工程でだめになるっぽいよね、の意。)

※この「PLS回帰」に関する箇所は、なんと2018年4月の日付で下書きしたまま塩漬けになっていたものをそのまま掲載しました。「PLS回帰」でなければいけないというまでの例題のうまいのを考案できなかった。「主成分回帰」より『いいやつ!』というノリしかないなら、「PLS回帰」なんて必要ないだろうということなんじゃないですか。…知らんけど!(※恐縮です。)

・MathWorksの説明です
 https://jp.mathworks.com/help/stats/plsregress.html

・「クリスティアーン・ホイヘンス」ご近影のイメージです
 https://ja.wikipedia.org/wiki/%E3%82%AF%E3%83%AA%E3%82%B9%E3%83%86%E3%82%A3%E3%82%A2%E3%83%BC%E3%83%B3%E3%83%BB%E3%83%9B%E3%82%A4%E3%83%98%E3%83%B3%E3%82%B9

 「重回帰分析」より『いいやつプリーズ!』(※直訳)というノリで「主成分回帰」を知った人が、すぐにまた『もっといいやつプリーズ!』(※直訳)というノリで「PLS回帰」を見つけ、まるで冬用タイヤに取り替えるみたいに(「取り替え」という方法ですぐに使えると思って)やってみたら、ぜんぜんできない。問題設定から見直さないと、じぶんの仕事には「PLS回帰」を導入できない。…だー・かー・らー!!(ぎゃふん)「PLS回帰」というものを自分で調べて自分で導入しなきゃいけないなんてシーン自体が(学習者が誤って迷い込むという意味で)荒唐無稽なんです。たぶんですけどね。別の言葉で言えば、オンライン学習(※オンライン学習って意味じゃないです)やデータ同化といった、実験方法も評価の方法もぜんぜん変わらざるを得ない、そういうふうに問題のとらえ方自体を変える必要があるのが、「PLS回帰」を導入するということだと思うんです。(※あまりよくわかってないまま書いてます。)

・(再掲)「主成分分析」元デンソー氏の見解です(2016年9月11日)
 https://xtech.nikkei.com/dm/atcl/column/15/415548/091100016/?P=4
 https://xtech.nikkei.com/dm/atcl/column/15/415548/091100016/?P=5

 > 多変量解析を使わないあなたは、電流値を変える効果の大きさを知らず、時間しか見ていなかった。それでもめっき処理はでき、製品を造ることはできる。しかし、生産効率を落としていることには気付いていません。ここでは時間、すなわち生産効率に着目しましたが、品質に対しても同じです。多変量解析を使わなければ、生産効率も品質も高めることができないのです。

 > 確かに、多変量解析には難解な数式が出てきます。重回帰式や判別式、主成分分析、クラスター分析などなど。多変量解析をこうした数式を使って理論を中心に学ぶと挫折しがちです。計算も手計算で大変なのです。

 > 実は、かつてトヨタグループもそうでした。理論的な説明が中心の多変量解析の研修を行っていたところ、難しくて、技術者といえども実務で使いこなせなかった。研修の講座として学んでおしまいで、実践には至らない。それでは多変量解析を学ぶ意味はありません。

 > こうして理論を学んだ上で手計算する方法をやめ、計算を自動化できるソフトウエアを使うことにしました。加えて、実践形式の研修を始めました。講義に加えて、職場から持ち寄った課題をテーマにグループワークを行う方法を取り入れたのです。すると、現場での多変量解析の活用率が飛躍的に伸びました。

 > 使うのは、統計的品質管理(SQC)解析ソフトウエア「JUSE-StatWorks」。とても簡単に解析できます。

[4014]
 > 「JUSE-StatWorks」なら「これを使っておけ(おれについてこい)方式」もとい「ホワイトリスト方式」みたいなものだから安心である。
 > 「JUSE-StatWorks」なら「これを使っておけ(おれについてこい)方式」もとい「ホワイトリスト方式」みたいなものだから安心である。

 > (マニュアルを含めて)至れり尽くせりすぎるパッケージ(ソフト)だから、変なありがたみがついてまわるけれど、本来「R」で同じことができる上で「JUSE-StatWorks」を使うという“2段構え”であってほしい。「JUSE-StatWorks」を使えるだけでは危うい。

・「オンライン学習って意味じゃないオンライン学習」の検索のしかた「オンライン学習 機械学習」で!
 https://www.ai-gakkai.or.jp/resource/my-bookmark/my-bookmark_vol30-no5/

 > オンライン学習は,機械学習における学習の枠組みの一つである.オンライン学習の枠組みでは,全データを一度に用いること無く,データが一つ(あるいは全データの一部)与えられるたびに,与えられたデータ のみを用いて逐次的にモデルを改良する.

 > そのデータのみを用いて逐次的にモデルを改良する.このデータ処理方式の性質から,メモリやキャッシュに全データが乗らない規模のデータ解析や永続的にデータが生成される環境下での学習が効率化できる.

 そこに改行文字だったのかなと思われる半角空白があったので改行してみました。(※ソコジャナイ。)

[3669]
 > 「PLS回帰」(※説明変数と目的変数の全体でPCAしてから主成分を説明変数として目的変数を説明しようとする回帰=ちょっと『答え!』も見てからフィッティングする感じが「データ同化」に片脚を載せている感じでGOOD!!)

 自分の理解を確かめるために例題を作ろうとして、それが作れないんだから、自分は理解できていないのだ。(※恐縮です。)

・(2015年5月21日)
 http://b.hatena.ne.jp/entry/252706915/comment/elu_18

 > Hellinger距離に対してPCAを行い,単語の意味表現を作っても深層学習で作ったのと同程度の性能が得られるという論文.

 ほぉお。(以下略)一応、「階層的クラスタリング(ウォード法)」による「デンドログラム」も描いてみます。やったらその通りに描けるわけだけれども、それはどういう意味なのか。えー…(てんてんてん)。

[4359]
 > バンクーバーは京都である。お茶漬けはいただくべきか断るべきか。バンクーバーである。(※白目)もっといえばウゲゲな洋食でアンカレッジは西船橋である。○か×か。

 > スケールを変換すれば西船橋もまたアンカレッジである。もっと○か×か。

 PCAを行なってから(PC1からPC21まで軸が21ある21次元の空間上の「点」としての47都道府県の相互の距離を総当たりで求めてつくる行列=)「距離行列」でウォード法。それはさすがにウゲゲとしか…(てんてんてん)。

 https://www.ouj.ac.jp/mijika/tokei/xml/k3_06004.xml

 > 多次元尺度構成法(MDS)と共通点の多い各手法がある.
 > 数量化III類はアルゴリズムが異なるが,ダミー変数を用いて主成分分析や因子分析を行っても似たような目的が達成できる.

 > 解析者が勝手に質的データに数値を与えて間隔尺度のように扱い,既存の多変量解析手法を適用していることに対する反省を出発点としている.
 > 同氏のグループによる啓蒙普及活動は特筆に値する.このため日本においては,質的データの解析が日常茶飯事となった.このように,林の数量化は日本におけるデータ解析を豊かなものとしたが,現場技術者の間に多少の混乱が認められる.すなわち,一部では数量化といえば林の数量化を指しているきらいがあり,他の数量化に無関心である傾向がみられる.

 ここなんですよね。そこまで言及しておいてなお「林の数量化理論」という名前と体系([3469])で教えちゃうんですよね。(※音声を変えています。)「林の数量化理論」でいう「IV類」「V類」あたりの問題意識が、今回の話と近いかなとは思います。そこで必要になるのは、だれそれが提唱したなになに法を使いましたというのでなく、数理面がクリアーで(アカデミックに)『合意のある』方法(いわばプリミティヴな方法)だけを使って(せいぜい組み合わせる程度で)いかに鮮烈に解析してみせて考察しきるかということでは、ないんですかねぇ。(ねちねち)

■「R with Excel」(続き)

階層的クラスタリングを実行する
(ウォード法)
myhccmp22 <- hclust(dist(mycmp22$x),method="ward.D2")
plot(myhccmp22, cex=0.7)
rect.hclust(myhccmp22, k=5, border="red")


 https://neorail.jp/forum/uploads/todowork21_cmp_hclust.png

https://neorail.jp/forum/uploads/todowork21_cmp_hclust.png


 うーん。

 https://neorail.jp/forum/uploads/todowork21_cmp_hclust9.png

https://neorail.jp/forum/uploads/todowork21_cmp_hclust9.png


 「k=9」にしてプロット。これは強引に階層的クラスタリングしちゃった上で機械的にどこで切るというだけの操作であるので、所望の数に分けることはできるが、意味があるのかはこれだけを見ていてもさっぱりわからないとだけ…(てんてんてん)。

※恐縮です。

・「mycmp22$rotation[, c(1, 2, 3, 4)]」に「社会経済分類」を補ったもの

PC1PC2PC3PC4
V2農林漁業者-0.22831668-0.0795812660.107877383-0.032534836
V3農林漁業雇用者-0.040899410.9108883400.053002860-0.332873389
V4会社団体役員-0.22624047-0.0650884640.170915013-0.283777419
V5商店主-0.22260890-0.021371859-0.048338127-0.229887304
V6工場主-0.22656791-0.060014748-0.177848743-0.172074421
V7サービス・その他の事業主-0.23039418-0.037104897-0.039965379-0.086450925
V8専門職業者-0.22375688-0.1171363350.213766254-0.228986802
V9技術者-0.22723968-0.0318767030.0808691570.204850665
V10教員・宗教家-0.229670600.055648783-0.0510902460.146353417
V11文筆家・芸術家・芸能家-0.21111716-0.2006141930.314600457-0.458276685
V12管理職-0.222695230.0636041340.0575907450.355895053
V13事務職-0.22943164-0.0676865190.0826418530.007451948
V14販売人-0.23061564-0.0333047200.0332426500.086324174
V15技能者-0.216317460.058806337-0.3843103660.138712434
V16労務作業者-0.230225410.052487340-0.0007464730.108033746
V17個人サービス人-0.230824270.0063169150.052968180-0.050946477
V18保安職-0.216475840.2581240200.1203646320.310552867
V19内職者-0.17116016-0.062074080-0.767090561-0.256277723
V20学生生徒-0.23047459-0.0085606420.0333955100.099931141
V21家事従事者-0.229873660.0130128270.0299009060.185486911
V22その他の非就業者-0.226738260.097388790-0.0167561130.132854789


 うーん。いわゆる主成分分析や、いわゆる「MDS」で、PC1とPC2だけを見たときには、V19を無視するということになるようすが見えます。V19を考慮する必要がないならそれでよく、V19を考慮する必要があるとかV19こそに注目したいんだということがあれば、PC3も使えということです。PC1は、なるほどV2からV22までだらーんと薄く広い相関を持つ(※そのように作られるのが第1主成分もとい「主成分というもの」ですけど)とはいえ、なんといっても薄い。(※トートロジー)PC4まで進むと、いくつかの変数についてはかなり大きな情報(≒相関)を持つわけです。自分はどこを見たいのか。それをまったく考えないままPC1とPC2だけを見ていて、本当にいいんでしょうか。(※投げかけ)

 主成分分析という呼びかたで習って「バイプロット」で見るのに慣れているかたは、もちろんそれでいいんです。でもまあ、データによっては「バイプロット」を人の目で見てああだこうだとは、言う気がなくなってきます。

・「biplot(mycmp22)」
 https://neorail.jp/forum/uploads/todowork21_cmp_biplot.png

https://neorail.jp/forum/uploads/todowork21_cmp_biplot.png


・「biplot(mycmp22, choices=c(2,7))」
 https://neorail.jp/forum/uploads/todowork21_cmp_biplot_2-7.png

https://neorail.jp/forum/uploads/todowork21_cmp_biplot_2-7.png


 ここでPC1だけではV3を見ないからPC2を、PC1とPC2だけではV19を見ないからPC3を見ようというと、それはそれでまた「重回帰分析」の変数選択のような“粗雑さ”(微調節が効かない感じ)が出てしまうわけです。V3とV19が、何かすごく特徴的なものであるかのように錯覚させてしまう。でも、それはPC1というものをそういうふうにこしらえたときの残りかすということであって、V3やV19そのものに大きな特徴があるというわけではない。ここをCART法に任せると、PC1はPC1すぎるから見ないということにしてスキップして、PC2の次は、どんどんスキップしてPC7を見よというんです。V3やV19がうまくブレンドされた主成分をとってきて、『PC1とそれ以外』(「直交する」)という平面とは違う、ぽやんとした平面を見せてくれるわけです。(※言いかた)

 https://t15.pimg.jp/034/308/385/1/34308385.jpg

※画像はイメージです。

 あと、ここで回帰木に説明させた被説明変数V1は「人口集中地区人口(率)」でした。ここを、冒頭に挙げたほかの2つに変えてみるとか、そもそも被説明変数(目的変数)を3次元に『拡張!』するとか、そういうことを試していきながら(以下略)それはさすがに…(てんてんてん)。

・『拡張!』とは
 https://service.nikkei-r.co.jp/glossary/path-analysis
 https://www.nikkei-r.co.jp/files/user/images/glossary/1650_01.png
 https://service.nikkei-r.co.jp/glossary/covariance-structure-analysis

 > 重回帰分析は目的変数が1個の統計モデルである。パス解析はそれを発展させた、複数の目的変数を含む統計モデルである。モデルが複雑になるため、方程式ではなくパス図で表現するため、パス解析という名前がついている。

 > パス解析は観測変数のみのモデルであったが、SEMは潜在変数と観測変数の両方を、目的変数(従属変数)にも説明変数(独立変数)にも設定できる柔軟性を持つ。

 わあぃ共分散構造分析。(※悲鳴)ニワトリと卵を区別しない。ニワトリが卵になり、卵がニワトリになる。(※言いかた)こういうところが、機械学習や「AI(人工知能)」の文脈でいえばオンライン学習やデータ同化っぽい(…POI!)と感じるところです。あと、日本語を整理して「説明する」「説明される」「説明変数」「被説明変数」に一本化する(「説明」という言葉だけでぜんぶ言う=単語を減らす! 大統領の演説!! セクシー構文っ! わくわくするICT!!!)だけで初学者にはかなりやさしくなる。これは大学で習うものなので初等の(検定)教科書のような語彙の統制がないに等しい。数理的にほとんど同じ方法でありながら分野によって、ひいては先生によって呼びかたが違うのでは、たまったものではありません。(※個人の感想です。)

[4109]
 > 「先生が間違えた!!」「出題ミス!! ××しる!!」みたいなノリ

[3821]
 > 教科書や辞書みたいに書け
 > 先生みたいに説明しる!
 > できないなら黙ってて!!

 > ※教科書も辞書も先生もどれだけすごいかわかってくると大人です。

[4101]
 > > 塾講師やってるときに「こんな小さな塾の用意したテキストよりも学校の教科書の方が金かかってる」って話は教えてた子にはしてたからね。

 > いいねーいいねー。

 大学で使う『教科書』は、そういう意味ではまったく金がかかってないのである。(※事実)

[4626]
 > > 身もフタもない。

 > 大学の教員の身もフタもなさというのは、高校生から見ると許しがたいものかもしれないとは思う。

 そういうところに『大学人』(※古い言いかた)は疎すぎたきらいがある。長閑な時代というものは、膨大な落第者の上に築かれていたのである。(※もっと言いかた)

[4779]
 > 「わからないことは先生が全部知っていて、教えてくれる」を、大学の教員に求めてはいけない。高校でも、いくらかはそういうことになってくる。「わからないことは先生が全部知っていて、教えてくれる」は、せいぜい小学校のうちである。「わからないことは先生が全部知っていて、教えてくれる」から脱却するための『助走』が中学校でできていないと、高校に行ってから困るはずだ。

・(2022年8月25日)
 https://same.su-gaku.net/tanaka

 > 理数探究とは、生徒が自ら研究テーマを決めて問いを立て、さまざまな研究手法を用いて社会や学術の中にある “答えの用意されていない課題” に取り組むというものです。

 > 旭丘高校では、理科は物理・化学・生物・地学のすべてを、数学は数IIIまでを、全員が学ぶカリキュラムになっており、基本的に文系、理系の区分がありません。そしてSSH事業の課題研究においても、人文科学や社会科学など文系的なテーマも寛容に受け入れているのです。これらのテーマを選択した生徒は、実験ではなくデータ分析や統計的な手法などを使って研究を進めています。

 > 私はこの学校で教諭を務めるなかで、全員が全教科を学んでいることによる知識の豊富さや、ディスカッションにおける考え方の多様さ、さらに自分とは異なる考えや成果を寛容に受け入れる風土などを肌で感じています。
 > 文系、理系の区分のない探究的な学びがより多くの学校に広まって「文理融合」につながるとともに、こうした風土が育まれていくとよいかなと願っています。

 2022年度からの理数探究という文脈でいえば、理数探究で理科じゃないテーマを選んで、そこでわかりやすい多変量解析をすごくばっちりマスターして自信満々で文系の学部に進学したときに、大学の教員の多変量解析の知識と技能が『化石!』みたいに見えるということが、2025年度には起きるだろうということなんです。ありがとうございました。(棒読み)

※もちろん理由も意味もあって『化石!』になっている(している)側面もある。だけど、それが大学の新入生には『化石!』に見えてしまう。そこをうまく翻訳というか通訳するような「接続!」がないと困りますよ、という話でした。

 > まず生徒と教員の方々には、ぜひ探究を楽しんでいただきたいと思います。もちろんたいへんな場面もありますが、生徒にとって探究活動は「教えられる」ことから離れて、自分が見つけてきた課題に自由に取り組める、またとない貴重なチャンスですから。
 > また教員にとっても、自分の知らなかったテーマや、自分にはない視点と出合う機会といえます。ぜひ生徒がもってきた課題に対して価値を置き、一緒に楽しんだり、悩んだりしてほしいですね。

 > 旭丘高校では、課題研究を1日の終わりの6時間めに設け、実験が長くなったり課外調査に行ってそのまま自宅へ帰ったりしても、問題ないようなしくみにしています。

 おおー!(※感嘆)15分で発表しろという窮屈すぎる形式は、自然に廃れていくんじゃないかという大胆な予想をしておこうと思います。


この記事のURL https://neorail.jp/forum/4969/


この記事を参照している記事


[4979]

「A列車で行こう10にあったらうれしいもの」とは(再)

2023/2/1

[5029]

【A9・Exp.】年齢別の楽しみ方

2023/6/1

[5070]

実例に見る日英対訳(40) 「富と名声」と「山吹色のお菓子」

2023/8/1

[5078]

外房線を「テレトピア構想」ほかで読み解く(談)

2023/9/1

[5084]

【A9・Exp.】「ロールプレイ」とは

2023/9/1

[5090]

シャーウッドがピクミンしてパーティーバーレル

2023/9/29

[5104]

【すんぎゅうずかんだんかん】『京都肉』を斬る(DAN)【ジャイロキャノピー】

2023/10/10

[5105]

これからは参考文献の時代だ(談)

2023/10/10

[5174]

【アップル】「かわいい」は半蔵門線【歌舞伎】

2024/3/1


関連する記事


[4544]

研究ホワイトボックス(46) 複雑なデータと「対話」するには〜郵便番号データを例に(主成分分析編) tht - 2021/5/13


[4545]

研究ホワイトボックス(47) 複雑なデータと「対話」するには〜郵便番号データを例に(バイプロット編) tht - 2021/5/13


[4296]

子どもがひねり出す謎の『理路』(11) tht - 2020/11/1


[4547]

研究ホワイトボックス(48) 複雑なデータと「対話」するには〜郵便番号データを例に(回帰木編) tht - 2021/5/13


[4347]

「テレビ視聴時間の規定要因を探る」(2016年7月)を読み解く(前編) tht - 2020/12/1


[4546]

春日井熊野町店は17分「三菱←→ドンキ」と「羽犬塚←→黒木」の違い【パスコあり】 tht - 2021/5/13


[5244]

【あのシステム】「ぼくのかんがえたさいきょうの京葉線ダイヤ」とは何か(談)【大みか】 tht - 2024/7/7


[5239]

コロナ社「土木・交通計画のための多変量解析(改訂版)」(2024年3月)こもごも(談) tht - 2024/5/1






neorail.jp/は、個人が運営する非営利のウェブサイトです。広告ではありません。 All Rights Reserved. ©1999-2024, tht.