フォーラム - neorail.jp R16

【自由研究】の話題

 → 茨城県内で必要な「主論文・野帳・掲示物」とは? 【詳細】(2017/10/19) NEW!
 → 【自由研究】の記事一覧(新着順)


【研究ホワイトボックス】

研究を楽しく「追体験」! 真っ白のキャンバスに虹色の未来を描く方法、教えます。
R with Excel prcomp | kmeans・hclust | rpart | ggvoronoi | spantree | lm NEW!


2021年5月の話題
更新:2021/11/3

[4545]

【研究ホワイトボックス】

研究ホワイトボックス(47) 複雑なデータと「対話」するには〜郵便番号データを例に(バイプロット編)


「R with Excel」(続き)
「R with Excel」(続き)
「R with Excel」(続き)
「R with Excel」(続き)

(約8000字)

 「主成分分析編」([4544])からの続きです。


[4544]
 > 本日「このフォーラム」、▼[3707],[3724]と▼[3708]、それに▼[4417],[4418],[4421]と▼[4419],[4431]などからの続きです。

[4543]
 > 工学はサイエンスじゃないから(!?)

 > 「スイス1000フラン紙幣の真札と偽札各100枚の6個の計測値データ」で何をしてもサイエンスじゃない(*)というのは17歳くらいの高校生しょくんにも一瞬でわかってもらえると思う。

 > 固有ベクトルについての説明もやさしいかというと、やや「?」ではあった。サイエンスではなくアプリケーションなのだという(主成分分析を使う側の)立場が不鮮明なまま説明しているきらいがあった。「こうすると決めたんです」「こう使うんです」という、主成分分析を使う側の責任をはっきりさせたい。結び目で知恵の輪のように宇宙の真理とはいわないけれど、そこに何がしかの数学上の完全性とか美しさがあるかのように受け取られては困る。主成分分析の結果をサイエンスの成果のように振りかざす報告者が生じないように注意しなければいけないと思った。

 ▼47都道府県それぞれでの数という47個の数字と、▼「pref」「city」の数字は、別のことを言っている数字なので、あわせて使って49次元にしてもよかった。

■「R with Excel」(続き)

mycmpzipall <- prcomp(myzipall, scale=TRUE)
library(mclust)
clPairs(mycmpzipall$rotation[,c(1,2,3,4,5,6,7,8)])
clPairs(mycmpzipall$x[,c(1,2,3,4,5,6,7,8)])


 こういうことでね。ちゃんとデータの1列目は行名になってくれているから、ここでは列を指定しないでぜんぶということで済む。やったね。(棒読み)

[3994]
 > 表にしてみました。(※ジト目)

・PC10まで

PC1PC2PC3PC4PC5PC6PC7PC8PC9PC10
Standard deviation3.56061.48001.385651.153541.118191.05931.026081.01430.991040.98513
Proportion of Variance0.25870.04470.039180.027160.025520.02290.021490.02100.020040.01981
Cumulative Proportion0.25870.30340.342620.369770.395290.41820.439680.46070.480720.50053


 https://neorail.jp/forum/uploads/r_myzipall_cmp1to8_rotation.png

https://neorail.jp/forum/uploads/r_myzipall_cmp1to8_rotation.png

 https://neorail.jp/forum/uploads/r_myzipall_cmp1to8_x.png

https://neorail.jp/forum/uploads/r_myzipall_cmp1to8_x.png


 そして、第8主成分までを散布図行列にするとわかるけれど、なるほど第1と第2だけで「平面に布置!」するMDSごっこの気持ちが伝わってくる(PC1とPC2が「直交」してることだけは見た目でわかる=どんな行列を放り込んでもこのようなPC1とPC2を出してくれるのが主成分分析だ)。(※ジト目)PC7とPC8のプロットに至っては、何らかの正規分布みたいな山に見えてくる。本当でしょうか。

 ここで、もし「k=5」のクラスタリングをしたらどうなるでしょうか。ま、中心に梅干しを置いてからご飯を4等分して、梅干しの風味がついてるご飯と、それ以外のご飯という(ぐぇ)しつれいしました。クラスタリングのイメージを幕の内弁当のイメージでお伝えしました。

・「MINIプレミアムシウマイ弁当」(2017年7月10日)
 https://netatopi.jp/article/1069651.html

 > サイズは縦15.6×横15.6×高さ4.7cm
 > 俵型ご飯には、金胡麻がかかり、塩のみで漬け込み丹精こめて天日干しした小田原産梅干がのっています。
 > 「特製シウマイ」
 > 「えびシウマイ」
 > 焼き魚は、胡麻の風味とピリ辛の味付けで香ばしく焼き上げた鮪の利休焼。鶏肉は唐揚げではなく蒸し鶏として、生姜と一緒にさっぱりと酢の物に。とびこや山せり、錦糸玉子などと和えて見た目も華やか。
 > 筍はより食感と風味を楽しめるよう、穂先筍を使用
 > 梅型人参、ふき
 > いつもは生姜とペアの昆布も、今回はにしんと一緒
 > かまぼこ、玉子焼き、あんずは通常と同じ

 https://netatopi.jp/img/ntp/docs/1069/651/2.jpg

 仮にPC1からPC8までを使ってクラスタリングすると、それで何か言った気になれるのは、この弁当の「俵型ご飯」のところだけで、そのうち梅干しが染みているところとそれ以外に分けるだけ(あえていえば「金胡麻」からの距離!)、そのほかに「特製シウマイ」などの顕著なおかずがあるんですよ。…「顕著なおかず」!!(※言いかた)それは「それ」そのものだから主成分も何もなくて、むき出しで「それ」である。(※「それ」に傍点。)▼「KY軒」を題材にした例題については[3573],[3574],[3575]、▼「4000個のシウマイ弁当」については[3982]を参照。

■「R with Excel」(続き)

k-means(k=5)を500回実行して
ベストな解を出す
mykmzipall5 <- kmeans(mycmpzipall$x[,c(1,2,3,4,5,6,7,8)], 5, nstart=500)
散布図を描くlibrary(mclust)
clPairs(mycmpzipall$x[,c(1,2,3,4,5,6,7,8)], cl=mykmzipall5$cluster)
# プロットされた図を右クリックしてコピーや保存をします


 https://neorail.jp/forum/uploads/r_myzipall_cmp1to8_x_k5.png

https://neorail.jp/forum/uploads/r_myzipall_cmp1to8_x_k5.png


 うーん。さすがに「顕著なおかず」はPC1でわかってくれているのではないか。ただし「特製シウマイ」から「あんず」まで、それ(※「それ」に傍点)が何であるかは区別しないで、「顕著なおかず」であることだけを認識していることにならないか。「あんず」は「おかず」ですか。えー…(てんてんてん)。(※表現は演出です。)

 https://kiyoken.com/wp/wp-content/uploads/2020/04/20anjelly_670a.jpg
 https://www.walkerplus.com/article/14099/image50535.html
 https://news.walkerplus.com/article/14099/50535_615.jpg

 > アンズ。オリジナルのシロップ漬けは、甘すぎずほど良い酸味がうれしい。デザートとしてもGood!

 散布図というのは目で見てわかる(気になれる)のが利点ですから、それを遺憾なく発揮していただくと、PC3とPC6、PC3とPC8のプロットが、この散布図行列の中ではいちばん、散らばっているように見えます。PC1とPC2では、外れ値的なものとそうでないものを分ける働きしかしておらず、いわゆるMDSっぽいことをして平面で示したいとすれば、PC3とPC6や、PC3とPC8のようなプロットにしないと、それっぽく見えないのではないかとか思えませんか。そんなことを思ってよかったのでしょうか。本当でしょうか。(ぶつぶつ)

[3403]
 > > この場でじぶんが見逃せばじぶんも何かに問われるのだという切迫感が重要なんです。
 > > この場でじぶんが見逃せばじぶんも何かに問われるのだという切迫感が重要なんです。

 > 漫然とマニュアル通りに疑いさえすれば見抜けるなんて、とんでもない。

[4419]
 > 駅前スタジアム前駅前店でファミチキ。(違)

 > 回すぜ? …回すぜぇ?(※鼻息)

 > 高座渋谷でファミチキバンズ(タルタルソース)!(もっと違)

 > 熊野つよい。(※白目)

[4519]
 > 人生はバラ色で大阪は庭である。

 https://www.ozmall.co.jp/Content/upload/images/CV2R4WUWZ7XI6323ZPOGPMME4Q.jpg
 https://wing-auctions.c.yimg.jp/sim?furl=auctions.c.yimg.jp/images.auctions.yahoo.co.jp/image/dr273/auc0309/users/0/2/6/3/cddvdfan2000-imgbatch_1506410523/494x500-2017092300002.jpg&dc=1&sr.fs=20000
 https://neorail.jp/forum/uploads/r_myzipall_cmp1to8_x_k5_pc3_pc6.png

https://neorail.jp/forum/uploads/r_myzipall_cmp1to8_x_k5_pc3_pc6.png


 うーん。「あなたはなになにタイプ。」みたいに決めつけて言い聞かせるようなテレビや雑誌の占いのレヴェル。ちゃんと顔を見ての占いじゃない。なんかそんなかんじ。(※ひらがな)

[4528]
 > 「そもそもわかっていないことに気づ」くことを恥としかとらえないとか、それを全力で回避すべく屁理屈をこねてでも反論したいとか、そういう態度ではいろいろな機会を逃してしまう。

 > > 「それを先に言ってよ!!」の筆頭格ですよね、わかります!!(棒読み)

 > それを発明した数学者は酒豪だったのかとかいうエピソードでも紹介して時間をつぶせばいい。

・JMP「主成分分析の例」
 https://www.jmp.com/support/help/ja/14-2/mm-principal-components-3.shtml#161603

 > レポートには、固有値と、各主成分によって説明される変動の割合を示す棒グラフが表示されます。

 > また、主成分スコアのプロットと、主成分負荷量のプロットも表示されます。

 https://www.jmp.com/support/help/ja/14-2/images/IntroPic.gif

 > 主成分スコアは点で、主成分負荷量は矢印で描かれています。

 これと同じのを描きたい。

 https://oku.edu.mie-u.ac.jp/~okumura/stat/pca.html

■「R with Excel」(続き)

バイプロットを描くpar(cex=0.8) # 文字を小さく
biplot(mycmpzipall)
# プロットされた図を右クリックしてコピーや保存をします


 https://www.city.himeji.lg.jp/atom/planet/stargazing/meteor/meteorite/bunka.jpg
 https://neorail.jp/forum/uploads/r_myzipall_cmp1to8_biplot.png

https://neorail.jp/forum/uploads/r_myzipall_cmp1to8_biplot.png


 おおー。V2とV3(「pref」と「city」)が大きい「本町」みたいなのをひっぺがすのがPC1だといいました。すごーくしつれいしました。そういうのを先に除外しておればよかった。

 V33は和歌山県で、V31は兵庫県。V9は山形県で、V14は埼玉県。北海道から沖縄県までを都道府県コードの順で並べているので数字の大きさでだいたいわかってください。「三菱←→ドンキ」でいえば「緑町←→山田」という軸が(縦に)見えるが、見たかったのはそういうことじゃないやい。なお、この言いかたをすれば横は「本町←→本町ならざるもの」である。「ならざるもの」のほうは、特にどれということはなかった。

 PC2のほうは、どうも東日本っぽさ(?)と西日本っぽさ(近畿っぽさ)を分ける軸になったようである。「ご当地度」とはいいがたい。これまたすごーくしつれいしました。

 https://www.excite.co.jp/news/article/Suumo_25131/

 > 埼玉県熊谷市、岐阜県多治見市といえば、最高気温をたたき出したことからも猛暑の街として全国的に知られている。ここで興味深いのは、この両都市はいずれも内陸部の盆地に位置している点だ(ちなみに山形市も同様)。

 たたき出しマグカップもね!(違)「東日本っぽさ」というよりは「盆地っぽさ」を指しているのかも知れず、そういう意味では和歌山県や兵庫県といって、その位置を言っているのでなく、海からいきなり急峻な山ですという地形を指している…のかもしれない。(※恐縮です。)そのような違いは、水田をつくれるところがほとんどありませんといった形で地名に反映されてきます。ここで使っているデータは「郵便番号データ」から抽出した町名だということを思い出しておきます。町名の分布というデータしか使っていないのですから、そこから言えないことを好き勝手に想像して述べてはいけないのです。

[3705]
 > 記録的な数字をたたき出すメガ○○
 > (7±2くらいの桁数の数字を出して自慢したり勝負したりしたい)

 > メガロポリスの
 > インフレナンバーは
 > カウンターストップで

[3916]
 > …ここは大都会ひょうご。きょうも1日の仕事を終えた××たちが集まってくる。薄暗いカウンター席。往年のヒットナンバーがかかる。(違)

 そんな××たちをよそ目に、たたき出しマグカップでミルク。ちいなさ祝宴。ひとりぼっちのルーキー。(もっと違)

※「ちいなさ」に傍点。

 https://cdn.asagei.com/syokuraku/uploads/2021/01/20210111-nekoneko01.jpg
 https://shop.afternoon-tea.net/img/goods/GL26-20201170/L/GL26-20201170_4.jpg

※画像はイメージです。本文とは無関係です。

■「R with Excel」(続き)

PC3とPC6で
バイプロットを描く
par(cex=0.8) # 文字を小さく
biplot(mycmpzipall, choices=c(3,6))
# プロットされた図を右クリックしてコピーや保存をします


 https://images-na.ssl-images-amazon.com/images/I/71YhP-14ZzL._AC_SX466_.jpg
 https://neorail.jp/forum/uploads/r_myzipall_cmp1to8_biplot_pc3_pc6.png

https://neorail.jp/forum/uploads/r_myzipall_cmp1to8_biplot_pc3_pc6.png


 おおー。なんでもいいからばらけて見えてくれればいいや&いちばんばらけるのがいいや。そもそも分散を使うのが主成分分析なんですから、分散こそ正義。(キリッ

※上掲の「k=5」の色分けのように、この「PC3−PC6平面」で何か言うなら、せいぜい「中心部からの距離」と「中心部ではPC3の得点の正負」でざっくり分けるくらいのもの。「八幡」と「八幡町」は「正反対」ということではなく、「中心部からの距離」がじゅうぶん大きいよ(ある程度以上離れたらどれも同じだよ)としか言っていないわけです。

 別の言いかたをすれば、V2とV3が目立つ形には出てこないからこれでいいや、という言いかたもできましょう。あえていえば、この平面に対するZ軸の方向に追いやったかたち。(※体言止め)V46とV14も、そういうところにあります。えー、なになに?(以下略)V46は大分県で、V14は埼玉県っと。

 https://dailyportalz.jp/b/2013/08/12/b/img/pc/007.jpg

 Z軸の方向って、こうですか? わかりませーん!(棒読み)

 https://neorail.jp/forum/uploads/r_myzipall_cmp1to8_x_k5_pc4_pc5.png

https://neorail.jp/forum/uploads/r_myzipall_cmp1to8_x_k5_pc4_pc5.png

 https://neorail.jp/forum/uploads/r_myzipall_cmp1to8_biplot_pc4_pc5.png

https://neorail.jp/forum/uploads/r_myzipall_cmp1to8_biplot_pc4_pc5.png

 https://pbs.twimg.com/media/EynaqePWYAAa94d.png

 V14とV46を開いて見せる「PC4−PC5平面」であったー。(棒読み)

 https://livedoor.blogimg.jp/aneko325/imgs/3/0/30d7690b.png
 https://blog-imgs-41-origin.fc2.com/b/e/h/behoiminjp/00403toge.jpg
 https://pbs.twimg.com/media/E05-zjlVgAEKzUg.png
 https://www.shinko-keirin.co.jp/keirinkan/rika/jissen/0909/5nen/images/tukitotaiyo.jpg
 https://opac.ll.chiba-u.jp/da/curator/104424/S13482084-65-P015-SHIB.pdf

 V4からV49まで(北海道から沖縄県まで)が四方八方にとげとげしてるのをテキタウな向きから見て、その向きで見て見えるのは常に一面だよね、ということ。(※言いかた)

 http://ibis.t.u-tokyo.ac.jp/suzuki/lecture/2015/dataanalysis/L7.pdf

 > CHAS チャールズ川沿いかどうか

 このチャールズ川が…すごい!(※ソコジャナイ。)

 https://imgfp.hotp.jp/IMGH/10/18/P037551018/P037551018.jpg

 > 主成分分析はデータ解析において「とりあえずやってみること」の一つ.

 かわいいはつくれる! 分散はつくれる!(違)

 https://www.cospa.com/images/items/pc/36551.jpg

 > バラツキ(分散)が最大の方向

 バラツキ(分散)が最大の方向で!(※「で」に傍点。)

 https://thumbs.dreamstime.com/b/abstract-red-powder-explosion-black-background-abstract-red-powder-explosion-black-background-abstract-red-powder-splatted-155419502.jpg

 > 分散が大きい→そのデータを特徴付ける方向

 ほかのものとの違いがいちばんよく見えるということです。実は違いがなくても違いがあるかのように見せるということです。わずかの違いを大げさに言うのです。ありがとうございました。(違)


この記事のURL https://neorail.jp/forum/4545/


この記事を参照している記事


[4544]

研究ホワイトボックス(46) 複雑なデータと「対話」するには〜郵便番号データを例に(主成分分析編)

2021/5/13

[4546]

春日井熊野町店は17分「三菱←→ドンキ」と「羽犬塚←→黒木」の違い【パスコあり】

2021/5/13

[4547]

研究ホワイトボックス(48) 複雑なデータと「対話」するには〜郵便番号データを例に(回帰木編)

2021/5/13

[4548]

いわゆるMDSとPCAの違い【t-SNEのBarnes-Hutアルゴリズムあり】

2021/5/13


関連する記事


[4969]

研究ホワイトボックス(49) とにかく「主成分分析つき回帰木」するには tht - 2023/1/1


[3669]

【自由研究】ゆるシミュ(9) tht - 2018/8/16


[3639]

【自由研究】ふわコレ(6) tht - 2018/4/30


[3636]

Re:[3583] 或るナポリタンと停電のハフソク(則) tht - 2018/4/10


[3868]

まだ見ぬ「ドリームかまち」を探して(インサイト編) tht - 2019/12/30


[3582]

10年後に読む「よりよい環境創造のための環境心理調査手法入門」(2000年5月) tht - 2017/12/7


[3879]

【A9V1】「広域都市計画」を斬る(至) tht - 2020/1/4


[4072]

「照焼大橋」不滅なれ(ゆんゆん編) tht - 2020/5/21






neorail.jp/は、個人が運営する非営利のウェブサイトです。広告ではありません。 All Rights Reserved. ©1999-2023, tht.