フォーラム - neorail.jp R16
発行:2020/2/7
更新:2021/11/3

[3925]

【快速】「R with Excel」ーん(※訂正あり)


(約5000字)

 2008年くらいの気分でツイッターを見たいときって、ありませんか。…なにそれじぶんの知ってるツイッターと違う!!(※表現は演出です。)

・きょうはツイッターでk-means。(字余り)
 https://twitter.com/search?q=k-means%20lang%3Aja&src=typed_query&f=live

 ツイッターって、こんなにきれいだったっけ。(違)

 https://twitter.com/halpal02_mof28/status/1190186313271562241

 > k-means,meanshiftの語をひさびさにきいた

 それはよかったですね。(違)

・きょうはきょうとてツイッターでWard法。(字足らず)
 https://twitter.com/search?q=%22Ward%E6%B3%95%22%20lang%3Aja&src=typed_query&f=live

 > 自己組織化マップがward法使ってクラスタ分けしてるぽいから先にクラスター分析でクラスタ数求めるワンステップが少し面倒…

 なるほどそういう説明があったか。(棒読み)

 > 結局、ward法で階層型クラスタリングして、目視とシルエット係数で判断することにした。この手の分析で、結局目視が重要な判断基準になってしまうのは何とかならんものか。。。。ならないか、人間にとって都合がいい結果を追っているのだし。

 えーっ…(てんてんてん)。

 > 今日は、Ward法でうまく分かれたのか分かれてないのか分からんときに、t-SNEかますとなんか違いがありそうだってのを定性的には示せそうだってことに気が付いた。
 > Ward法は分散を使うから、暗に正規分布を仮定してるせいだろか。

 それはそれとして、さすがに解釈が人手なやつなので卒研そして題材がアレなのが多い。…よきかなよきかな!(※恐縮です。)

 > サンプルから得たクラスタの特徴を外的基準と照合してからが本当の考察に繋がります。なかなか、そこまでできません。

 外的基準がないのに何かしちゃってるんですか。「なかなか」とか「そこまで」という問題じゃなくて、すごく問題じゃないですか。…知らんけど!(棒読み)

 > 非類似度データから個体のクラスタリングするために,まずはMDSをして付置を求めてそれを階層的クラスタリング(ward法)…って手続きがなんか気持ち悪い.そこまでward法に固執しなくてもいいと思うんだが.距離行列法とかスペクトラルクラスタリングとかのほうが良いような気がする.

 …デスヨネ〜。

 > これまでRのhclustのWard法では距離の2乗を入れるように!と注釈がさりげなくされることがあったのはそういうことか。明示的に、"ward.D"(こちらで自乗して入れる。従来通りのデフォルト)か"ward.D2"(勝手に自乗してくれる)オプションで指定できるようにしたんだね。

 ウゲゲ。(※悲鳴)

・わけあってprcomp()。(※白目)
 https://twitter.com/search?q=%22prcomp%22%20lang%3Aja&src=typed_query&f=live

 > Rで主成分分析を実装しているprcomp()の出力に対してpredict()が効くのあまり知られていないのかもしれない

 それを主成分回帰(PCR)という。(棒読み)

 > PCA のためにSVD か固有値分解するもんだと思ってた。
 > と言うかR の prcomp は中で svd やってた。

 そこがいいんですよ!(キリッ

 > prcompでbiplotに頼らない主成分分析結果の図示。左上から時計回りに、「第一主成分と第二主成分による主成分スコアプロット」、「第一主成分負荷量のプロット」、「第二主成分負荷量のプロット」、「寄与率と累積寄与率のプロット」

 うーん。

 > 放送大学見てる。R で主成分分析やってる。prcomp 関数であら簡単。すばらしい

 https://youtu.be/xCoH2AORcEQ?t=25




 すばら(略)ひきがつよい(違)げふ。


 そういうわけで、このフォーラム「R with Excel」の中でWard法を使うときに、用意した行列をそのまま「ward.D」していた箇所を「ward.D2」に直しました。

[3884]
 > 「ward.D2」を指定する必要がありましたが「ward.D」で実行しちゃいました!! …なんてこったい。もともと、このデータでWard法してもだめだよねといいたかった。しつれいしました。なあに「距離の平方根」を使ったクラスタリングをしたってことよ。…いいっていいって!(違)差異が見えにくくなっているわけですが、そもそも40ものサンプルでデンドログラムを描こうというのだから「入れ替わり」は起きないのではないか。えー…(てんてんてん)。

 > なあに「距離の平方根」を使ったクラスタリングをしたってことよ。
 > なあに「距離の平方根」を使ったクラスタリングをしたってことよ。

 …それを「強弁」という。結果を直さずに強弁して済ます場合もあるのではないか。(…ないよ!!)

 > うーん。ひとことでいえないくらい結果が変わった。

 だからいわんこっちゃない。(※しつれいしました。)

 > 期せずして「ward.D」を誤った使いかたで使った場合との比較ができてしまった。

 それでもなお「強弁」するのであった。(違)

・(再掲)
 https://youtu.be/3o2eJir0nTs?t=48




 「まわれ! ぼくらの大分空港」をご覧いただきました。きょうもまわっていてよかったですねー。(違)

[3900]
 > きょうこのときをわたしたちはわすれません。(※なぜかカップヌードルの同時通訳みたいにナレーションしてください。そして唐突に何らかの常套句みたいなのの定訳を無意味に差しはさんでください。)

 5分前まで「あす」と言ってたのに、0時をまわると「きょう」なんですよ。(違)

 https://www.weblio.jp/content/%E3%81%BE%E3%82%8F%E3%82%8B

 > (時計の針が通り過ぎることから)その時刻を過ぎる。
 > 客の気に入るように努める。
 > ある範囲に行き渡る。
 > 十分にはたらく。
 > 資金が利息を生む。

 「まわる」ほどの多義語もあるまいて。…あるよ!!(違)

・日付変わって(違)きょうは『回らないマクロミル』を堪能していただきます
 https://www.macromill.com/service/data_analysis/cluster-analysis.html
 https://www.macromill.com/wp-content/uploads/images/service/data_analysis/cluster-analysis/image_001.png

 > 階層クラスター分析のようなデンドログラムが得られるわけではありません。

 デンドログラムを得たいから階層クラスター分析するのである。1%でも後味がいいのである。はいは1回、ボスは2分28秒でたおせー。(キリッ

 > 30程度以下
 > 変数(集計結果等)
 > デンドログラムを見ながら結合の過程を直感的に理解できる

 > 分類する対象が非常に多い場合には、計算量が非常に多くなってしまい実行不可能になったり、結果の解釈が難しくなったりという欠点もあります。

 マクロミルさんの説明を参照すると、Ward法ひいてはデンドログラムを描いて言葉で説明して顧客(※調査の発注者)をぎゃふんといわせるとき、そこで投入するのは変量と変量の距離の行列だとか、属性などで分けたサンプルとサンプルの間の距離(※)だとか、そういう、それより前のところでかなり要約されたり抽象化されたりしているものをもってきてデンドログラムするんだと読めます。そういう説明が、Ward法の例題みたいなテキストだけではよくわからないまま終わっちゃうんだよねということでした。(※恐縮です。)

※それはつまり属性と属性の距離を見ていることになるだろうか、の意。

[3703]
 > 「お届け先にお届け済み」デース。(違)

 > たけなかこうむてんデース!(違)

 10日間で××できる××がある。○か×か。…そもそも××じゃん。(※表現は演出です。)

[3245]
 > 月がかわった途端に「先月29日」(「きのう」「おととい」より前だと日付で参照される、の意)と、もう、『先月』といわれただけで「平均15日前!(標準21〜28日くらい前!)」の感覚が強いられる

 もっとだよね。(※ソコジャナイ。)

・「シルエット プロット」
 https://jp.mathworks.com/help/stats/silhouette.html
 https://jp.mathworks.com/help/stats/createsilhouetteplotexample_02_ja_JP.png

 > シルエット プロットは、同じサイズの2つのクラスターにデータが分割されることを示しています。2つのクラスターのすべての点でシルエット値が大きい (0.8 以上) ので、クラスターが十分に分離されていることがわかります。

 じっくり見ないと、いちばん小さいのが0.8だと読み取るのがむずかしい。(…ソコジャナイ。)

 https://jp.mathworks.com/help/stats/createsilhouetteplotexample_03_ja_JP.png

 > 2つのクラスターのすべての点でシルエット値が大きい (0.6 以上) ので、クラスターが十分に分離されていることがわかります。

 0.6でもいいんスか。(…ソコジャナイ!)

 > 各点のシルエット値は、他のクラスターの点と比べて、その点が自身のクラスター内の他の点にどれくらい相似しているかを示す尺度です。

 > シルエット値の範囲は –1 〜 1 です。高いシルエット値は、i が自身のクラスターに十分に一致し、他のクラスターにはあまり一致しないことを示します。ほとんどの点のシルエット値が高い場合、クラスタリング ソリューションは適切です。多くの点のシルエット値が小さいか負である場合、クラスター化の解に含まれるクラスターの個数が多すぎるか少なすぎる可能性があります。

 そのうえでなお、そのようなクラスタリングになったのが妥当なのかそうじゃないのかは、わたしたちの責任で判断しなければならないのです。シルエット値が大きいから正しい? …ののんのん! そういうクラスタリングになりましたよということを計量してくれる(度合いを示してくれる)だけであって、正しいか正しくないかなど何も言っていないということを忘れてはいけません。


この記事のURL https://neorail.jp/forum/3925/


この記事を参照している記事


[3934]

「からコレ」とは何か(再)

2020/2/29

[4413]

きょうはオージービーフでジオフロント。

2021/2/1

[4634]

ふれねる「自由研究 数学」の計(KEI)

2021/8/25

[4653]

ツールとは何か

2021/11/16

[4762]

【通快】「R with Excel」ーん

2022/6/1

[5055]

続々々・「日本語がおかしい」(中川編)

2023/7/7

[5060]

元祖「胸キュン」とカネヨ石鹸「重曹ちゃん」(2023年日本)

2023/8/1


関連する記事


[4639]

ふれねる「自由研究 数学」の位(CRY) tht - 2021/8/25


[4239]

Re:[4236] 全自動CBD(ゴゴゴゴゴ)博多までの(談) tht - 2020/10/1


[4543]

【東口直結】特異値分解とは何か(再)【多様な個性が響き合う】 tht - 2021/5/1


[4347]

「テレビ視聴時間の規定要因を探る」(2016年7月)を読み解く(前編) tht - 2020/12/1


[4641]

うるう年の翌年の10月1日 tht - 2021/10/31


[4236]

きょうは三ツ境で三都物語。 tht - 2020/10/1


[5070]

実例に見る日英対訳(40) 「富と名声」と「山吹色のお菓子」 tht - 2023/8/1


[4208]

3桁のオーダー / ウエストサイドソフトハウス / ほか tht - 2020/9/16






neorail.jp/は、個人が運営する非営利のウェブサイトです。広告ではありません。 All Rights Reserved. ©1999-2024, tht.