フォーラム - neorail.jp R16
2021年5月の話題
更新:2021/11/3

[4548]

いわゆるMDSとPCAの違い【t-SNEのBarnes-Hutアルゴリズムあり】


(約7000字)

 [4544],[4545],[4546],[4547]の続きです。

[4544]
 > 本日「このフォーラム」、▼[3707],[3724]と▼[3708]、それに▼[4417],[4418],[4421]と▼[4419],[4431]などからの続きです。

 続きというよりは、補足です。(※恐縮です。)


 いいですか。「いわゆるMDSとPCAの違い」という先入観のカタマリみたいなクエリで検索していては、わかるものもわからなくなります。「違いはない」という答えに近づけなくなってしまうのです。それをじぶんでしてしまうからたちがわるい。(※ひらがな)

[3452]
 > 『循環=イコール=排除すべきもの!』との固定観念に過度に支配されぬよう

[3507]
 > 「千葉=イコール=海でしょ☆ちゃんと知ってるよ」とのイメージが先行

[3484]
 > ハリウッド=イコール=ふぁいやー

[3348]
 > 『補助金=イコール=バウチャー』ですね
 > 『ポライトネス=イコール=敬語』ですね

[3449]
 > 『単線=イコール=遅いんでしょ』との素朴な先入観

[3508]
 > 「地下線=イコール=お高い」

[3494]
 > 「低床式=イコール=ゆっくり走るんでしょ」

[3480]
 > 「調色=イコール=塗装業(の専門用語)!」とかいうのも「「調色」を変換候補に出さないMS-IMEは××!」とかいうのも

[3514]
 > 「AI=イコール=機械学習=イコール=協調フィルタリング(利用履歴データに基づくレコメンド)=イコール=いわゆるビッグデータでしょ★ちゃんと知ってるよ」との、あなたいったい何段論法(※)なんですかっ…いえ、確かにそういう一連の分野というのはあるんですけれども、機械学習もAIもそれだけじゃないでしょ(つなげるときの関係性は「イコール」しかないわけじゃないでしょ※)

 あれでもないこれでもないとぶつぶついいながらヤカンやどんぶりや枕を放り投げてください。大根は投げないでください。さっき投げたボールが地球を1周してきてじぶんに当たる演出があるともっといいぞ!(違)

 https://contents.oricon.co.jp/special/img/53000/53434/detail/img320/1564718241473.jpg

[3747]
 > …パピコ!(違)

・「主成分分析と古典的多次元尺度構成法の比較」
 https://jp.mathworks.com/help/stats/classical-multidimensional-scaling.html

 > 点間のユークリッド距離を使用して cmdscale を呼び出すと、結果は、記号の変更まで PCA とまったく同じになります。

 しょぼーん。(違)

 > より関連性の低い変数のセットでは、より多くの次元が必要になることがあります。4 つ以上の変数が必要な場合、視覚化にはそれほど意味はありません。

 > 大きい固有値が 3 つを超えると、点の良好な低次元構成を検出できず、距離を容易に視覚化できなくなります。

 この2つの文が同じことを述べていると理解できたか確認させませう。(※使役)

 > 相関行列の情報の視覚化がそもそも可能なのかどうか、つまり、次元数を 10 から 2 または 3 に削減できるのかどうかを判断することが重要です。cmdscale によって返された固有値が、この判断の鍵となります。この場合、これらの固有値のスクリーン プロットは、変数を表現するには 2 つの次元で十分であることを示しています (下のプロットの固有値には負の値がいくつかありますが、最初の 2 つの固有値と比べて小さいものです)。

 多くの場合に、何も考えずに『PC1−PC2平面』で見る。それでよかったのでしょうか。本当でしょうか。

 > 多次元尺度構成法を使用した相関行列の視覚化

 「多次元尺度構成法を使用した相関行列の視覚化」みたいな使いかたに一般化したら、それはもう「いわゆるMDS」とは言い難いとみなすかどうかが、分野によって違うから混乱があるのではないか。えー…(てんてんてん)。

[3740]
 > > 一言で言えば、t-SNEとMDSの違いは何ですか?

 > 「t-SNE」:MDS([3676])のげんだいばーん。

・(再掲)
 https://jp.mathworks.com/help/stats/visualize-high-dimensional-data-using-t-sne.html
 https://jp.mathworks.com/help/stats/visualizehighdimensionaldatausingtsneexample_01_ja_JP.png

 > tsne は、PCA を使用してデータの次元数を元の 784 から 50 に削減してから、t-SNE の Barnes-Hut アルゴリズムを使用して 2 または 3 に削減します。

 http://domitry.hatenablog.jp/entry/2013/12/31/181532

 > 力学モデルについて調べていたらBarnes-Hutのアルゴリズムという手法を見つけたのでためしに書いてみたメモ。
 > ノード間の相互作用を計算するときに計算量を減らすためのアルゴリズム。
 > 多体問題のシミュレーションに使うのかなと期待したけどそんなことはなかった。(計算が全く厳密でない)

 > 初期条件が悪いと汚いグラフができるのでKamada-Kawaiのアルゴリズム等でうまい初期条件を見つける工夫が必要。

[4347]
 > そもそも無理に2次元でプロットしようとするのが不適切。(※見解です。)

 「そもそも」という話をじぶんでできるようになろう。また、「無理に」というところがツボ。ここで能動的に『PC3−PC6平面』で見たいんじゃい(げふ)みたいなことをじぶんの責任で主張するのは、それはそれ。(※恐縮です。)

 ここでは『PC3−PC6平面』で見たいんじゃい(げふ)ということを手作業で自力で主観で行なったけれど、それを「t-SNE の Barnes-Hut アルゴリズム」でやってくれる(アシストしてくれる)のが「t-SNE」だ、という言いかたもできます。(※言いかた)

 https://computing2.vdslab.jp/docs/network/barnes-hut.html

 > ある粒子から遠く離れた粒子の塊を効率的に見つけることができれば、粒子間の重力やクーロン力をより少ない計算量で近似できます。

 まさに[4545]でやっていた「この散布図行列の中ではいちばん、散らばっているように見え」云々みたいなことそのもの。

[4545]
 > 散布図というのは目で見てわかる(気になれる)のが利点ですから、それを遺憾なく発揮していただくと、PC3とPC6、PC3とPC8のプロットが、この散布図行列の中ではいちばん、散らばっているように見えます。PC1とPC2では、外れ値的なものとそうでないものを分ける働きしかしておらず、いわゆるMDSっぽいことをして平面で示したいとすれば、PC3とPC6や、PC3とPC8のようなプロットにしないと、それっぽく見えないのではないかとか思えませんか。そんなことを思ってよかったのでしょうか。本当でしょうか。(ぶつぶつ)

 それをしながら「ぶつぶつ」言うこと自体が解釈や考察に直結しているので、せっかくのそれを全自動(?)の「t-SNE の Barnes-Hut アルゴリズム」に任せてしまう「t-SNE」では、言葉で解釈を述べて考察する機会をじぶんから放棄するようなものとも思いました。(※個人の感想です。)

[3571]
 > 主成分分析(とも呼ばれる行列の固有値分解[3566])を使わねば何も考察できまいてみたいな状況下から勉強を開始せざるを得ない現代のわたしたち

[3572] 「PLS回帰」を「重回帰分析+主成分分析=主成分回帰(その特別な場合)」に代わって「主成分分析+回帰木」で読み解く(試)
 > > PLS回帰は以下の基礎知識に支えられている。

 > > PLS回帰
 > > 主成分回帰(PCR)
 > > 重回帰(MLR) 主成分分析(PCA)

 > > よって、この概念図の下から順に取り扱う。

 > これ以上に明快な概念図がありましょうか。わたしたち、あたかもSVMやk-meansとも見境なく「分類ができるんでしょ?」といって『決定木』を使うなどの…それでも使えちゃうのもスゴイことではあるんですけど、あっ…といってあしもとをすくわれるやうなとはこのことだよ。

 > (単)回帰を重回帰(多変量)に拡張するところ(から※)をきちんと説明することは理想的ではありますが、いくらなんでももどかしすぎるとの感想のほうなど…ゲフンゲフン。この概念図の左半分を下から上まで「回帰木」で代わりとしても、いいと思うんです。ついでに「PLS回帰」より上まで突き抜けて「ツリーモデル」での可視化までできちゃったよ@なんてこったい。

[3896]
 > このフォーラム「PLS回帰」の記事([3572])が変にアクセスが多くて(げふ)たいへんしつれいしました。学習の最初の段階でつまづいた人を、しかるべきレールに載せなおす(質問はじぶんの上司に&商用製品を素直に使え!)目的の記事ですので、この記事を読めば「PLS回帰」についてわかるだなんて思わないでください。思わないとは思いますが、念のため。

[3572]
 > いやーテクニカルなんですよ。しかしテクニカルでしかないんですよ。だいたいそういうのが最初から(Rで)パッケージになっていてゲタをはかせてもらっている(≒予算を取れない高校でも使える)、そのゲタは存分に利用しようではありませんか。

 「この概念図の左半分を下から上まで「回帰木」で代わりとし」云々! もういちどいいましょうか。…「この概念図の左半分を下から上まで「回帰木」で代わりとし」云々っ!(ぐぇ)しつれいしました。古式ゆかしい(違)「PLS回帰」をすることが指定されているのでそのとおりにしなければならないという場合でなければ、じぶんがわかるようにやろう&じぶんで隅々まで理解していないのに「流行りだから」というだけで何か目新しい名前のつけられた(オーソドックスなやり方に則して見れば「無数にある亜種の類」としか見えない)手法やアルゴリズムを使おうとしないこと。えー…(てんてんてん)。

※あくまで極論です。

[3679]
 > 「珍しいもの!」ばかり追いかけて、足元の、あってあたりまえのものをぜんぜん見ておられないでしょ

 http://tabitetu-gate.net/wp-content/uploads/2019/02/yokh_11.jpg
 https://suigousblog.cocolog-nifty.com/photos/uncategorized/2018/03/26/img_33702.jpg

 壁と屋根があるからといって建物であるとは限らない。

・超!「かすみがせき」
 https://1.bp.blogspot.com/_zWe-sWNQ2-I/TNfuQZ19weI/AAAAAAAAFCE/Ly_NjzsZrHQ/s1600/%E9%9C%9E%E3%83%B6%E9%96%A2%E6%9D%B1%E6%AD%A620000%E7%B3%BB%E5%B9%95%E5%BC%8F2.JPG
 https://www.moneypost.jp/uploads/2018/04/kasumigaseki.jpg

[4540]
 > 電車も銀色だし「かすみがせき」ですが何か。(キリッ

・(♪〜)
 https://youtu.be/MwcuaK7dXeU?t=25




 「白銀の」ともいう。(※ソコジャナイ。)

[3892]
 > 「30倍」は『(つまらない)デフォルト』というか『旧バージョンからあるやつ(古いやつ)』だから「だめなやつ!!」(※意訳)という、きわめて皮相的な認識があるんでしょうか、何が何でも「30倍」より細かいやつから選ぼう(=必ず変えないといけない&新しく追加されたやつから選ばないといけない)という強迫的な何かがあるんでしょうけれど、実は「30倍」でよかったということを『再発見!』してください。

 > 「変えないといけない」「選ばないといけない」に傍点。そんなことは誰も言ってないぞ。
 > 「変えないといけない」「選ばないといけない」に傍点。そんなことは誰も言ってないぞ。

 > ここでいう「うわべ」とは「新バージョンで追加されたやつは優れているに違いない」という思い込みのことを指します。「本質」とは「停車時間の微調整ができるか」「『時間による色彩変化』が遅すぎて退屈しないか」「『地形から受ける主観的な広さの感覚』と『時計の進みの速さ』が一致していると感じられるか」ということです。

[3587]
 > さすがSPSSなんですよ。上ほどモダンで一般化された(抽象度の高い・不用意に仮定を置かない)方法で、下ほど古典的で手計算っぽい(ナイーブすぎる・仮定が多すぎる)方法になるよう、1次元的に並べられているとわかります。ここでデフォルトの「主成分分析」ではだめだというのは、あなたのデータや考察のしかたがモダンじゃないということなんですよ。(※仮の見解です。)実務では「最尤法」より下の方法を使ってはいけないと思われましょう。いちばん上から順に、それが採用できないということはじぶんの調査や研究に何らかの不備があるんだといって『1がびーん』、例えば「一般化最小二乗法」まで下がらないと採用できなかったとあらば、『2がびーん!』なんですよ。同様に、「最尤法」は『4がびーん!』、「主因子法」は『1アチャー!』、「アルファ」は『2アチャー!』、「イメージ因子法」は『4アチャー!』だと思えばいいんですよ。(※表現は演出です。1アチャーは8がびーんです。)

 まったくもって本質的に同じことが、アルゴリズムの選択にも、ゲームの中での選択肢の選択にも、起きるのです。…起きるのです!(※2回いいました。)

 https://www.vector.co.jp/soft/win95/personal/se039427.html

 そっちは「起きるです!」ですよぅ。

 > 「時計」カテゴリーの人気ランキング
 > 駅の時計をリアルに凝縮 8種類のスキンが選べるNTP対応アナログクロック

 こちらもよろしくぅ!(棒読み)

 https://youtu.be/xBHSB4F8Ej8?t=126




 東武車だけを「東上線」と呼んで、他社のクルマは「なんかへんなの」(※直訳)と思って(区別する必要がないのに必要以上にこだわって区別して)避けていませんか。そういうことがMDSとPCAにも、MDSとt-SNEにも、(あなたがそれらを学習するとき、あなたに)起きてきませんか。さすがにそこまでは…(てんてんてん)。

[4167]
 > 合理的に設計されて配列された選択肢なら、いちばん上とかいちばん下とかを堂々と選んでよいのである。できれば、いちばんいいやつをいちばん上に配置しておいてもらえると、デフォルトのままで済むのでよいが、それでもなお、2番目や3番目のやつのほうがいいに違いない(※1番目は「とりあえずビール」だ=『初心者用』だ)みたいに勝手に思い込む者が出るんだな。

 > 項目の並べかた(尺度)だのSPSSだの…これがアンケートの話題だから言及するんです。ちゃんと勉強してね。

 > 「じぶんは大人やでー」的に、端っこの選択肢を避けて「ふつう」を選んだつもりでいる
 > 「じぶんは大人やでー」的に、端っこの選択肢を避けて「ふつう」を選んだつもりでいる

 > なぜ選択肢が必要なのか。「このゲームのテンポ(ゲームが進む速さ)はこれだ!(ばーん」というのは、作者が決めないといけないことだ。客に選ばせるなんてとんでもない。変に選べちゃうからどんどん不満を募らせる客が出るんですよ。

 ゲームの作り手にも、同じことが、起きていたのです。(※雨のバス停でとなりに巨大な不思議な生き物が立ってるみたいな顔でナレーションしてください。…ほぼ日のひとじゃあるまいし。)

 http://www16.tok2.com/home/asti/RAIL/2002/020830/hakoden09.jpg
 https://goo.gl/maps/4FW4cw4rrxPhXnDC8
 https://topics.smt.docomo.ne.jp/article/phpbiz/entertainment/phpbiz-20170707182345598
 https://img.topics.smt.news.goo.ne.jp/_/picture/phpbiz/m_phpbiz-20170707182345598.jpg

 あの有名なシーンで「あなたドコモっていうのね!」と言われるようなおたけびをあげよう。…あげないよっ!!(棒読み)


この記事のURL https://neorail.jp/forum/4548/


この記事を参照している記事


[4547]

研究ホワイトボックス(48) 複雑なデータと「対話」するには〜郵便番号データを例に(回帰木編)

2021/5/13

[4554]

大幅追補「自分の考えの書き方」(再)

2021/5/21

[4560]

【ぼよよん】月刊ログイン「けっきょく究極コンストラクション」(1985年7月)をココロに(談)【わしゃわしゃ】

2021/5/31

[4561]

どう読む「備へ」2時52分(談)

2021/6/1

[4566]

密林さんと自然休講「A列車で行こう9 路線図」(木)

2021/6/1

[4567]

「A列車で行こう9 路線図」カラーをコレクトして(談)

2021/6/1

[4569]

きょうは溜池山王で有頂天。

2021/6/1

[4570]

きょうは北白川でマヨネーズ。

2021/6/1

[4610]

ふれねる「自由研究 数学」の岩(GAN)

2021/8/25

[4641]

うるう年の翌年の10月1日

2021/10/31

[4653]

ツールとは何か

2021/11/16

[4662]

【アイリッシュチェーン】ジャック・イン・ザ・ボックス・アンド・ターキートラックス【ギャスタウン】

2021/12/1

[4812]

【A9・Exp.】さらさらーっ(カッコカリ)

2022/7/1

[4857]

「配線略図」は『曼荼羅』(前編)

2022/9/1

[4874]

【ブライトン酢豚】いざ尋常に「エクスポ攻略」を斬る(談)【レホールソース】

2022/9/1


関連する記事


[3639]

【自由研究】ふわコレ(6) tht - 2018/4/30


[3617]

武蔵野市「武蔵野市地域公共交通総合連携計画」(2010年3月)を読み解く tht - 2018/3/10


[3584]

研究ホワイトボックス(30) ハイパー・ゼロ:「主成分分析」FAQ tht - 2017/12/19


[3649]

【お知らせ】ストリートビューの表示を休止します tht - 2018/5/31


[3582]

10年後に読む「よりよい環境創造のための環境心理調査手法入門」(2000年5月) tht - 2017/12/7


[3669]

【自由研究】ゆるシミュ(9) tht - 2018/8/16


[4064]

縦書きディープなラーニング(2020) tht - 2020/5/7


[3658]

【自由研究】ゆるシミュ(8) tht - 2018/7/9






neorail.jp/は、個人が運営する非営利のウェブサイトです。広告ではありません。 All Rights Reserved. ©1999-2022, tht.