・「主成分分析」に関する質問の例 ・「主成分回帰(PCR)」を回答とすべき質問の例 ・「判別分析」を例示すべき質問(「共分散構造分析」を回答とすべき質問)の例 ・「階層的クラスタリング」を回答とすべき(?)質問の例 ・Rの「prcomp関数」と「princomp関数」の違いに言及すべき質問の例 ・「いわゆるマルチコ」の指摘を回答とすべきでない質問の例 ・「いわゆるマルチコ」を指摘して「非階層的クラスタリング」を回答とすべき質問の例 ・「R」ではなく「Scilab」の入門書を紹介すべき場合 ・表30.0 言語としての「R」(※独自に作成) ・「主成分分析」FAQ(ドラフト版)
(約59000字)
このフォーラムでは、「研究ホワイトボックス」と題して30回、「研究を楽しく「追体験」! 真っ白のキャンバスに虹色の未来を描く方法、教えます。」とはいいながら、さらに「ハイパー・ゼロ」と副題すること既に4回というコンテキストにございます。
このフォーラム、(従来のBBS的な運用をしていた時分の)「FORUM×ATOS」としての初期の段階(1999年度)では、きっと管理工学(『OR!』)からの(応用としての)数理計画法の話題に進んでいくものという期待もあったかもしれませんしなかったかもしれません。
専門分野そのものには立ち入らず、しかし広範な事情を承知して社会を理解していく、16歳から19歳くらいまでの3年間に(制度としての高校と大学にまたがって)何を知りたいか(どんなテーマにワクワクするか)ということに対して、多変量解析は外せないぞと、こういうわけです。その「かんどころ」(=勘どころ&関所、両方の意味で=)となるのが「主成分分析」であろうといって、しかし、17歳くらいまでに学ぶ(理科としての)「物理」の(3次元までの)イメージに頼って「多変量」を理解しようとするのでは(のちのち)支障があるという認識にございました。
※同様に、あくまで理科としての「化学」「生物」「地学」という、試料や標本という『現物』ありきでのデータ解析だけに即して学習を進めていると、より(数学的に)抽象的な解析手法の(柔軟な)活用への(考えかたや試行錯誤の)道筋に興味を持たなくなってしまうと心配されましょう。
・[3543]
> ・島津製作所「粉博士」の見解です
> > 「粒子の形状の影響による粒度分布の誤差はどの程度ですか?」という質問に出会うことがよくあります。
> > 粒子の形状をあまりに複雑に表現すると、実用性が損なわれます。現状の粒度分布は、横軸に粒子径、縦軸に相対粒子量という2次元のグラフで表現できます。長径と短径を用いる場合も3次元のグラフで表現できます。しかし、それ以上のパラメータで粒子形状を表現しようとすれば、グラフで表現することが不可能になります。複雑な数表としては表現できても、その内容を人間が把握できなければ、単なる数字の羅列であって、実用性があるとはいえません。
> > 逆に粒子の形状を単純化してしまえば、現実の粒子の形状が表現できていないという不満が残るでしょう。結果的には球相当径を用いるのと五十歩百歩ということも考えられます。
> > 結局、多数の粒子(粒子群)をある意味で統計的に処理し把握しようする粒度分布測定においては、粒子の形状を取り扱うこと自体に無理があるのかもしれません。
> > 研究としては、興味深いものがありますが、実用にはならないような気がします。
このような理解や態度でも島津製作所での業務に支障はないということなのでしょうけれど、(高等)教育としては何かに大きく失敗しているのではないかという反省がないでしょうか。…ギクッ。
これまた「主成分分析」そのものに深入りすることなく、しかし『深い』とみなされうる理解をしておきたい(≒浅いといわれぬよう&いちいちじぶんは浅学だといってみせたりしなくていいよう)という無理難題を、これ、実は無理難題ではなくて「あたりまえのこと」なのだと(※ここでぜんぶ述べるとたいへん長くなりますから大巾に中略させていただきまして)「主成分分析」をひととおり、次は深層学習ですっ! …えーっ。その前に「主成分分析」を理解できたのかどうか(じぶんで)確認しておこうではありませんか。
そういう意味合いから、ここでは「主成分分析」に関するけれども「主成分分析」そのものに対する質問ではない質問を俯瞰しながら、「主成分分析は何ではないか?」的な見かたによって、「主成分分析」の理解を定着していこうと、このようなコンタンであります。
なお、この記事はパスファインダーの作成を追体験いただくための記事であり、この記事をそのままパスファインダーとして使用しないでください。
・「パスファインダーとは」千葉大学附属図書館(2008年度)
https://www.nii.ac.jp/hrd/ja/literacy/h20/txt4.pdf
> 「わかりやすく言えば、利用者が特定の主題に関する情報収集を図書館で行う際の、最初のとっかかりとなる図書館資料のガイドもしくは要チェックリスト」
> 「利用したことがある」は12%に留まり、「まったく知らない」が30%となり、周知がまだ充分でないことを示す。
周知しさえすれば利用されると考えているんですね、わかります。(棒読み)
> 教える側からすれば「せめてこの1冊はちょっと読んでみろ」的な紹介が一番なように思っています(つまり授業で「これは読め」って感じの印象をつける紹介ですね。)
それは既に理解の過程を終えてしまった、「わからない状態とはどんな状態であったか」を忘れてしまっている者の感覚なのですよ。わかってから読むと納得感の高い「1冊」であっても、わからない状態でそれを読むことはどういうことかといってですね(以下略)うらめしやー。(※演出は表現です。)
この記事は[3582]の補足です。「ハイパー・ゼロ」としては[3521]の続きです。本文中の記事番号は過去の記事へのリンクになっていますので、あわせて参照ください。(しないと意味不明な記述もございます=あわせて参照されることを前提としています。)
「因子分析」については[3587]で補足しています。
●「主成分分析」に関する質問の例
いくら困ったからといってインターネットで(第三者に)質問するのはアレです。そういう意味では逆に、よほど困ったんですね、という意味で、「教えて!goo」では「主成分分析」という文字列を含む質問が、「心理学」カテゴリでは22件、全体では290件あるということです。
「適合度順」でぱらぱらと眺めながら、▼主成分分析そのものについて説明することが回答となる質問や、▼いくら演習であるとしても変量が少なすぎて(3つとか)意味がわからないよ、それに▼ググれと(…gooなのに!)回答されてるみたいな質問はスキップしてまいります。
※この「適合度順」の(20件ずつ表示の)8ページ目から岩石などの主成分が出てくるので、ここで閲覧を終えました。つごう、上から150件くらいまでをざっと眺めたことになります。
※あわせて、Y社サイト(「約1,260件」とのこと)については…何の順かわからないですけど何らかの順で表示されるのを上からちょっとだけ(5ページ目まで)、O社サイトについてはGoogle検索結果の上位に出たものだけを眺めます。あしからず。
※レファレンス協同データベースも見たんですけど…、▼談話分析の博士論文(「ポライトネス」)で「カテゴリ主成分分析」、それに▼「泌乳中期のサーバル」なんだねっ。ヒットする4件とも、「主成分分析」に関するレファレンス事例ではなかったことを申し添えます。ほかに「多重共線性」は0件、「因子分析」は7件でございます。
・(再掲)レファレンス協同データベース「統計の取り方で、多変量解析の一種である数量化III類について、具体的な数式やプログラミングの例が載った資料はあるか。」豊中市立図書館(2011年8月10日)
http://crd.ndl.go.jp/reference/detail?page=ref_view&id=1000099920
「事前調査事項」「寄与者」など空欄なんですよねぇ。(棒読み)
> 『多変量解析がわかる』涌井 良幸/著(技術評論社)
後述のように、古典的「量的か質的か」という『2択!』をさせられて「おぬしは数量化III類なされよ」といわれて「ハハー!」しちゃったみたいなひとが図書館に駆けこんでくる…駆けこみ××はおやめくださいっ!(棒読み)…じゃなくて、そこはもう高い壁の向こうにボールは届かずとも声は届くみたいな(?)「主成分分析」でいいんですよ(※ちゃんと「解析」したいなら「主成分回帰(PCR)」で「回帰分析」しないといけないんですよ)と誰かおっしゃってくださらないかしら。(※表現はきわめて演出です。)
※あくまで図書館としては、参考図書(『館内』で『禁帯出』)として「多変量解析実例ハンドブック」と「現代数理科学事典」を備えておき、それらしき質問(=レファレンスカウンターでの質問です)には「多変量解析ですね?」と聞き返し、お客さまお客さま…患者さまじゃなくて利用者さま!! 首を斜めに振ったとしても、もはや質問は多変量解析であったと決めつけてこの2冊を自動的に持ってくればいいんですよ!!(…ぼうろんです!!!)
・内田洋行さん通しキハラ「禁帯出」(345円)のイメージです
http://www.uchidas.net/shop/g/g86176267/
http://www.uchidas.net/img/goods/L/vol11d-86176267_L.jpg
・青木センセイ「このページは, 質問に答えてゆくことにより,条件に合った最適の統計手法を提示するためのものです。」から「ケースと変数の両者について,似通ったものが近くに配置されるような解を求めます。」に至るルート(…長っ)
http://aoki2.si.gunma-u.ac.jp/FlowChart/Tutorial.html
http://aoki2.si.gunma-u.ac.jp/FlowChart/sonota.html
http://aoki2.si.gunma-u.ac.jp/FlowChart/tahenryou_yes.html
http://aoki2.si.gunma-u.ac.jp/FlowChart/not_yosoku.html
http://aoki2.si.gunma-u.ac.jp/FlowChart/grouping.html
http://aoki2.si.gunma-u.ac.jp/FlowChart/object.html
http://aoki2.si.gunma-u.ac.jp/FlowChart/kanyakuka.html
http://aoki2.si.gunma-u.ac.jp/FlowChart/catdata.html
> 数量化III類 QT3
> 双対尺度法 DUAL
青木センセイがごしょーだいじそうににぎりしめてるあみだくじみたいなかみきれの『ぜん貌!』を直接、見たいですよね。…見たいですよねっ!!(棒読み)
・…あるにはあるよ。
http://aoki2.si.gunma-u.ac.jp/FlowChart/relation/relation.html
朝倉書店「多変量解析実例ハンドブック」でいう「多変量データ解析法の分類(柳井(1994 b)の図1を一部変更したもの)」みたいな図については[3571]を参照。
・レファレンス協同データベース「寄与者」の記入がある事例です(「キーワード:統計」)
http://crd.ndl.go.jp/reference/detail?page=ref_view&id=1000109681
http://crd.ndl.go.jp/reference/detail?page=ref_view&id=1000130794
http://crd.ndl.go.jp/reference/detail?page=ref_view&id=1000059837
http://crd.ndl.go.jp/reference/detail?page=ref_view&id=1000032597
http://crd.ndl.go.jp/reference/detail?page=ref_view&id=1000049565
> 昭和女子大学図書館
> 調べた範囲ではわかりませんでした。
> 寄与者
> コメント提供館:近畿大学中央図書館
> 香川県立図書館
> 寄与者
> 同志社大学図書館
> 国立国会図書館「リサーチナビ」
> 香川県立図書館
> 寄与者
> 岡山県立図書館
> 国立教育政策研究所教育研究情報センター教育図書館
> 近畿大学中央図書館
> 埼玉県立久喜図書館
> 労働省産業安全研究所に問い合わせ、郵送で関連資料を送ってもらう。
> 大阪市立中央図書館
> 寄与者
> 独立行政法人 農業・食品産業技術総合研究機構 果樹研究所
なお、「キーワード:数学」は105件あるということですが、「寄与者」に大学図書館や研究機関の図書館が挙げられているレファレンス事例はなかったことを申し添えます。
・(もしかすると再掲)レファレンス協同データベース「Rプログラムについての本はないか?」大阪教育大学附属図書館(2014年11月26日)
http://crd.ndl.go.jp/reference/detail?page=ref_view&id=1000218316
> 「R」の意味をGoogleで検索。
> 「R」の意味をGoogleで検索。
…ぐふっ。聞きまして? 大阪教育大学附属図書館ですよ。…えーっ。大阪教育大学教科教育学論集より「模擬授業でのレーダーチャートによる授業観察」(2013年)については[3398]を参照。
> 007のプログラミングの分野ではなく、SPSSと同様に主に417数学統計の分野に集まっている。
やーいカステラは和菓子だと言い張って和菓子屋にカステラを置かせるみたいな(※長くなるので略)ーっ!! SASはディズニー、SPSSはテリヤキ、Rは大学生協とか(道路の)SAPAみたいなのだと思っておけばいいんですよ。…その発想はなかった!(棒読み)
・レファレンス協同データベース「統計数理研究所」が出てくる事例(2013年6月19日)
http://crd.ndl.go.jp/reference/detail?page=ref_view&id=1000135535
> 個人のホームページであるが、言葉を入れて検索すると件数も表示される。
…うーん。
> (1)インターネット検索をしてみる。
> ・統計数理研究所にて、「源氏物語」の言葉を数量的に分析するデータベースの作成についての中間報告らしきレポートが出されている。
…うーん。
・レファレンス協同データベース「2次以上の方程式をExcelを使って解く方法を知りたい。」さいたま市立中央図書館(2009年3月24日)
http://crd.ndl.go.jp/reference/detail?page=ref_view&id=1000057881
> 【資料4】『技術者のための数値計算入門』 相良紘/著 日刊工業新聞社 2007
> 【資料4】p.85〜101には、エクセルのVBAプログラムとゴールシーク、ソルバーを使って方程式を解く方法、はさみうち法、2分割法、単純代入法、ニュートン法それぞれの説明、p.103〜114はVBAプログラムとゴールシーク、ソルバーを使った連立非線形方程式の解き方が記載されている。
あくまでExcelで解こうとなさいますか。…うーん。「いわゆる多変量解析」ではない技術計算のニーズに公立図書館でお答えするというのはちょっと荷が重くないですかねぇ。(※あくまで感想です。)翻って、近年(中略)Rを使いさえすればという「いわゆる多変量解析」としては、「多変量解析とは何か(なぜ必要なのか)」という問いに対する最初の明快な答えとなる「主成分分析」が一種『入口』になる気配があるので(※重回帰分析より先に主成分分析です!)、じぶんは使わないけれども質問があれば答える必要があるひと(※図書館に限りません)に役立てていただければと思います的に、網羅的に見ておこうと思いました。
・教えて!goo「分光分析装置等により得られたスペクトルの主成分分析、およびその主成分スコアの導出方法」(2017年11月2日)
https://oshiete.goo.ne.jp/qa/10033881.html
> 分光分析装置などによって得られたスペクトルデータを用いて主成分分析を行う際に、主成分スコアをどのようにして算出しているのか(スコア軸の取り方)が分からない
> LIBS分析装置(LIBS:Laser Induced Breakdown Spectroscopyの略)
> (回答1)
> スペクトルデータの場合は周波数成分ごとのスペクトル強度を並べた多次元ベクトルです。
えーっ。
・「LIBS」のイメージです
http://www.g5-hakuto.jp/mass/lalibs/laser_breakdown.html
> LIBSにより得られるシグナルの例
> スペクトル分布マッピング
> レーザー波長は213nm、266nm、532nm、1064nmから選択可能。532nm、1064nmはLIBS用の仕様となります。
> 3種類のLIBS検出器(2つまで選択可能)
> Scanning Czerny Turner 分光器/ICCD検 出器(測定波長190nm〜900nm)
> Echelle 分光器/ICCD検出器(測定波長190nm〜900nm)
> マルチチャンネルCCD検出器(3channel 〜 6channel、測定波長190nm〜1040nm)
http://www.g5-hakuto.jp/mass/lalibs/images/image_signal.gif
> (プロットの画像より)
> PC Score 1
> PC Score 2
なるほどこういうプロットが、しかも『考察には使うでないぞ(見るだけにしといてや)』的な表示(「This is for visualization only.」)とともにポヤンと出てくると、こういうわけらしいです。…なるほどねぇ。質問者は、じぶんでプロットするわけではないので主成分分析の説明を必要としているわけではなく、この装置付属のアプリケーションみたいなのがいきなり出してくる「PC Score 1」「PC Score 2」の意味が知りたいのだと、たぶんこういうわけです。…それはメーカーにお聞きなさいよ。んだんだ。(※見解です。)
> LIBS結果の解析、データベースマッチング、測定結果のデータベース化
このアプリケーションとしては、あくまで検索のための(文書検索でいう)文書ベクトルと検索語ベクトルみたいな感じに使うという実用的な目的で主成分分析しているとか、そういうことって、ありません? えー、どれどれ(略)。データベースを使う責任はすべてユーザー側にあるぅ。…えーっ。
※この装置のマニュアル等を確かめたわけではなく、あくまで一般的な早合点です。
・教えて!goo「統計学の観点からもっと詳しく書いてくるように」付近(2007年6月20日)
https://oshiete.goo.ne.jp/qa/3100706.html
> 主成分分析の本質をまとめ
> 対象となるものは
> 「相関関係のある多変量のデータに対して主成分分析を行う」
> と書いたところ教授から
> 対象となるものを統計学の観点からもっと詳しく書いてくるように
> 指摘されました.
10年前だからいいですよね。
このレヴェル(※手元のデータが分析できさえすればいいのではなく、主成分分析について深く理解しなければいけない)で主成分分析について報告するのであれば、「相関関係のある多変量のデータ」という表現(※言葉! 用語!)がいけないのだと、多重共線性という用語を導入しながら、「相関関係のある多変量のデータ」とはどういうものかを(「統計学の観点」で)詳述せよ、ということですよね。んだんだ。(棒読み)
> (回答3)
> というのは具体的にどのようなデータなのか分からないということでしょう。私自身、相関関係のある多変量データとはどういうもののことをいうのか理解できません。
※きわめて雑に省略されている主語などを補います。(恐縮です。)
> というのは具体的にどのようなデータなのか(この説明では)分からない(よ、と教授が言っている)ということでしょう。(こんな説明しかされなかったら)私自身(も)、相関関係のある多変量データとはどういうもののことをいうのか(教授と同じように、この説明では)理解できません。
※3番目の回答者は言葉足らずなうえに婉曲すぎます。しかし、リアルタイムで即答しちゃうと学びの機会が失われます。(リアルタイムでの回答としては)指導教員とよくコミュニケーションを図るように、としかいえないのではないですかねぇ。4番目と5番目のひとはどんどんハマっていきますぞ。…なんだかなぁ。
あわせて、その多重共線性に対して、主成分分析がどのように有効なのかということも(「統計学の観点」で)説明しつくさないと合格できそうにありません。…さすがですのう。(※素朴な感想です。「行列が特異でないとはどういうことか」あまつさえ「数学の観点で」「証明を」とまではいわれていないだけ、少し助かるじゃないですか。…その発想はなかった! =主成分分析ができるかできないかというのが数学で、主成分分析をすると何がうれしいのかというのが統計学だということです。)
・教えて!goo「第二主成分を求める手順、式変形、式変形が成り立つ理由がいまいち理解できません」(2007年6月11日)
https://oshiete.goo.ne.jp/qa/3073104.html
> ありがとうございます!
> 理解が深まりました。
…えーっ!(棒読み)
> 主成分分析、あるいは多変量解析の教科書は複数冊に目を通しているのですが、理解力が足りないようで…。
だってSVD…SVD! SVD! SVDじゃない主成分分析は、もう忘れたよ。…ええーっ!!(※あくまで想像に基づく勝手な演出です。)
・教えて!goo「主成分分析及びクラスタ分析について」(2004年12月11日)
https://oshiete.goo.ne.jp/qa/1122514.html
> 主成分分析を行って、得られた因子得点(回帰法)がデータに保存されます。
> 今回自分の場合は4つの主成分になりましたのでfac1_1〜fac1_4が得られています。
もとの変数が4つで、主成分をすべて使うということですね。(そうでない場合はクラスタリングの入力として使うのは適切ではない感じがしてきそうです。本当でしょうか。)
> この得られた1〜4をクラスタ分析にかけるというのはどのような結果を意味するのでしょうか?
> 実際にクラスタ分析を行うと鎖効果もなく非常によい結果が得られたのですが
> これが本当にクラスタ分析となっているのかが分からなくて。
「鎖効果」とおっしゃっているので階層的クラスタリングでデンドログラムを描いたと見受けます。
> (回答)
> あなたがされているのは、データマイニングの分野等では割と標準的に使用されている手法ですよね。
> 通常のオリジナル空間では上手くクラスタに分離できない物を、主成分に変換してやることによって、クラスタに分離が出来ている、超平面を構成することが出来ていると考えるといいのではないでしょうか?
階層的クラスタリングで「超平面」というのはしっくりこないとかって、ありません? あらあら、まあまあ!(※表現は演出です。)
> その手法がクラスタ分析か否かと言われると、意味の取り方によると思います。
うーん(略)。主成分得点の行列から距離行列をつくって、さらにウォード法などで…というのは、比ゆ的には『距離行列の自乗!』みたいな、似た意味の操作を二重に加えた(二乗したみたいに強調される)みたいな気がしないでもないんですけど、どう考えればいいんでしょうか。(※恐縮です。)
・教えて!goo「そんな組合せは知らない!」(2009年6月15日)
https://oshiete.goo.ne.jp/qa/5044919.html
> 主因子法とプロマックス回転
> 主因子法バリマックス回転
> 重みづけの無い最小2乗法とプロマックス回転
> (回答2)
> > 因子抽出方法や回転方法をコロコロと都合よく変えてしまって自分の導きたい結論(仮説通り)に持って行って良いのでしょうか?
> ダメです。
> (回答1)
> なぜ心理学の論文で「因子分析(主成分分析、バリマックス回転)を行った」などというチンプンカンプンな表現が多いのか分かりました(^_^;) SPSSの因子の抽出法のところで、主成分分析を選択するようになっているからなんですね(謎が解けました)。
SPSSを見ていないわたしにはいまもって『謎』ですが、Rしか使うつもりがないのでSPSSは見ないようにしようと思ったりしました。(…なぜに『過去系』だし!)※SASとMathWorksのヘルプはきちんとしています。
> > そもそも、因子グループの命名が都合よく
> 因子分析はもともと高度な問題を扱っているわけですから、そもそも因子名などというのは単なるラベルに過ぎません。
> 読み手もそれを理解しているはずなので、都合よくラベル付けをしても問題ないはずです。
「高度な」を「抽象化した」、「都合よく」を「便宜的に」と言い換えたくなりませんこと? あらあら、まあまあ!(※表現は演出ですが見解です。)講義や演習で気を利かせすぎて「高度な(≒気にしなくていいよ)」とか「都合よく(≒なるようにしかならんのだよ)」などとうっかり補ってしまうと、「抽象化した」「便宜的に」という正確な表現は忘れられて、最後に聞いた平易な言葉や講師の口癖、それに余談みたいなのばかりが記憶されていくとかって、ありません? にょほほほっ!(違)
・「統計初心者なのですが」(2017年8月20日)
https://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q12177951827
> (質問)
> 統計初心者なのですが、主因子分析と主成分分析というのが出てきて何がどう違うのかさっぱりわかりません…
> (回答)
> 統計初心者で主成分分析、因子分析などの多変量解析に触れることはありません。
> ひとまず大学教育課程の統計学中級レベルを想定して回答します。
えーっ。確かに統計学の授業はあったけれどもギリギリで単位を取っただけであるとか、あるいは取れなかったけれども単位数は足りていたとかいうことでも卒論を書く段階に進めてしまうほか、卒業後に資格の維持のために論文を書き続けなければいけないけれども統計学は初心者だと…いうようなことがあるのですよ。…たぶん。
・「エクセルのフリーソフト」(2015年9月28日)
https://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q11150568371
2015年9月です。…2015年9月ですよ。
> (質問)
> 主成分分析とクラスタリングを同時に行うことが求められるようなデータとはどういったデータですか。
> 変数と個体(データ)
> (回答)
> 参考になる入門解説資料、エクセルのフリーソフト、分析事例の紹介があります。
えーっ。2015年9月、十中八九「R」で入門するだろうという時期になってなお「エクセルのフリーソフト」をありがたそうに紹介しちゃいますかっ。(※見解です。)質問者がきちんとした用語だけを使っているので(=使う教科書がきちんとしている)ぜんぜん心配ないと思うんですけど、いやーあなた、質問なんてしてないでデータセットを(毛色の違うのを)何種類か実際に触ってみればすぐに解決するでしょ。んだんだ。(※あくまで感想です。)
●「主成分回帰(PCR)」を回答とすべき質問の例
・「主成分回帰(PCR)」に関する質問です(2010年12月13日)
https://okwave.jp/qa/q6381288.html
> (質問)
> 第1〜4主成分の式を使うことでもともとのデータの予測というものはできるのでしょうか?
> (回答)
> もともとのデータは主成分分析する時点で既知ですから、予測(=前もって推し測る)なんてできるはずがありません。
> まぁ”推測”ってことだと思いますが、もともとのデータの何を推測するのかが質問からははっきりしません。
なんですかこの回答者っ…いえ、(たぶん工学っぽい)質問者にとって自明である「回帰分析で予測モデルをつくる」という目的が(分野が違うと、明示的に言わない限り)理解されないということであると見受けられつつ、他方で、質問者としては「主成分分析を使った回帰って、あるのかしら」という質問を自力では言語化するに至らなかった(だから質問した)とうかがえます。
・教えて!goo「ラーメン屋の総合力を判断する指標を作成」(2016年7月25日)
https://oshiete.goo.ne.jp/qa/9355432.html
> 各変数の主成分負荷量を使ってラーメン屋の総合力を判断する指標を作成したいと考えています。
いかにも文字面での早合点に即して使おうとしたときに「“総合指標化”できる手法なんでしょ?」みたいに(以下略)こういう質問が来るのだと覚悟しておかなければと思わされましょう。特に、2016年です。もはやRでいきなり実行できるよといって、かえってこういう質問が増えそうですよ。(※見解です。)…だいたい「作成」などと(大巾に中略)「作成」(という言葉を何にでも使ってしまうひと)については[3569]を参照。
> (回答)
> 「総合力」なる概念がどういう意味なのかを定義しなくては話にならない。
> 「総合力」を、たとえば「1年間の利益額」と定義する。(あるいは「顧客の満足度」とかでも良いけれども。)そうして、様々な項目の得点から「総合力」を推定する問題を考えることは意味がある。すなわち、簡単には調べられない「総合力」を、値段だの立地だの外見的に容易に分かる項目の調査結果から推測しようということです。これには、「総合力」が分かっている相当数の店舗について、各項目の得点データを集めた上で、重回帰分析を使う。
いやいやいや、いろいろな変数を集めてきた多変量データを主成分分析にかけるところまではいいんですよ。その結果をどう使うのかというところで、漠然と「重回帰分析」といっちゃいますかっ。ここでは、(回帰分析において目的変数とする)外的変数を別に用意して、外的変数を除く多変量データを(説明変数として)使った「主成分回帰(PCR)」をしなはれと、たぶんこういうわけです。本当でしょうか。
続けて、ちょっと質疑はこみいってますけど実は何ということはない感じの質問も見てみましょうか。
・教えて!goo「主成分分析の使い方について」(2014年2月2日)
https://oshiete.goo.ne.jp/qa/8458026.html
> 29種類の機能は8種類に集約された。
※何を「集約」したことになるのかといって、これは「何を重視するか」という価値観みたいなの(?)の傾向を集約したという(人方向の)ことですよね。本当でしょうか。
(人方向の集約でいいんだという前提では)主成分分析だけで「集約」(次元の縮小)ができますよね。一般的な基準に照らして、29変数からの主成分分析で第8主成分までが『崖の上!』って、そんなことあるんですかねぇ。4つくらいじゃないんですかねぇ。そして、主成分分析だけで「集約」は完了しているのですよ。わざわざ第1主成分から第10主成分までを(中途半端に)使ってデンドログラムを描いて見せる必要なんて、ないですよね。
> 因子の選択については、「第10因子までの固有値が1を超えている。」とありました。変数29でなぜ10もあるのかは、よく分かりませんでした。
何かがおかしくなっているかもですが、それでも仮に第3主成分や第4主成分まで採らなければいけないという時は、『ヴィジュアルな可視化!』に困るっ。…だからって、そこでデンドログラムしちゃいますかっ。ふーん。ほー。へー…
> 人がその機能を「高くもつ」、「まったくもたない」と感じる“感じ方の傾向”と、“機能の性質”は別のことなので、機能の集約化にこのようなアンケート調査の結果を用いることはできないのではないかと、私には思えました。
うーん。主成分分析の後のデンドログラムは忘れて、仮に第4主成分まででよく説明するとわかったら、次にすべきは回帰分析ですよね。
回帰分析に使う説明変数が多すぎて困るから「集約」しようといって使ったのが主成分分析であって(主成分分析は本当に「集約」だけなので)、(回帰分析を使っての)考察のために必要な外的変数(目的変数)は、別に用意しないといけませんよね。どうしてもといえば、第1主成分を目的変数とし、それ以外ぜんぶ(『第29』まで!)を説明変数とする回帰木を描けばいいんではないんですかねぇ。各主成分の間には(分散の)対数的な大小関係がある(※縦軸を対数軸にしたスクリープロットで直線的になる)ので、主成分得点を使って(距離が大きいペアから分けていく)階層的クラスタリングして、それで何が見えるんです? …なんだかなぁ。(※自動的に可視化はされるけれど意味がわからないよ、の意。)
質問とは違いますが、「主成分分析のせい」ではないことまで「主成分分析だからいけない」と読めてしまう心配のある例を探してみます。
・「目的関数が不明瞭」の用例です(2006年9月)
https://www.jstage.jst.go.jp/article/arp/25/2/25_2_120/_pdf
> 経験的に選択された土地条件の説明変数群から,主成分分析や数量化III類を用いて,「**度」等の指標を算出する手法を採っている。主成分分析による土地分級は,**性に作用を及ぼすと考えられる変数を多数取り上げて,それらの合成変数を作り,そのサンプルスコアの大小によって,等級区分を行う方法である。(略)
> しかし(略)目的関数が不明瞭であり,分析結果は**所得などの**力を説明するものとは限らないという点が大きな問題である。
外的変数を用意しての回帰分析を行っていないという(この研究の)問題であって、主成分分析(PCA)の問題ではありません。「主成分回帰(PCR)」を実施できるよう、外的変数も用意すればよいということですね、わかります。
※外的変数のつもりで用意したけれども、それもまた(目的変数にはするけれども)外的とはいいきれない場合は、それも含めて主成分分析することに相当する「PLS回帰(PLSR)」をしなはれよとの早合点にはございました。
逆に、こんな質問もあるようですよ。
・教えて!goo「ケモメトリックスって何ですか?」(2001年2月16日)
https://oshiete.goo.ne.jp/qa/41273.html
> 仕事で近赤外分光分析を用いていて、ケモメトリックスという言葉に打つかってしまいました。解析のときに、主成分回帰分析法や部分最小自乗回帰分析(PLS)法を用いるとあったのですが、全く理解できませんでした。
> (回答2)
> まずは,重回帰分析法,主成分分析法,そして最後にPLS回帰分析法(実は,PLS回帰分析法は主成分分析法の発展版なのです。)という順番で勉強されると,だんだんとケモメトリックスが理解できるようになってきます。
うそーん!! わかるときは一気にわかる&一気にわからないなら何年かかってもわからない。これだね。(※見解です。)
主成分分析(PCA)、重回帰分析、主成分回帰(PCR)、PLS回帰(PLSR)という順番がいいかもですよ。そして、PCAとPCRは区別してください。(※見解です。)
※この順番で、というのは、▼アルゴリズムをよくわかりたいということと、▼目的変数を決めて「回帰」まで行えるのは特別な場合である(研究としての回帰分析を成立させるのは存外に難しい)ということを自覚するためであります。よくわからないデータを探索的に分析する方法を先に身につけていないと、じぶんのデータが「よくわからないデータ」であること自体が見えてこないだろうという心配でございます。(※見解です。)
> 専門が粉屋(粉体工学)なので、分析はこれからなのですが、
わあぃ粉屋! 白猫になってるとおもうよ…じゃなくて、吹き付け塗装とかしそうだよね。いいなーいいなー。(※個人の感想です。)
・[3543]
> > 粒子の形状をあまりに複雑に表現すると、実用性が損なわれます。現状の粒度分布は、横軸に粒子径、縦軸に相対粒子量という2次元のグラフで表現できます。長径と短径を用いる場合も3次元のグラフで表現できます。しかし、それ以上のパラメータで粒子形状を表現しようとすれば、グラフで表現することが不可能になります。複雑な数表としては表現できても、その内容を人間が把握できなければ、単なる数字の羅列であって、実用性があるとはいえません。
> 博士にあるまじき見解ですのう。
> 島津製作所『粉博士』いわく「内容を人間が把握できなければ、単なる数字の羅列」といって、そうなんですけどそうじゃないんですよっ。
・[3546]
> 粉体などの物理専攻のかたは、数学でいう多次元空間を使った解析や計算を直感的に扱うことには必ずしも長けていないのですよ。…たぶん。
・「粉体塗装」のイメージです
http://www.howa-kogyo.co.jp/powder/index.html
だって最終的には(粉体を使う)塗装技術や(粉体を対象とする)分析技術、それに(粉体の)製品が実現できればいいんですから、(粉体そのものについては)多次元空間は考えなくてよいですよね。(※偏見です!)
●「判別分析」を例示すべき質問(「共分散構造分析」を回答とすべき質問)の例
・「主成分分析とコレスポンデンス分析(数量化3類)の違い」(2009年4月3日)
https://okwave.jp/qa/q4850758.html
> (前略)の違いは、元データが質的データか量的データかによると思いますが、実際はどのように使い分けられているのでしょうか?
> 主成分分析、因子分析は量的データが必要ですが、実際は、質的データ(1.非常に満足、2.満足・・・・と言ったデータ)が元データでも使われていると思います。そうなればコレスポンデンス分析は必要ないのでは?と思ったのですが・・。
> (回答1)
> 主成分分析の場合も、量的データをカテゴリカルデータに変換する場合もあるので、データの区別はあまり気にしていないですね。
> 最近は因子分析を使用して、あまり主成分分析はしていないですね。
※ここでいう「因子分析」:「共分散構造分析」。
・「学生時代に因子分析では因子負荷量の絶対値が0.4未満の項目は削除して因子分析を繰り返すようになど習いました。」(2002年2月14日)
https://okwave.jp/qa/q217701.html
> 学生時代に因子分析では因子負荷量の絶対値が0.4未満の項目は削除して因子分析を繰り返すようになど習いました。
> 学生時代に因子分析では因子負荷量の絶対値が0.4未満の項目は削除して因子分析を繰り返すようになど習いました。
> 二重負荷項目
> ちなみに、Excelで解析しています。
…えーっ。
・「二重負荷項目」の用例です(2014年)
https://www.jstage.jst.go.jp/article/kenkokyoiku/22/4/22_314/_article/-char/ja
https://www.jstage.jst.go.jp/article/kenkokyoiku/22/4/22_314/_pdf
> 二重負荷であった「料理が上手だとほめられるから」,「人に喜んでもらいたいから」,「家族や自分の健康を維持したいから」,「手づくりで安心安全な食事を食べたいから(または食べさせたいから)」などの6項目を削除
> 食事を食べたい
> 食事を食べたい
…うーん。
> 最終的に「食事を食べる者への配慮」や「食事を食べた者から受ける評価」,「食事をつくる者自身の思い」,「食事に関わる問題解決」という4つの概念を抽出した.この概念に基づいて栄養及び心理領域の専門家3名とともに考えうる項目を上限100項目として作成した.
> 内容のだぶり
> 内容のだぶり
…だぶーん。…だぶーん。
> 天井効果とフロア効果の項目
> 天井効果とフロア効果の項目
> 食事づくり動機22項目は天井効果とフロア効果の項目がなかったため,22項目で探索的因子分析を行った.因子負荷量が0.4未満であった「外食やお店で買ってくる惣菜や弁当では量が少ないから」,「外食やお店で買ってくる惣菜や弁当では味が気に入らないから」などの4項目と,共通性の低かった「限られた費用で食事をまかなう必要があるから」,「食事をつくる役割だから」などの4項目を削除した.さらに,二重負荷であった「料理が上手だとほめられるから」,「人に喜んでもらいたいから」,「家族や自分の健康を維持したいから」,「手づくりで安心安全な食事を食べたいから(または食べさせたいから)」などの6項目を削除し,8項目の3因子解を最適解とした(表2).次にAmosによる確証的因子分析を行った(図1).
…だぶーん。22項目を選び取った段階では、ぜんぶ必要だと思ったんですよね。既に「内容のだぶり」が解消できたと思って22項目を使っているんですよね。しかるに(中略)主成分分析で得られる主成分を使って考察するなら(調査としての)意味がわかるんですけど、8項目にまで減らしてしまう(=14項目を捨てた! 調査で聞いておきながら捨てた!)のは、ステップワイズ法みたいなものですよね。そこまで減らしてから「3因子解」なんて、意味があるんですかねぇ。(※メッソウではございます。)
※なんて汚らしい手順なのかと思うんですけど、筆者らは逆に、いくつもの工程を経て透き通った上澄みを得たと思っていそうですよね。ジャガイモのうらごしじゃあるまいし…あなたが大事そうに扱っているの、それ、ジャガイモから出た水分ですよ!(※あくまで想像上のジャガイモに基づくイメージであり、実在のジャガイモならびにその調理工程とは無関係です。)
> 新村出編.広辞苑第6版.東京:岩波書店;2008. 1967.
…えーっ。「動機づけ」と「無意識的原因」の参考文献が「広辞苑」だということです。(棒読み)
・お探しはこちらですか??(仮)「うらごし 値段」検索結果のイメージです
http://www.pal-system.coop/shouhin/rinyu.html
・濃縮うらごしマクロミル(違)「コレスポンデンス分析」
https://www.macromill.com/service/data_analysis/d010.html
> 順次、軸が抽出される
> 順次、軸が抽出される
> 軸の選択は、軸の固有値を見ながら行うことになります。
> 軸の選択は、軸の固有値を見ながら行うことになります。
うーん。「順次」ではだめだと、ぜんぶ同時に見ないとだめだと、そういうときに『コレポン!!』していたら「アウト!」なんですよ。それに、「主成分分析」にかければ変量をじぶんで削除する(というか、変量「1つ単位!」でごそっと削除してしまう)ことは不要になるのですよ。(※見解です。)
※「変量「1つ単位!」でごそっと削除」というのは、商品開発や品質管理の発想なんですよ。そもそも(デザイン上、あるいは工場で)制御可能な変量(=『選べる選択肢!』)を変量として取り上げて分析する場合は「変量「1つ単位!」でごそっと削除」でいいんですけど、そうじゃない社会調査みたいなの(=立脚するのが心理学なのか社会学なのか経済学なのか定かでない、の意)にまで「変量「1つ単位!」でごそっと削除」という『変な枠みたいなの!』をはめないでほしいなぁ。(感想です。)
(「実験計画法」と「可視化」を除いた、数理的な部分は「主成分分析」によって置き換えうる)「いわゆる『コレスポンデンス分析(コレポン!!)』は必要ない」(実際にはあまり使わない)かどうかを答えないとですよ。きっと上司やセンパイが大きな声で『コレポン!!』、何かにつけては『コレポン!!』、それにこれからの季節、なべ料理などにも『コレポン!!』というので、頭にきた…いえ、疑いを持ったのですよ。よきかなよきかな!(棒読み)
・ミツカンの見解です
http://www3.mizkan.co.jp/sapari/product/group/index.html?id=05006&sid=05
http://www.mizkan.co.jp/ajipon/special/sengyo/img/mv_bg.jpg
・「立脚する」
https://thesaurus.weblio.jp/content/%E7%AB%8B%E8%84%9A%E3%81%99%E3%82%8B
・「主成分分析を2件法で出来ますか」(2009年9月30日)
https://okwave.jp/qa/q5330880.html
> 2件法(「はい」「いいえ」できいています)で行ったデータ
> できますよ。
そこで終わりにしないで、「判別分析」それに「(2分)分類器」としてのSVMなどに言及してみせる、あまつさえ非階層的クラスタリングとの違いの理解へとつなげてみせるといまふうですよね。…たわしいまふうですかっ。(違)
・マクロミル「判別分析」
https://www.macromill.com/service/data_analysis/d003.html
> つまり重回帰分析における従属変数が、離散量になったモデルだといえます。例えば、上図のように判別対象が2群の場合、予測される変数が0か1の2値データになったものと考えられます。
> 判別分析は、従属変数が質的変数で、説明変数は量的変数の(重)回帰分析ともいえます。(線形判別関数を使う場合)
うっかりマクロミルさん『離散量』などと(略)何段跳びかわからないですけど、一気にそこまで一般化されるなら、(値が)「4、6および8」みたいなデータでもいいんですよ。
最終的には「Yes/No」という答えを出したいというのが調査であり研究であるわけですが、▼構造的な(本質的な軸の数が多い)テーマや▼(どんな潜在変数があるかわからない)多変量データを(探索的に)解析していく中で、どの段階で「Yes/No」の(色でいえばモノクロの)2値にしてしまう(=『してしまう』:それまで持っていた「鮮やかな色相!」「なめらかな中間調!」みたいな分解能は失うということです)かということでございます。
・(入力である)説明変数を最初から2値化する(またはそのようなデータが入ってくる):コレポン!!(対応分析)
・(出力である)目的変数だけを2値化する:判別分析、SVMなど
・(変数を階層構造にして関係や重みを知る):回帰木、ロジスティック回帰分析(※)
※ロジスティック回帰分析:変数を対数で圧縮するので、実質的に2値化したような扱いである(=小さな違いは見えにくくして、大きな違いにもっぱら着目する)、その上で変数選択を行なっていくので、あえてここに入れてみます。(恐縮です。)「多項ロジットモデル」については[3675],[3676]を参照。
・(参考)「ロジスティック回帰分析」
https://oku.edu.mie-u.ac.jp/~okumura/stat/140921.html
ぜんぶ「共分散構造分析」でいいじゃない。…その発想はなかった!(あったけどわからなかった! …あったけどわからなかった!!)
・日経リサーチ「共分散構造分析」
https://www.nikkei-r.co.jp/glossary/id=1620
> SEMは検証的分析手法なので、最初に仮説があり、それをデータによって検証するという手順になる。実際には多くのマーケティング調査はSEMのためには設計されていないので、モデルを「探索」することがある。順番が逆であるが、これは因子分析が探索的因子分析と検証的因子分析の2種類あるということに、ほぼ対応している事情である。
既に「共分散構造分析」というものがありながら、『いちばん最初!』に2値化してしまう『コレポン!!』を、わざわざ採用する理由がない(計算やデータ処理上の困難があるわけでもない)ということに尽きるでしょう。
※きわめて主観的な比ゆとしては、データ行列を用意してRのprcomp関数に投げさえすれば主成分得点が得られる現代において、「あなたにもできるコレポン」みたいな教科書に載っている『式!』をじぶんでExcelに入れてよちよちと(中略)みてみて! そろばんがうまくなったよ(目標管理シートの成果に書けるよ)…さいですか。よかったねぇ。…実によかったねぇ。(棒読み)
ハレでも(ざーざー)アメでも(ごろごろ)アラシでも(ぴよぴよぴよ)1ミリ以上の降水があれば「雨」っ!! 判別分析やSVMでは、詳細な考察を行えないことが明らかであるので、これは分析ではなくアプリケーションだといって、少ない計算や「秘密の変数を1つまみ!」みたいなので精度を競うようなソレですね、わかります。
・気象庁の定義です
http://www.jma.go.jp/jma/kishou/know/yougo_hp/tenki.html
http://www.jma.go.jp/jma/kishou/know/yougo_hp/kousui.html
> 季節予報では、日照時間が可照時間の40%以上の日数、日降水量1mm以上の日数、日降水量10mm以上の日数をそれぞれ「晴れ日数」「降水日数」「雨日数」としている。
> 快晴
> 予報文には用いない。
> 晴れ
> 雲量が2以上8以下の状態。
> 天気予報では、予報期間内が快晴または晴れの状態、および「薄曇り」で地物の影ができる状態に用いる。
仮にも「向こう10日間は快晴が続くでしょう」みたいな火星の天気予報みたいなの…いやですよねぇ。(違)「快晴」というのは、あくまで結果なんですね、わかります。
> 曇り
> 雲量が9以上であって、中・下層の雲が上層の雲より多く、降水現象がない状態。
> 弱い雨
> 1時間雨量が3mm未満の強さの雨。
> 「弱い雨」は「小雨」を含む。
> 霧雨
> 微小な雨滴(直径0.5mm未満)による弱い雨。
> ひょう
> 積乱雲から降る直径5mm以上の氷塊。
> あられ
> 雲から落下する白色不透明・半透明または透明な氷の粒で、直径が5mm未満のもの。
> 「雷雨」は「降る」と言わずに「ある」という。
> 雨が残る
> (雨の主体が通ったあと)しばらくの間、雨が降ること。
> 広域の長時間にわたる「しゅう雨」は「雨」とする。
> 「にわか雨」のなかには「一時的に降る雨」という意味が含まれているので、冬期の日本海側において、対流雲が次々と通り、晴れとしゅう雨(雪)が繰り返すような現象に対しては「にわか雨(雪)」は用いない。
> 「積雪0cm」とは、露場(観測を行う場所)の地面の半ば以上を雪が覆う現象。「積雪なし」とは、露場の地面に雪が全くないか、または半ば以上を覆っていない状態。
> 降雪
> やや専門的な用語なので「雪が降る」などの説明を付ける。
> やや専門的な用語なので
> やや専門的な用語なので
音で聞くとき、ということですね。やーい靴をぬいで椅子にすわりギターをじゃららん(違)。
> 着雪
> 湿った雪が電線や樹木などに付着する現象。
> 湿った
> 湿った
…ぐふっ。(略)
・「fitrtree(バイナリ回帰決定木の近似)」MathWorksの説明です
https://jp.mathworks.com/help/stats/fitrtree.html
> 回帰木の構築
> 気筒数が4、6および8で、重さが約1.8t(4,000ポンド)の車の燃費を予測します。
> 不偏予測量の重要度の推定
> 与えられた加速、気筒数、エンジン排気量、馬力、製造業者、モデル年および重量に対して自動車の燃費の平均を予測するモデルを考えます。Cylinders、MfgおよびModel_Yearはカテゴリカル変数であるとします。
ここでは何が「バイナリ」なのでしょうか。階層化するときの分岐がバイナリ(※1入力2出力みたいな)だということです。
・高解像度のサンワサプライです
https://direct.sanwa.co.jp/images/goods/400-SW017_MDX.JPG
あなたフローチャートや回路図から飛び出してきたみたいな(略)何ができるのかがすんごいよくわかる形してますよね。んだんだ!(棒読み)
・「論理回路」のイメージです
https://ja.wikipedia.org/wiki/%E8%AB%96%E7%90%86%E5%9B%9E%E8%B7%AF
・(再掲)筑摩書房「ちくま」9月号で上野センセイいわく(※リンク先は目次です)
http://www.chikumashobo.co.jp/blog/pr_chikuma/entry/1373/
> 「同じか違うか」はYes/Noの二つの値しかとりません。これを二値論理といいます。
> AI(人工知能)とはこの大脳シナプス連結を模倣したものにほかなりません。どんなに複雑なAIでも、基本は二値論理の膨大な集積回路から成っています。
・[3542]
> あくまで上野センセイによる理解はそういうことになっているということがわかるということです。実際、かなり粗雑なテキストマイニングが幅を利かせているといって…ギクッ。
AIと呼ばれる人工知能みたいなのに言及する前に主成分分析とファジィC-meansを理解されたいと思いました。(棒読み)
※「主成分分析とファジィC-means」については[3676]を参照。
あわせて…えーっ。
・教えて!goo「エクセルのマクロなどでできる」(2010年2月16日)
https://oshiete.goo.ne.jp/qa/5682488.html
> ある高原の景観、音、空気成分濃度などをすべて定量化し、各エリアの特徴を見つけたい
> この分析はクラスター分析を使用すれば求められると、先人の論文を見て見つけたのですが、いまいち方法がわかりません。
それっぽい用語だけ転がしている感じが漂います。(※測定されたときから定量的なものと、そうじゃないのとを区別されている感じがありません。「見つける」「求められる」しか表現を知らないみたいに見えてしまいます。)
> エクセルのマクロなどでできることはできるのですが、これでいいのか・・・汗
> エクセルのマクロなどでできる
> エクセルのマクロなどでできる
えーっ!!
> (補足)
> アドバイスを参考にして、階層クラスター分析の結果と主成分分析の主成分得点の分布図を照らし合わせて、言語表現による分類分けを行うことができました。
> 言語表現による分類分け
> 言語表現による分類分け
> 分類分け
えーっ!! あくまで主だった特徴を知りたい(特徴を際立たせている変数を見定めたい)という目的では、(「各エリア」の)階層分類が必要とは思えず、逆に「各エリア」を『定量的に分類』(※そのエリアをなぜその分類に入れるのか、決定係数を明らかにしながら考察を述べる、の意)したいのであれば回帰分析(パス解析)をしなくてはならないのではないかと思われてきそうです。入力したデータだけが定量的(…入力できるようなデータなので定量的なのはあたりまえですっ!)で、分析と考察がまったく定量的でないといわれるかもですよ。えー、どれどれ?(以下略)
※そもそもぜんぶ「エクセルのマクロなどででき」たのでしょうか&途中の計算に誤りがなかったかなど、どうやって確かめるんでしょうか。2010年なので、Rへの敷居が高かったのは確かではございます。いま一度、Rで同じ計算をして…計算結果が違ったらどうしましょ?(※ぞぞーっ。)そういう怖さがあるので、マクロなんてじぶんで書くものじゃないと思うんです。Rの関数(function)に誤りがあれば、全世界のRユーザーが同じように誤った計算結果を得ているんだから問題ないよね。…問題ないよね!! やーいPentiumーっ。(※見解です。)
・当世プロセッサー事情「CPU黒歴史」とはにわ
http://ascii.jp/elem/000/000/757/757002/
> 「バグ付きPentium」の話である。何分18年前という古い話なので、ご存知ない方も多かろうと思う。
> 11月21日にはCNNがニュースとして取り上げた。
> インテルは「一般のユーザーでは、この問題に起因して問題が起こる頻度は27万年に一度」と説明したことに対して、米IBMは「一般的な表計算を利用する場合、6時間に1度の頻度で計算が誤りとなる」とこれに反する見解を表明。
おっと、そこは「これに反する」じゃなくて「相反する」でしょ。あなたはインテルでも米IBMでもないんですからね。(※いまさらですけど。)
●「階層的クラスタリング」を回答とすべき(?)質問の例
・「主成分分析でのばらつき」(2012年2月13日)
https://okwave.jp/qa/q7303023.html
> (質問)
> 月を変数として、ある商品の価格を全国の都道府県ごとに主成分分析
(横に)V1からV12まで、各月の価格が入る変数があって、(縦に)47都道府県が並んでいるという12×47の行列ですね、わかります。そういう表が渡されて分析方法を考えよといわれ、さっき習ったのが主成分分析だったりしたら、主成分分析したくなるかもです! その発想はなかった…。
そして、往々にして(質問する側としてはわからないまま質問している)質問というものは、「いちばん最初!」の発話や書き出しこそが質問だということがありましょう。「問診」でいう「主訴」ですよ。うん。開口一番「腰が痛い!」といってから、あとはもうぐちゃぐちゃと寒いだのごはんがおいしくないだの…最初に発話された「腰が痛い!」こそが「主訴」なんですよ。ええ。(※冷たい椅子を45度も回転させず棒読みはイメージです。)
> 主成分分析において、因子のばらつきが多いところを見つけるには出力結果の何を見ればよいのでしょうか?
第1主成分(に対する各変量の主成分得点)を見ればいいんですよね&いわば『3Dメガネ!』みたいなの越しに立体映像みたいなのを見せてくれるのが主成分分析ですよね。
・いわゆる「3Dメガネ」(偏光方式)TOHOシネマズの説明とサンワサプライのイメージです
http://help.tohotheater.jp/category/show/31
https://direct.sanwa.co.jp/images/goods/400-3DGS002_MX.JPG
そのような「第1主成分」を『見つけて』くれるのが「主成分分析」ですよね。んだんだ。(授業などで)「主成分」の説明の途中で「分散」という言葉が出てきたけれども、結果として出力されてくるやつ(…やつ!)には、どこにも「分散」とは書いてないのはなぜ? 「分散」はどこに消えたの? …という戸惑いではないでしょうか。しかもRのprcomp関数では「標準偏差」が出てきます。…なんと、Rのprcomp関数では「標準偏差」が出てくるんですよ。まったくもって『謎』ですよね。んだんだ。
> 例えば、月を変数として、ある商品の価格を全国の都道府県ごとに主成分分析すると、結果として、固有値、寄与率、固有ベクトル(各月に対して)がでますよね?ここで、全国の都道府県間の価格のばらつきが多い月は何月か見るためには、主成分分析の結果のどこに着目して解釈すればよいのでしょうか?
> 例えば
> 例えば
いえ、12×47の行列を渡されてから(分析方法を)考えているという気配はないですよね。失礼しました。
> 月を変数として、ある商品の価格を全国の都道府県ごとに主成分分析すると、結果として、固有値、寄与率、固有ベクトル(各月に対して)が
…はひ!? あくまで「例えば」とおっしゃる、その通りに「主成分分析」すると何が見えてくるのか、見てみようではありませんか。
・A:(12×47という向きで使うと)各都道府県に対して、V1からV12まで(各月の価格)を無相関にした主成分が第1から第12まで出てくる&各主成分とV1からV12までとの相関行列が得られる→「第1主成分は『冬季の高値』を意味している」みたいな…えーっ
・B:(47×12という向きで使うとおかしいとは思いますけど)各月に対して、V1からV47まで(各都道府県での価格)を無相関にした主成分が第1から第47まで出てくる&各主成分とV1からV47までとの相関行列が得られる→「第1主成分は『都市部での高値』を意味している」みたいな…えーっ
…えーっ。(棒読み)
> 全国の都道府県間の価格のばらつきが多い月は何月か見るためには
さっき「なべ料理など」といった手前、もはやネギや白菜などを想像しちゃって追い払えないんですけど、そのように通年で流通されるけれども価格の変動があり(大きく)、さらに東京などの大放出市…いえ、『大消費地!』では高い(月もある)というようなソレを想像してみます。
> (回答)
> そういう目的ならそもそも主成分分析をする必要がありません。
> 月ごとに都道府県別の価格の分散をとればよいです。
(「問診」でいう「主訴」という意味では)どうやら「主成分分析」を今まさに学ぼうとしている(らしい)質問者に対して、その回答でよかったんですかねぇ。…ギクッ。「例えば」を適切に挙げられないのが、学んでいる最中っぽい感じをよく表しているとは思われましょう。見出しも含め「主成分分析」と4回も書いてある、「主成分分析」というものを理解したくてうずうずしている感じの質問なんです。あくまで「主成分分析」を(質問者が)理解していけるようにという回答が求められるのではないんでしょうかねぇ。…ギクギクッ。(※表現の一部は演出です。)
仮に12×47みたいな行列が(学習者の前に)ぺらっとあるとして、次のステップでは実は商品が複数あるとか、年度が何年もあるとか…ぐふっ。【大問】の〔小問2〕みたいなのを想像しながらですね(以下略)。
逆に、「東京では野菜が高い!」という生活上の感覚は本当なのかみたいなテーマで例題のほうなど…おおー(略)。よくある「発車標仮設BOX」…じゃなくて、「レッツお野菜BOX!」みたいなのにだいたい入ってる定番の野菜をとりあげて、それら全品目の通年での価格(の変動)を東京都とそれ以外の道府県とで比べるというようなですね(略)…その発想はなかった!(違)
・八社会(Odakyu OX(小田急商事)、京王ストア、リブレ京成(京成ストア)、京急ストア、そうてつローゼン(相鉄ローゼン)、東急ストア、東武ストア(丸紅グループ)ほか)「野菜」のイメージです
https://www.v-mark.jp/company/
http://www.v-mark.jp/lineup/items/1
…コレジャナイ。
・1例としてJA全農「野菜ボックス<7品>」(全農ぐんま)のイメージです
https://goo.gl/maps/9wsAM5YAATx
http://www.ja-town.com/img/goods/3201/C/3201yasai77901.jpg
http://www.ja-town.com/img/goods/3201/L/3201yasai77901.jpg
http://www.ja-town.com/shop/g/g3201yasai77901/
> のし
> のし
> 自分の好きな野菜を選んでつくる野菜ボックス。
とはいっても、ほら、こう、だいたいのイメージみたいなのって、あるじゃないですかぁ。(棒読み)
・マクロミル「判別分析」
https://www.macromill.com/service/data_analysis/d003.html
> マハラノビス平方距離を用いる
> ユークリッド距離を標準偏差で割った値の2乗をマハラノビス平方距離といい、標準偏差で割ることで、散らばりの大きさを勘案したものになっています。ある個体のデータと各群のマハラノビス平方距離を計算し、距離が最も近い群をこの個体が属する群とします。
最終的には11種類くらいの(都道府県の卸売市場で取引される主な)野菜を(卸売価格の変動の差や、その地域差に着目して)階層的クラスタリングしたかった(≒『物価の優等生!』みたいなのを筆頭とする序列化をしたかった?)とわかるのかもですけど、いえ、質問だけではそこまでわかりませんってば!(恐縮でした。)
・バナナの小売価格は小売店の勝手だよねっ(棒読み)
https://www.excite.co.jp/News/bit/E1482730380580.html
実は(おおもとの変量は)2値であったなどの(中略)うそーん。
・教えて!goo 初めから「初めから「時系列分析」と決めてかからずに」と決めてかかって回答されてしまった例(2001年8月30日)
https://oshiete.goo.ne.jp/qa/126838.html
> 交通事故が経年的に増減する理由を説明するために、時系列分析を用いて行おうと思っています。
> 使用するデータは人口、交通量、道路延長、自動車保有率、違反率(取締り件数)などです。
質問者が述べたことは、既に学習の進んだ者から見ると素朴に見えるのですけど、しかし、質問者が真に調べたいと思っていることは、やはり質問者がじぶんで述べたことの中からしか出て来ようがないと思えるのですよ。
> どのような式を使えばいいのか
> どのような式を使えばいいのか
回帰式のことを指して「式」とおっしゃる(以下略)。
※「増減する理由を説明」すわ回帰分析っ。そこに「経年的に」というのが加わってくると、途端に途方に暮れるというものです。他方、「時系列分析」というのは、切れ目のない連続的なデータ(=系列)から周期性をうまく扱っていこうという、「差の検定」や「回帰分析」に対するいわば『前処理』のような技法であり、「時系列分析」と呼ばれる(「回帰分析」と対置される)あたかも1つのでっかい大きな分析法みたいなのがあるかのようにとらえてはいけないでしょう。これは「主成分分析」も、まったく同じですよね。…その発想はなかった!(ないから混乱したり、過大な期待を抱いたりするのですよ。)
> (回答1)
> 初めから「時系列分析」と決めてかからずに、交通事故の件数、人口、交通量、道路延長、自動車保有率、違反率(取締り件数)と並んで、年というデータもある、というふうに捉えるのが良いかと思います。
> 多変量解析、特に因子分析、その中でも主成分分析を適用してみるべきであろうと思います。
ここでいう「主成分分析」は、あくまで「因子分析」をメニューから選んで、しこうして「主成分分析(法)」を選んでみたいな文脈での「主成分分析」をいっているとみられるのであって、(以下、)異様なほど「因果関係」へのこだわりを示されています。本来の(ただの数理的な操作としての「対角化」や「SVD」である)「主成分分析」なら、何も考えずに放りこんでみてよいのですよ。もちろん因果関係はわかりませんけれども、そもそも因果関係を明らかにするために主成分分析するんじゃないんですよ。相関の構造をあぶりだすためなんですよ。ここはでっかい大きな違いだと思うんだなぼかぁ。(違)
> 因果関係は示していない(略)勝手に因果関係を決めて掛かってはいけません。
> 相関があるのかどうか、また相関が一次式で近似できるようなものかどうか
相互情報量([3526],[3566],[3581])も参照いただきながら、もっと突飛な非線形なのもきっとあるですよ!(棒読み)
> 次に、因果関係の解析について。
> ここでようやく、時系列らしい話になってくるはずなんですが(以下略)
あなたの専門だけで回答しちゃって@このこのぅ!(※表現は演出です。)
(「横断面分析」として)「主成分分析」できるほどにもデータが多変量ではないよね(=地域の特徴をいっている変数はいろいろあるけど、交通事故そのものの特徴を含んでいそうな変数が足りてないっぽいよね)。むしろ、地域(事故の発生場所)や(運転者や死傷者の)年齢などを詳細に把握して分割表を書いていくのが先決だよね。…その発想はなかった!(⇒「A県警」の分析例ございます[3543])
・「横断面分析」とはにわ
https://kotobank.jp/word/%E6%99%82%E7%B3%BB%E5%88%97%E5%88%86%E6%9E%90-4128
・(参考)「主成分分析のアルゴリズム」インテージの説明です
https://www.intage.co.jp/glossary/401/
> ソフトは実行してしまえば計算過程は見えませんが、アルゴリズム(手順)はこのようになっています。
> 全データの重心(平均値)を算出
> 2)重心からデータの分散(ばらつき)が最大となる方向(第1主成分)を算出
> 3)第1主成分と直角に交わる(直交)方向で分散が最大となる箇所(第2主成分)を算出
> 4)直近の主成分と直交する方向で分散が最大となる箇所(第3主成分)を算出
> 5)4)をデータの次元分だけ繰り返す
・(参考)「分散分析」MathWorksの説明です
https://jp.mathworks.com/help/stats/analysis-of-variance-anova-1.html
> 分散分析 (ANOVA) は、応答変数の変動が母集団グループ内で発生しているのか、異なる母集団グループ間で発生しているのかを判別する手順です。
※「分散分析」については後述。
●Rの「prcomp関数」と「princomp関数」の違いに言及すべき質問の例
・教えて!goo「主成分分析の結果の解釈について」(2014年1月8日)
https://oshiete.goo.ne.jp/qa/8420044.html
> (質問)
> 文献にのっていた色と形の差による印象の変化についての調査を独自に行い、色と形の印象の評価要素をまとめるために結果を主成分分析にかけました。
> すると、文献にある結果と第一主成分、第二主成分の内容がほぼ逆転してしまっていたのですが、これはどのような理由が考えられるのでしょうか。
そういうやつ、朝倉書店「多変量解析実例ハンドブック」にも載ってますよね。「57. 色と形の類似性知覚に対する多次元尺度法の適用」とか、それっぽいですよね。「この方法で作成した16図形(図7)を刺激図形として」の刺激をそのまま使いたいというのはたいへんナットクでございます。(色覚の実験はしないで形の実験だけ追試したということですね。)「34名の大学生(男18名,女16名)」ってことですね、わかります。ただ、ここでは「11尺度」なので、「40」ということは続報もしくは別の文献ということでしょうか。
> 調査方法はSD法でのアンケートです。文献と全く同じ刺激を用いて、参加者の人数、年齢、性別も文献とほぼ同じになるように調査しました。
> ただ文献で扱っていた形容詞対は40でしたが、参加者への負担を考えて30に減らしました。
> (回答1)
> あたりまえながら、ありそうなのは第1主成分と第2主成分が同じくらい重要だということでしょう。
それはないでしょ&主成分分析できてないでしょ。
> (回答4)
> 第1主成分はサイズファクターと呼ばれ、因子負荷量のプロットを見ると、殆どが、右側(第1象限と第4象限)に来ます。
> 第2主成分はシェイプファクターと呼ばれ、因子負荷量のプロットは、上下にバラケます。
えーっ。それはMDSで、横軸に第1主成分、縦軸に第2主成分をとったときのことを述べているだけですよね。主成分そのものにそのような意味が本来的にあるというわけじゃないですよね。…本当でしょうか。そして、(主成分得点が)正か負のどちらかに寄るというのは、元のデータがそういうデータだったからということっぽいですよね。…もっと本当でしょうか。
> (回答3)
> ソフトによっては、第2主成分軸を逆転させるオプションがありますので、気持ち悪ければ、軸を逆転させて下さい。
MDSとして描画した結果が反転したので「グラフを観察しての印象を述べ」([3563])みたいなことをするときの『報告文例!』みたいなのが上下左右が違って「気持ち悪」いということなんですか、さいですか。
> (回答2)
> 応用統計で学位を持っています。
> 応用統計で学位を持っています。
…ぐふっ。(これを先に知らしめないと部下を指導できないみたいなソレなんですよ。しかし「教えて!goo」でソレしちゃいますかっ。)
> 主成分分析は、まず、多次元空間で一番分散の大きい方向(一番特徴のある方向)に第1主成分軸が引かれます。第2主成分軸は、それと直交するように引かれます。
> 正負はどちらでも良いのです。
> 第2主成分軸がこうなることは、工学部出身の技術者では常識です。
※工学部出身でない(高専卒の)技術者を見下した上で工学部出身の技術者を奮起させようというとってもアレな表現であってですね(中略)質問者をその同類とみなして「そんなことも知らないのか」というニュアンスが出てきています。いえ、会社の職制がそのようになっている(いた)ということを反映しているだけなのですよ(=悪気はぜんぜんないんですよ)。なお、文部科学省「大学間連携共同教育推進事業」からの「市場は「高専」をどのように評価しているか」については[3387]を参照。時代と分野(業界)によってぜんぜん評価が違うようで何ともです。
応用統計の部屋(研究室)で卒論を書いて工学部を出ましたということを「応用統計で学位を持っています。」といっていませんか? …ギクッ。質問は「SD法」に関するものだということをぜんぜん読んでいないでしょ。…ギクッ。
※国鉄でいう「学位取得者」については[3494]を参照。
・「応用統計研究室」の1例です
http://www.rs.noda.tus.ac.jp/stomizaw/job.html
・「47形容詞対」の用例です(1992年2月28日)
https://nitech.repo.nii.ac.jp/?action=pages_view_main&active_action=repository_view_main_item_detail&item_id=4133&item_no=1&page_id=13&block_id=21
https://nitech.repo.nii.ac.jp/?action=repository_action_common_download&item_id=4133&item_no=1&attribute_id=39&file_no=1
・「36項目のSD法尺度」の用例です(1994年4月)
https://www.jstage.jst.go.jp/article/aija/59/458/59_KJ00004220790/_pdf
(最初から)行列のSVD(特異値分解)でどやっしてからソートして「第1主成分」だというように出てくるのだというモダンな早合点(…あくまで早合点なんですけど)のもとでは、どう説明できるでしょうか。
・しょくんがみくだしてやまないウィキペディア「主成分分析(PCA)」は英語版を参照しようではありませんか付近
https://ja.wikipedia.org/wiki/%E4%B8%BB%E6%88%90%E5%88%86%E5%88%86%E6%9E%90
https://en.wikipedia.org/wiki/Principal_component_analysis
> 出典がまったく示されていないか不十分です。内容に関する文献や情報源が必要です。(2015年5月)
> 内容が専門的でわかりにくくなっている恐れがあります。(2015年5月)
…じゃあ英語版を読めばいいんですよね。(※見解です。)
> 品質管理 ホテリング変換
> 機械工学 固有直交分解
うわぁホテリング変換。それに固有直交分解。習ったときはそういう呼びかただったけど、これを主成分分析と言い換えるだけでいまふうなんだよね。…ギクッ。もっとも、機械工学の固有直交分解は独立成分分析と言い換えられていそうですけどね。(昔の)品質管理のひとは(その時代その時代に)使う(使わせられる)「分析ソフト!」に合わせて、あくまで「分析ソフト!」の『機能』として「主成分分析」と呼びつけていそうだよね。(※あくまで想像です。)
> 主成分分析は観測値の共分散行列や相関行列に対する固有値分解、あるいは(大抵は正規化された)データ行列の特異値分解によって行われる。
> 分散はデータのスケールに依存するため、主成分分析の結果はデータをスケール変換することで変わり得るということが挙げられる。
> 観測値の基準化の方法や数値計算のアルゴリズムに細かな差異が存在し、個々の方法は必ずしも互いに等価であるとは限らない(例えば、R言語におけるprcomp関数とFactoMineRのPCA関数の結果は異なる)。
それを冒頭に書くから「内容が専門的でわかりにくくなっている恐れがあります。」といわれるのですよ。(棒読み)
> R – Free statistical package, the functions princomp and prcomp can be used for principal component analysis; prcomp uses singular value decomposition which generally gives better numerical accuracy.
> Kernel PCA
> Sparse PCA
・[3575]
> > 本稿で述べたポテンシャルエネルギー項を用いたPCAやFPCAを推定するためのPCA(付録B)では数万以上の変数となり共分散行列の対角化を行うことが困難であることが多い.ここでは共分散行列の対角化を用いないPCAの実装法について簡単に述べる.
実用上は、計算実行の(計算機のメモリ容量の)都合上、「対角化」では話にならないといって「SVD」を用いるという早合点でございました(※あくまで早合点です)けれども、数学的には「generally gives better numerical accuracy」というところが「SVD」の利点だとわかります。(変数が多く)行列が大きければ大きいほど、「丸め誤差」みたいなの([3076],[3152])が累積するようなアルゴリズムを使ってはいけないのですよ。(※これまた早合点です。)
・[3076]
> > 科学技術の計算ではより精度の高い計算が必要な時は使用するビットを増やして計算をします。(略)循環小数でも桁数が多ければより正確になるという考え方です。科学技術の分野ではこれで問題ありません。コンピュータの得意な2進法の中で計算しますから高速に計算できます。
> > 四捨五入をしたはずなのに結果が異なるということもあります。お金の計算で小数が入ってくる利息の計算などではこれではまずいので対策が必要です。
> いまどきの「情報B」では「IEEE754」を教えるんですね。そして、簡潔にしてツボをおさえた説明、さすがです。なぜ金融系では独特なプログラミング言語が使われるのか(一般的なプログラミング言語ではだめなのか)、実感的に理解できそうです。
これに倣って、仮には「小数点以下をいつ丸めるか、それが問題だ!(いまじゃないでしょ!!)」みたいな形でイメージしても、さほど間違いではないかもですよ。本当でしょうか。
Rにも(「対角化」の)princomp関数がある([3575])ということでした。質問(「教科書の例題と同じ結果にならない!」)も、この差異に起因しているのでしょうかねぇ。(あくまで想像の1つです。)なお、ウィキペディア「主成分分析」のページは「単位を取れる確率アップ! まずはこの1冊をやっ統計!」([3401])ではなく、それなりには英語版からの翻訳と見られることを申し添えます。
・なんと「大学4年間の統計学が10時間でざっと学べる」(2017年7月28日)
https://www.amazon.co.jp/dp/4046020008
(この本に沿ってお行儀よく、示される通りの順番で)10時間もかける必要って、なさそうですよね。(本での説明や講義とは違って)実際には「平均」も「分散」も、(多次元だろうとも)幾何学的にイメージしてますよね。式すら使わんですよね。…その発想はなかった!(※個人差があります。)主成分分析とクラスタリングと重回帰分析が出てこないというのは現代の水準ではアウトですよね(=先に知ったほうが理解が進むというひともいそうですよね)。(※見解です。)
> (カスタマーレビューより)
> 東大の統計学の授業をベースにしたものらしいのだが、いくらなんでも4年間も統計を学び続ける人はいないと思われるので
いますよ。大学院も入れて9年間ほど統計を学び続ける(※後半は「使いながら」学ぶ)のが、統計を学ぶということですよね。うん。(※わたしじゃないです。)
・総合研究大学院大学 複合科学研究科「統計科学専攻」
http://www.ism.ac.jp/senkou/
> 統計科学専攻は我が国唯一の統計科学の専門の大学院であり、総合研究大学院大学の複合科学研究科の一専攻として、統計数理に関する教育研究活動を行っています。
> 昭和63年の開学以来、統計科学の学際性を反映して、狭義の統計学だけに限らず理系から文系まで幅広い分野を背景とする学生・社会人を受け入れ、学位取得の後はこれも学術や社会の幅広くさまざまな分野で活躍する人材を輩出してきています。
昭和63年は1988年です。…昭和63年は1988年です! この「昭和63年は1988年です。」という知識は、このあとすぐ使います。
> 統計科学専攻は、統計数理研究所を基盤機関として教育研究活動を行っています。この統計数理研究所は、昭和19年に統計科学の学術研究を目的に文部省直轄の研究所として設置され、以後、大学共同利用機関への改組や法人化などさまざまな変遷を経ながら、「情報量規準AIC」、「数量化理論」、「モンテカルロフィルター(粒子フィルター)」などの開発と提唱をはじめとして統計科学における多大な研究成果を挙げて、我が国のみならず世界における統計数理研究の中心的な研究機関として、学術の発展に寄与してきました。現在でもデータ同化、調査科学、機械学習、リスク解析、サービス科学など多くのプロジェクトが進行中で、最先端の研究活動が行われています。
このあたりはダイヤモンド社「データを未来に活かす」([3330])を、高校生のうちに(できれば「文理!」みたいなのを選ばされてしまう前に)読まれるといいのではないかなぁ。(※見解です。)
●「いわゆるマルチコ」の指摘を回答とすべきでない質問の例
・「尺度構成手続き」のふいんきです(※あくまで「ふいんき」です)
http://jspp.gr.jp/doc/RRQ_manual.pdf
> 本尺度は以下の2つの下位尺度から構成される。
> 回答方法は,「1.全く当てはまらない」,「2.当てはまらない」,「3.どちらともいえない」,「4.当てはまる」,「5.よく当てはまる」の5件法。各項目の合計をそれぞれの下位尺度の得点とする。
こういう感じのが先にがしつと決められていて、(いわば)「実験従事者」としては裁量がないという状況を先に思い浮かべていただきます。(メッソウではございます。)
> 大学生276名を対象とした質問紙調査において,*A*と*B*はいずれも*Y*との間に相関が見られた。また,*A*は*I*との正の相関が確認された。さらに,*A*は*J*と,*B*は*K*との間にそれぞれ有意な相関を有していた。
工学っぽくいえば、「大学生276名を対象とした質問紙調査」を学習データ(訓練データ)として、(この276名とは別の、これから訪れる患者などの)症状「*I*」「*J*」「*K*」の推定(判別)を行なおうという枠組みがあって、その学習データから得られた予測モデルがいい感じですよということを主張(※)しておられるのが「妥当性」の説明ですね、わかります。
※「感度と特異度」([3567])に言及せず、「相関がある」としかいっていないんですよ、の意。
・あらかじめ「分散分析」とはにわ付近をご覧いただきます
https://kotobank.jp/word/%E5%88%86%E6%95%A3%E5%88%86%E6%9E%90-23230
> 世界大百科事典
> 一つの特性についてのデータのばらつきの大きさを,そのばらつきの要因別に分解することにより重要な要因を明らかにし,その影響の強さを知るための統計的方法の一つ。
> このようなばらつきの要因と考えられるもの(米の収量の場合には品種,天候,土壌,肥料など)を因子といい,一つの因子の中で取り上げる区別(品種の場合には個々の品種)を水準という。
名義尺度っぽいけれど「離散的!」な「水準」(※「4、6および8」みたいなの=3水準)という見かたでよければ「量的」とみなせるよねみたいなデータセットがあるときに、何も考えずに行なう、探索的な(仮の)検定であると思われないでしょうか。「分散分析」で最終の結論を得ることは、もはや認められないのではないかなぁ。本当でしょうか。
そして、分散の式と相関係数の式を「ジト目」で眺めながら、変量が2つしかなくて相関係数が高いということです。…えーっ。もはや何の分析もしなくていい感じっぽくないっスか?(※表現は演出です。)
・教えて!goo「相関が強い要因を使った分散分析について」(2004年1月25日)
https://oshiete.goo.ne.jp/qa/760885.html
> 各群の被験者数も、2つの尺度の強い相関の結果、*A*度と*B*度の両方が高いか両方が低い群に集中し、*A*度低&*B*度高群と、*A*度高&*B*度低群の2つの群はほとんど被験者がいません。
> この時点で分散分析がかなり苦しいのですが、GLMのTypeIIIの検定などで被験者数の片寄りを考慮した上での分散分析ができるとします
> GLMのTypeIIIの検定など
> GLMのTypeIIIの検定など
> 以上のような、二つの要因に強い相関が見られる場合の分散分析は、どのように処理すればいいのか
「分散分析」しか知らないけれど、こう、あるじゃん! そういう探索的なやつ!!(※意訳)
> (回答1)
> 一変数の場合ならば,回転がないので,因子分析も主成分分析も同じことですね
> (この回答へのお礼)
> まずは確認です。
> このような場合に使える検定をご存知でしょうか?
あなた変量を追加せずにいったい何が出てくると期待しちゃってるんですかっ! (この2変量に)相関係数では表現できない『変なカタチ!』の相関があって、結果的に相関係数が0.6くらいだとおっしゃる(中略)非線形な回帰をするってことですね。…それに意味があるのかなぁ。(棒読み)
> (回答2)
> むむむ
> うーんうーん
> 偏相関係数を求めることにより.独立変数間の共変分を除去して考察することもできます.
それはつまり「主成分分析」で固有値が最も高い第1主成分を除去して…というか、固有値の小さいほうから採る「MCA(minor component analysis)」([3574])の考えかたですね、わかります。(※あくまで早合点です。)
> (この回答へのお礼)
> 重回帰分析は、私も考えました。でもやっぱり、多重共線性にひっかかりますよね。
主成分分析の結果を使った『報告文例!』がほしいという質問に読めてきます。しかし変量(説明変数)が2つきり!! …えーっ&そこからですよっ。
> 従属変数:ここ1年間で阪神グッズにかけたお金の合計(千円単位)
> 要因1:「星野監督ファン度尺度」(5件法10問の平均得点)を元に高群と低群を構成(2水準)
> 要因2:「阪神ファン度」(5件法10問の平均得点)を元に高群と低群を構成(2水準)
※質問者が冒頭で断っている通り、実際には仮説(2つの因子)を検証する被験者実験のデータ(=データだけ見ると社会調査と見分けがつかないかもしれませんが、いいえ。同意書を得ての「実験」なのですよ=)が既に手元にあって、(指導役みたいなひとから)「分散分析をしてみれば?」みたいにポヤンと言われて困っているみたいな状況がしのばれます。…問題の立て方(=実験計画)が既に「共分散構造分析」のソレなんですよね。「分散分析」まで戻っちゃうと、かえってよくわからないのではないんでしょうか。(あくまで推察です。)しかし、ここでは「共分散構造分析」だとは思わず見ていきましょう。
みなとのよーこ…じゃなくて、あなた分散分析の何ですかっ!!(※意訳:あなたは本当に分散分析しか知らないんですね。じゃじゃっ、じゃっじゃっ…間奏にのせてアドリブでぼやいてみせるとGOOD!!)先述の「主成分回帰(PCR)」からの「PLS回帰(PLSR)」のニーズが出てくるうち最小の問題(データセット)っぽいですよね。
質問者としては「お金の合計」が(測定可能な唯一の量的変数だということでしょう)目的変数だと決めつけているのですが、それはあくまで決めつけであって、この3変量をまったく対等に使って主成分分析にかけて、第1から第3までの主成分が出てきて、そのうち第1主成分だけを説明変数とし、それに対してこれらの各変量を1つずつ目的変数にした単回帰を3回やってみせて(中略)まだそこにいたんですかっ。第1主成分と第2主成分を説明変数とし(逆にいえば第3主成分のみを削除して)、3変量を目的変数とする「パス解析」をするのが『基本線!』だったりとかしませんかねぇ。本当でしょうか。
※「パス解析」や「PLS回帰(PLSR)」を学ぶ例題としてデータの複雑さが不十分であるとわかります。変量が5つはほしいのではないかなぁ。本当でしょうか。
変量の種類はどうやっても増やせないんでしょうか。(よく見ると…ん? どこか似…じゃなくて、)あなた「5件法10問の平均得点」ですかっ!! 各問の「素点!」を使いなはれよとか、誰かおっしゃってくださらないかしら。(※表現は演出です。)
分散分析でいう「水準」という用語で考えていると大げさな感じで(学習者としては)“気おくれ”しますけど、あくまでマクロミルのうっかりさん(違)いわく『離散量!』という意味では、(各々が)5つの目盛りのある順序尺度であるこれら20つの変量をそのまま使って、いいじゃないですか。うん。20変量の主成分分析なら(目盛りが5つしかないとはいえ)だいぶ主成分分析らしくなりますよね。…その発想はなかった!(※私見です。)
「どちらともいえない」を「3」とする「5件法」であれば、各々の尺度をそのまま使うにしても「2水準」にするのはおかしく、「平均!」にしてもやはり「2水準」にするのはおかしいと素朴には思えます。「どちらともいえない」という回答1つを0.5ずつ(「2水準」の)両方に入れたみたいなことになってるからいいよね…うーん。その気持ち悪さを『見なかったこと!』にして「2水準」にしさえすれば…ギクッ。
※実験計画を行なったひと(≒尺度をつくったひと)としてはこのような理解をあらかじめしているので、「共分散構造分析」に沿って実験が計画されたのですよ。あなたはもう淡々と「共分散構造分析」に沿って考察を述べるしかないんですよ。いくら「共分散構造分析」がきゅうくつだと思っても、「共分散構造分析」以外の方法にこれから乗り換えることはたぶん許されないんですよぅ。…たぶんーっ!!
分析にかけるデータの扱いを見直すべし(※どの段階で「集約」してしまうのか⇒なるべく「素」のまま「多変量解析」にかけたい)と回答すべき質問に対し、あまりにもテクニカルに多重共線性のみに着目させるような回答をしてしまうことは、学習者がじぶんで伸びていくことを妨げると心配されないでしょうか。(※あくまで感想です。)
・「気おくれ」とはにわ
https://thesaurus.weblio.jp/content/%E5%A0%82%E3%80%85%E3%81%A8%E3%81%A7%E3%81%8D%E3%81%AA%E3%81%84
> 自分が小さく感じる
もっとほかにぜんぜん発想の違う分析手法やデータ表現はないのかという、そちらを手早く勉強したほうが役に立ちそうですよね。…その発想はなかった!(棒読み)いきなりk-meansにほうり込んでいいのではないんですかねぇ。「検定」はできませんけれどもね。
例題の段階からきちんと実践的な、現実味のある、欲をいえば『切迫感』([3098],[3574])のあるデータで「演習」いただけるとよい(※データや「尺度」を取り替えるだけで「実践」できる=わあぃいい意味でのテンプレって、こうですかっ)のですけれども、真に研究課題を解いてみせる(じぶんで調査や実験を設計する)ことのほうが目的となる「実習」とは、やはり目的が異なるのです。演習の例題って、きわめてびみょーですよねぇ。(※あくまで感想です。)
※「実際的センス」については[2938]、「最初の一から状況的」については[3358]を参照。「共分散構造分析」ですから科学的です!! …えーっ。
●「いわゆるマルチコ」を指摘して「非階層的クラスタリング」を回答とすべき質問の例
・「主成分分析 ≫ クラスタリング」(2016年10月28日)
https://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q11166131356
…「≫」みたいなのキターっ!!(棒読み)
> データサイエンスの文献
> ある一群のデータをk-meansによってクラスタリングをする前に、主成分分析によって属性を主成分得点に変換して、主成分得点をクラスタリングするとありました。
> 元データと主成分得点は単なる座標回転に相当すると思います。
> 従って、どちらのデータによってクラスタリングを行っても、結果が変わるとは思えないのです。
ごもっとも! そこまですんなり理解させる文献って、ちょっとすごいかもですよ。(…そっちですかっ!!)
> (回答)
> 主成分分析には次元縮約という目的もあるんですから、低次元に落としてからクラスタリングしたのでは?
うーん。主成分を(固有値の)上位だけ取り出すのでなくぜんぶ使う(使うのは「主成分得点」ですが)ということには、標準化や中心化のしかたを工夫したというニュアンスがあって、クラスタリングというアルゴリズムへの入力としては、まったく違うデータになっているんだという理解ではないでしょうか。そのように様相が一変したデータから出てくる距離(変量間での遠近感)もまた、まるですっかり変わってくるだろうというのが直感的な理解ではないでしょうか。本当でしょうか。
※…というようなことが一目瞭然になるようなデータセットって、ありませんかねぇ、の意。(恐縮です。)
> 主成分分析や多次元尺度構成法から得られた座標に、クラスター分析の結果を重ねることは比較的頻繁に行われますが、多くの場合、主成分分析等から得られる低次元の散布図と、元のデータにクラスター分析を適用した結果を重ね合わせるという形で行われます。
散布図やバイプロットに打つ(データの)点の「色分け」に、別に実行したクラスタリングで得られたクラスターを使うということですね。明示的にk-meansとまでいっている「データサイエンス」の学習者にむかって、いまさら漫然と「クラスター分析」といっちゃうひと低〜い!(※小町の見解です。)
このような探索的な利用シーンで、なぜ主成分分析を先に行なうとよいのかといえば、“むやみに”次元を減らす(=減らしていいかもわからないうちに減らしてしまう)ということよりは、多重共線性の解消のほうに主眼があるといえるのではないでしょうか。本当でしょうか。
※「主成分分析=イコール=次元縮約法だよね★ちゃんと知ってるよ」との一面だけの理解で何もかも説明しようとしてはなりません。じゃあ(※)『どっち』なのかといって、あくまで2項的に…その発想のままでは主成分分析っぽくないのではないかなぁ。(あくまで気分はふいんきのあるふいんきです。垂直タブでお願いします。ダミー文字列にご注意ください。いりこだしがごいりよーのおきゃくさまはおちかくのきゃくしつじょーむいんまでおきがるにおもーしつけください。いりこだしがごいりよーのおきゃくさまはおちかくのきゃくしつじょーむいんまでおきがるにおもーしつけください。…なぜに2回いうし&いりこだし!! そっちはASCIIコードですよぅ。)
・「垂直タブ」
https://ja.wikipedia.org/wiki/%E3%82%BF%E3%83%96%E3%82%AD%E3%83%BC
> 水平タブは8文字ごと、垂直タブは6行(一般的には1インチ)ごととするのがデファクトスタンダードとなった。
> タブ文字は、単に複数のスペースや改行を1つのコードで送るためのデータ圧縮用として使われるようになった。
※「右寄せ」とか「右寄せ」とか、それにページの最下部で「右寄せ」して「以上」とかゾッとするよね。んだんだ。
・教えて!goo「質的データと量的データからなるサンプルをグループ分けするにはどの分析を使えばよいでしょうか。」(2009年4月4日)
https://oshiete.goo.ne.jp/qa/4852170.html
> アンケートの結果から回答者をグループ分けをしてグループ毎の特徴を挙げたいと思っています。
> 『c.性別・住んでいる地域など順序の全くないデータ』
> 1)cのデータだけで数量化3類の計算をして点数で示す。
「c.」は属性ですよね。(社会調査としては)回帰分析するときに目的変数にしたり、分割表をつくったりするときに使うんですよね。大阪府「小学5年生と中学2年生が混ざってるデータ」([3442])みたいなことにならないように分けるってことですよね。(棒読み)
※社会調査だといわない場合(学級や職場など小さな集団をより細かく見ていく心理学の何かみたいなの)は、カテゴリー変数の1つとしてまったく区別なく取り込んでもいいのかもですよ。本当でしょうか。
> 『a.身長・体重など数値のデータ』
> 『b.好き嫌いの度合い等の5段階のデータ』
この(自称)「アンケート」で、いったいどんな考察ができるんでしょうかねぇ。(棒読み)あまりにも無意味なデータセットでありながら、妙に手際よくa,b,cに分かれているんですよねぇ。(棒読み)いくらSPSSの使いかたに慣れていただくだけ(考察はしないよ…なんと、考察はしないよ!)みたいな場面でも、こういうデータセットではかえってよくわからなくなるんではないんですかねぇ。(棒読み)「住んでいる地域」は「通学時間」「通勤時間」などに置き換えると(純然たる)『量』になるんですよね。…その発想はなかった!(「自宅か下宿か」みたいなのは大小関係のない名義尺度ですよね。…いえいえいえ、大小関係のある順序尺度かもですよ。本当でしょうか。)
> (回答)
> 順序データも5以上であれば量的データとして扱ってもよいというのが暗黙の了解です。名義データもカテゴリカルデータにすれば良いでしょう。
> それよりも、カテゴリカル主成分分析をしてはどうでしょうか。(略)2次元空間にプロットすればグループ分けも可能かと思います。
この話で多重共線性にまったく触れず、(説明変数が)「質的」か「量的」かということのみを気にしているのではいけないなぁ。それに、クラスタリングはクラスタリングですぞ。プロットしたのを「観察して印象を述べ」るんじゃないんですよ。プロットできようができまいが、クラスタリングでクラスター(分割結果)が得られるのですよ。それを淡々と報告すればいいんですよ、それが目的ならね。…それとかこのとか、どれなんですかぁっ。(※表現は演出です。)
・教えて!goo「2つの主成分に回帰する(主成分スコアを求める)」(2013年8月10日)
https://oshiete.goo.ne.jp/qa/8213688.html
> (回答)
> 2つの主成分に回帰する(主成分スコアを求める)
えーっ。回帰分析を知らない(名前だけ知っている)みたいな空気が漂います。そういえば、わたしこと残念なたわし、回帰をちゃんと学ぶ前(Excelの画面などに出てくるので目に入るという程度だったとき)には、『文字面!』だけからの想像で「帰結」「再帰的」などのイメージとごっちゃになって「コンパクトにまとめるのが回帰だよね!!」みたいなふいんきみたいなのがまったくなかったかどうかというとわからなくなってきます。(※棒読みはふいんきでお願いします。ヘリウムは使用しておりません。たわしは無料でお配りしています。ご不要の場合は恐れ入りますが、お客さまのご負担での廃棄をお願いします。…なにそれ超絶めーわくなんスけど! 要らないものは最初からもらわない。これだね。)
※あくまで演出です。
・(紀要論文)「主成分に回帰する」(※「に」に傍点)の用例です(1990年)
http://ci.nii.ac.jp/els/contentscinii_20171213203115.pdf?id=ART0000839130
> リッジ推定量はホエール・ケナードが提唱した推定量である。
> これとは別に、安定した構造方程式の計測を行う推定方法のもうひとつは、主成分回帰推定量を採用することである。
> 線形回帰モデルは、被説明変数を説明変数の主成分に回帰するのと同等であると解釈できる。その際、説明変数の変動を充分反映しない主成分を無視して、回帰を行なうのが主成分回帰推定である。
※被説明変数:目的変数。(複数の)説明変数の主成分をすべて使った回帰は、もとの説明変数での線形回帰と同じだといっています。本当でしょうか。…本当でしょうかっ。あるデータ行列について、主成分分析にかける前後で散布図行列の様相が『暗号化や無線LANのアレみたい!』に一変した(ぜんぶ無相関にしてまーれ!)ことを既に[3575]でポヤンと眺めたいまのわたしたち(中略)本当に本当でしょうか!?
(主成分分析によって)主成分を出してくる操作を指して「2つの主成分に回帰する(主成分スコアを求める)」と言い表すのは明確に誤りです。
・合成はやとちり「回帰」のイメージです(※これは回帰ではありません)
http://www.sekikawa-onsen.com/blog/WindowsLiveWriter/2010714_12712/20100714-1_2.jpg
https://dictionary.goo.ne.jp/jn/35533/meaning/m0u/%E5%9B%9E%E5%B8%B0/
https://www.weblio.jp/content/%E3%81%A8%E3%81%90%E3%82%8D
https://thesaurus.weblio.jp/content/%E3%82%8F%E3%81%A0%E3%81%8B%E3%81%BE%E3%82%8B
https://thesaurus.weblio.jp/content/%E5%85%83%E3%81%AE%E9%9E%98%E3%81%AB%E5%8F%8E%E3%81%BE%E3%82%8B
> 蛇がからだを渦巻のようにぐるぐる巻いてわだかまること。また,そのありさま。
> ひとまわりして、もとの所に帰ること。「伝統への回帰」
> 転じて,人の寝るところ。家。
> 収まるところにおさまる
> 割り切れない
> 尾を引く
> 影を落とす
> 解せない
えちごせきかわ温泉郷旅館組合のイメージです。…じゃなくて、なぜに「regression」の対訳が「回帰」なんですかねぇ&そっちですよっ。
・漢字4つで「原点回帰っ(どやぁ」(※効果音「高速タイプライター」入りまーす)
https://twitter.com/tokai_newsone/status/808597344379768832
https://pbs.twimg.com/media/Czi2_qBUkAIY0NY.jpg
https://dictionary.goo.ne.jp/jn/70501/meaning/m0u/
…しかも燃えてるし。燃えてるしっ!!
・「regression」
https://eow.alc.co.jp/search?q=regression
> 1. 後戻り
> 2. 《心理学》退行
> 3. 《統計》回帰
> 4. 〔病気などが〕前の悪い状態に戻ること
> 5. 《病理》退行、退縮、軽減
> 6. 《コ》〔ソフトウェアの更新などに伴う〕前のバージョンになかった不具合、再発したバグ◆機能追加・問題修正などの副作用で生じた、以前はなかった不具合。または以前に修正した不具合の再発。
・「gression」
https://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q1116281781
「gres」だけで「歩いていく」という動きのある語感であり、そのような動きの結果として「景色や様相が変わる」みたいなことをポヤンと「gression」といいながら、これ自体は『音楽用語!』だということです。それの逆向きというのが「regression」ですね、わかります。進行する音楽を巻き戻したみたいだといっているんです。あるいは奏者が町にやって来た時だけうやうやしく聴かせてもらえるのでなく我々、金さえ出せば(中略)楽器と楽譜のセットみたいなのを“手中におさめ”([2568],[3461])さえすればおおいにご満悦なんですよ。…たぶん。
音楽でいえば主題みたいな、目的変数が先にわかっていて、説明変数を使って目的変数を当ててみせるというのが「regression」であると、こういうわけです。わあぃイントロだけで早押しっ!(※小麦粉を使用しています。)どこを「逆向き」と感じるのかが(非母語話者には)わかりにくいって、こうですね。目的変数まで聴いたことがあるからイントロだけで当てられる(ような気になれる)のですよ。(棒読み)
・[2568]
> 携帯電話は便利ですけれども、手のひらに収まるせいで「自分の手中にある」と勘違いしがちなのだと思います。知らず知らずのうちに文章がおかしくなったり自己中心的になったりしてしまうのも、デバイスのせいかも知れません。
・[3461]
> 名状しがたい「たからのちず!」に「このへん!」といって、でっかい大きな赤い×印のほうなどつけただけで、すでにたからものを手中に収めたかのような満足そうな顔で(略)…ゲフンゲフン。
・(再掲)Google もしもし新千歳空港はここですか(ここですよー&はやくーぅ!)
https://goo.gl/maps/GuJove9PAP12
https://goo.gl/maps/WyY1wL3DtoL2
https://goo.gl/maps/6GWoNXSRrL52
https://goo.gl/maps/BhvrQV9MXFu
https://goo.gl/maps/1pi7PXdLZf32
https://goo.gl/maps/imGyNVEbQ392
https://goo.gl/maps/nZJ9iGGXX5G2
https://goo.gl/maps/VxnijkcLuLv
https://goo.gl/maps/RHrbq4pbZXF2
キャンドゥで買ってきたみたいなキッチンタイマー(グリーン)が1つ。キャンドゥで買ってきたみたいなキッチンタイマー(ピンク)が1つ(中略)わあぃバニラ大納言ーっ。
・[3446]
> 飛行機やだー、コワいー…。さあさあ飛行機はコワくないですよ、といいながらビニールプール(※都合により湛すいは省略しています)のほうに安全に着水させてみせるという演示実験のほうなど…違いますってばぁ。我々「満面の大きな顔!」で模型の飛行機を握りしめながら、何かを掌握したかのような満足感とともに…すーすー…。よしよし、そのままそのまま…。(※あくまでイメージです。)
・なんとキャンドゥ「オン・オフ スイッチがついて新登場♪」付近
https://ec.cando-web.co.jp/item_img/4521006222648/4521006222648_1.jpg
そして、本日はさいごに大辞林を参照してオレンジいただきます。
・うー…オレンジっ!「主成分分析」なんと大辞林の説明です
https://www.weblio.jp/content/%E4%B8%BB%E6%88%90%E5%88%86%E5%88%86%E6%9E%90
> 多変量解析の手法の一。外的な基準のない標本データからそのデータの特性を説明する主成分を抽出すること。
…はひ!?
> 多変量解析の手法の一。外的な基準のない標本データからそのデータの特性を説明する主成分を抽出すること。
最初から大辞林を引けばよかったみたいなことって、ときどきありますよねー。ダー…いえ、大辞林のくせにー、オレンジだぞー。(棒読み)
・ビデオリサーチ「主成分分析」
http://www.videor.co.jp/about-vr/terms/shuseibun.htm
> 複数の質問項目を、少数の総合指標に合成する手法。
ビデオリサーチの説明と比べても、文字数はほとんど違わないのに、大辞林の説明の確かさと漏れのなさには驚嘆されましょう。(※実は2倍ですけど。…2倍なんですけど。ま、URLに「shuseibun」などとですね…えーっ。しかも「.htm」だし。「.htm」だし!! 8.3じゃないのに「.htm」だしっ。じゃあ「.jpeg」とかいいますかといって、それは…うーん。)
・ヒューリンクス「主成分分析」
https://www.hulinks.co.jp/support/sigmaplot/v13/usersguide/p220000.html
> お持ちのデータの変動原因を説明するとき。
> お持ちのデータの複雑さをより少ない次元に減らして近似するとき。
おっと、ちょ〜っと毛色の違う説明が出てきましたですぜ★お客さーん。
> 主成分分析 (Principle Components Analysis) は、予測モデリングやクラスター分析を含む統計プロシージャーの多くで利用することができます。これに対して、因子分析 (Factor Analysis) は、数学的にはPCAと多くの類似点を持つ統計的手法ですが、その目的は若干異なります。因子分析の目標は、オリジナルの変数間に存在する相関関係の説明に役立つ潜在的変数 (または共通因子) を見つけ出すことです。主成分分析の最終目標は、データに内在する変動原因を説明し、全体の変動を殆ど損なうことなくより少ない変数を使ってそのデータをあらわすことです。
(専攻が&ひいては学位が)心理学でも経済学でもないわたしたちは、「因子分析」にはそもそも取り組む資格がない(うっかり取り組むと無資格××となる)という自覚のもと、ヒューリンクスの説明でいう「主成分分析」だけをニュートラルに使っていこうではありませんか。うん。(※表現は演出ですが、単なるデータ処理を超えての「考察」は、運転や診察と同じくらい資格が形式的に問われるべき作業なのですよ。特に、じぶんはできないのでひとに任せたいという時にこそ、任せられるかどうかの判断を資格ベースで行なわないといけないということです。じぶんはできないのに、こやつできるかできないかを云々…メッソウではあるんですけど、あいまいにしちゃいけないんですよ。任されるほうとしても、じぶんできますと自称するだけではいけないんですよ&資格の確認は上長の責任ですぞ。「EQF」については[3387]を参照。)
・さらに大辞林「回帰式」をご覧に入れましょう!!
https://kotobank.jp/word/%E5%9B%9E%E5%B8%B0%E5%BC%8F-224364
> データの点の分布をよく近似する直線y=a+bxを、yのxへの回帰式、または回帰直線とよぶ。近似は、最小自乗法により判定する。直線ではない、事前に指定した関数の回帰式を求める場合もある。
すごいよだーじりんすごいよ(字足らず)。直線じゃないときにカーネル関数とか窓関数とかでもいいって(そこまで書いてないけど)いってるんですよ(=わかって書かれている感じがひしひしと伝わるんですよ)。広辞苑はどうだかわからないけれど&少なくとも大辞泉で「回帰」を引いてもわからないけれど、大辞林で引けば隣に「回帰式」の説明があるんですよ。これはすごいことだとぼかぁ思うんだなぁ。(棒読み)
・教えて!goo「重回帰分析というものおよび多重共線性の問題について」(2017年2月26日)
https://oshiete.goo.ne.jp/qa/9651121.html
やりとりが異様に微に入り細に入りする割に、「外的変数」など基本的な理解の確認がまったくなされていないんですけど。…なんと、「外的変数」など基本的な理解の確認がまったくなされていないんですけど!(※2回いいました。)
> 寄与が高い変数を調べるだけだったら、単に相関係数を調べればいいのかなとも思うのですが。
> 共線性を嫌うということは式の上でも、また雰囲気としてもよく分かることだと思います。
> 共線性がある変数で重回帰分析を行った場合、どのような問題が生じるのでしょうか。
> 多重共線性のチェックを行ってその指標を提示した上で、重回帰分析にかけるという処理をしたら、信頼性の指数付きの結果だと言えると思います。そのような処理は定形処理のはずですからRなどでも全部含めて処理してくれるのではないかと思いますが、そういう風になっていないでしょうか。つまりデータだけ放り込めば共線性の問題まで含めて結果が出てくるというような。
> 自前でやることはないと思っているのですが。
実はスバラシイですぞ。伝聞調が混ざるのでそういう環境におられる(もっと詳しい人も身近にいる)という早合点とともに、これはもう、インターネットで質問していないでですね(中略)メッソウではございました。
どんどん逸れていくようですが、最初にお書きになった「重回帰分析というものおよび多重共線性の問題について」ということについて、Rを使うだけでいいんで何を理解して何を使えばいいのかを知りたいという質問だと、結局、そこが見定められないと安心して使えないんだと、たぶんそういうことです&そこだけなんですよ、本当に知りたいのは。(※推定です。)
> (回答3)
> 重回帰分析でこれをやると、主成分回帰という手法になってしまいます。
…なっていいんですよ! 外的変数について確かめながら、主成分回帰(PCR)かPLS回帰(PLSR)かという、そこなんですよ。それ以上の説明は必要ではなかったのかもですよ。(※あくまで私見です。)
その上で、▼「信頼性の指数付きの結果」ではないよね、▼「定形処理のはず」ではあるのだけれども、どうして普及していないんでしょうかね、ということでございましょう。
・「Available components」(2014年1月8日)
https://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q14119119609
> kmeans(x, 10, iter.max = 10)
iter.maxにそこまで小さな数をわざわざ指定して何がしたいとですか。何も指定しなければデフォルトでうまくいくようにデフォルトを設定しておくのが作者の『腕!』や『勘!』であるので、最初は作者を無条件で信用してすべてデフォルトで使ってみせる。たぶんこれだね。(…たぶんですかっ。)
※明示的な説明が見つけられないのですが、デフォルトは「無制限」ってことですよね&そうじゃないと意味がないですよね。先に「無制限」で実行して返ってきた「iter」を見て、iter.maxを小さな数からiterまで変えながら(中略)クラスター中心がうごめくようすがアニメーションになっちゃいましたっ&だまされたとおもっていちど(違)。「iter.max」を使うのは、そういうときだけですよ。うん。スーパーえむジンせんせいも指定していない「iter.max」をわざわざ指定させちゃうのって、どこの教科書なのかしら。(棒読み)
> library(rgl)
それを使うところまで行かないじゃないですかっ。呼ぶのは使う直前でいいよ。うん。
> Available components:
> はどういう意味でしょうか?
そんな、Rのkmeans関数の作者が好き勝手に書いたみたいな英文らしきもののレヴェルでつまづくとですかっ。なまじ最初から主成分分析でいうcomponentも頭の片隅にあるから混乱するだけですよっ。(チュートリアルでは)「データフレーム名以外は無名にしてしまへー」については[3526],[3575]を参照。作者が好き勝手に書いたみたいな表示は訳しちゃいけません! どういう表示なのかという意味だけを、Rひいてはどのプログラミング言語でも共通する「共通語」みたいなのだけを使って説明しましょう。んだんだ。(※見解です。)
※「返り値の一覧」ですね、わかります。そもそも返り値のデータフレームをきちんと「mykm305」みたいな(じぶんで命名した)データフレームに入れて、「mykm305$totss」などと呼んでみせれば一目瞭然。これだね。返り値を受けとるデータフレームを「a」とか「aaaa」などと命名していたらダメなんですよ(≒あなたしかわからないんですよ&あなたもいずれわからなくなるんですよ)。(※見解です。)…やーい返り値。戻り値といったほうがいいかなみたいなのーっ。返り値(返す値)は「return value」、戻り値(戻った値)は「returned value」だという使い分けが暗にあるみたいなんですけどね。かえすがえす本当でしょうか&そこまでもどっちゃいますかっ。
●「R」ではなく「Scilab」の入門書を紹介すべき場合
こう、なんでも「R」でできるんでしょ…いや、まあ、その…うーん。パッケージやライブラリの「ラインナップ!」みたいなのとしては(特に可視化や動きのあるものは)、「R」では手薄で「Scilab」では手厚いというものもあることでしょう。
※(ありきたりのパッケージにお決まりのデータを入力として渡しさえすればいいのでなく)プログラムをたくさん書く必要のある分野ではRではなくScilabか、もっと低レベル(な言語)でじぶんで書くということです。
・橋本洋志「Scilabで学ぶ統計・スペクトル解析と同定」オーム社(2008年11月1日)
http://www.ohmsha.co.jp/data/link/978-4-274-20619-1/index.htm
https://www.amazon.co.jp/dp/427420619X
本書の索引に「SVD法」があり、226ページ(※239ページ中の226ページ目)を見るとなるほど主成分分析と同じ意味の「SVD法」が「インパルス応答波形を用いた同定法」という文脈で出てきます。本書はScilabの導入から始まってステップバイステップで数値シミュレーション、それに「システム同定」で使う道具としてのScilabの全貌を理解させようという構成であり、(読者が)じぶんの研究課題に取り組む直前までを手助けするもの(本)ですが、その本書で226ページ目まで進まないと出てこないのが「SVD法」ではある(⇔本書に出てこないということはなく、きちんと出てくる)と、こういうわけです。
> 図1.3 本書の学びのチャート
「基礎数学」「信号」「モデル」を土台として「フーリエ変換」から「スペクトル解析」へ、また「システム同定」へという流れが示されています。これに必要な範囲で「統計解析」を学ぶというスタンスになってございますから、統計のほうに主眼を置く分野とはセカイの見えかたがまるで異なることが想像できましょう。
118ページからは「2種のデータ列の解析」として「相関と相関係数」「無相関の検定」「回帰分析」と進み、129ページでは「主成分分析」として「Scilabが提供している関数pca()」それに「Scilabが提供している関数pcd()」の使いかたが説明されます。
197ページからは「ARモデルの評価」として「FPE(Final Prediction Error,最終予測誤差規範)」「AIC(Akaike Information Criterion,赤池の情報基準量)」が説明されます。そして「システム同定」は、八百屋でスイカを叩いて甘さを確かめる例えが…スイカですかっ。(棒読み)
※かぎ括弧内は本書での表記ママ。
・成田清正「例題で学べる確率モデル」共立出版(2010年3月)
http://www.kyoritsu-pub.co.jp/bookdetail/9784320019126
https://www.amazon.co.jp/dp/4320019121
> 本書では,確率モデルの実例を現実社会から,定義・定理に対する例題として数多く取り上げ,必要な考え方・手法が実践的に学べるような内容構成を行った。確率モデルの実際として,意思決定,待ち行列,リスクマネジメント,ファイナンスを例として,確率の基礎から,マルコフ連鎖,マルコフ過程,ブラウン運動,マルチンゲール,確率微分方程式,フラクタルマーケットに到るまでをコンパクトに記述した。
いわば「確率モデルのカタログ!」としてパラパラめくりながら「これいいな!」…どのような確率モデルがあって、現実のデータや現象のどこで出てくるものなのかということを俯瞰し、必要とあらば詳細に学ぼうというニーズのある者にもおすすめできようかと思われましょう。
> (カスタマーレビューより)
> 確率を「使う」ための新しい基礎テキスト
> 確率論を使える形にまで鍛錬したいとする既習者にはすぐれたテキストとなるであろう。
そこまで到達しない者においてさえ事典のように役立つというのも貴重なことです。
■表30.0 言語としての「R」(※独自に作成)言語 | データ 整形 | データ 抽出 | 行列計算 | 信号・ スペクトル | | | | | | (Excelなど) | ◎ | △ | − | − | AWK | ○ | ○ | − | − | SQL | △ | ◎ | − | − | R | △ | △ | ○ | △ |
---|
Scilab (MATLAB®) | − | − | ○ | ◎ |
※記号はイメージです。
・Google ストリートビュー 「Akaike Guest House」最寄りの「ポプラ」はここですか??(※北海道ではありません)
https://goo.gl/maps/c8F1FkGUgDD2
https://goo.gl/maps/XxgFny2gdd42
※あるようでなく、ないようである「ポプラ」については[3558]、「ポプラ文庫」については[3214]、それに「ユアエルム」については[3362]を参照。
・出ました!「ズッコケ中年三人組」は『児童書』かっ(2005年12月〜)
https://ja.wikipedia.org/wiki/%E3%82%BA%E3%83%83%E3%82%B3%E3%82%B1%E4%B8%AD%E5%B9%B4%E4%B8%89%E4%BA%BA%E7%B5%84
> 実家の八百屋を継ぐが駅前の再開発による商店街の廃止と経営難のため両親の反対を押し切ってコンビニエンスストア「ポプラ」に転換
> 「ポプラ」に転換
> 「ポプラ」に転換
> 『ズッコケ三人組』シリーズの続編としての性質上、書店によってはズッコケ三人組と同様に児童書コーナーに分類している場合もあり、その分類方針は書店によって異なる。
えーっ…。「「ポプラ」に転換」しちゃうとスイカを叩かせてはもらえないっぽいかなぁ。(違)
ここまで、たくさんの質問を一気に見てきました。
・「主成分分析」に関する質問の例
・「主成分回帰(PCR)」を回答とすべき質問の例
・「判別分析」を例示すべき質問(「共分散構造分析」を回答とすべき質問)の例
・「階層的クラスタリング」を回答とすべき質問の例
・Rの「prcomp関数」と「princomp関数」の違いに言及すべき質問の例
・「いわゆるマルチコ」の指摘を回答とすべきでない質問の例
・「いわゆるマルチコ」を指摘して「非階層的クラスタリング」を回答とすべき質問の例
こちらを表にしたのが下表でございます!
■「主成分分析」FAQ(ドラフト版) | カテゴリー | 内容 | | | | 0.0 | 「主成分分析」に関する質問 | ・分光計測定データのデータベース化に(便宜的に)使われる(らしい) ・「因子分析」でいう「回転」は『後処理』(プロットの都合)であり 「主成分分析」でいう「無相関な軸」への射影とは別物である ・「第2主成分」(無相関な軸)の数理的な意味が知りたい ・可視化は「バイプロット」しかないのか | 0.1 | 「いわゆるマルチコ」の指摘を 回答とすべきでない質問 | ・「主成分分析」は検定の手法ではない ・「主成分分析」はノンパラメトリック的な操作ではあるが 「主成分」で考察(検定)ができるかは元の変量の分布による ・(「重回帰分析」すべき課題で)「重回帰分析」がうまくいかないのを 「ぜんぶ多重共線性のせい」にして「主成分分析」を使いさえすれば よいと考えてはならない | 0.2 | Rの「prcomp関数」と「princomp関数」の違い に言及すべき質問 | ・「対角化」と「SVD」で結果が変わりうる ・大規模行列には「SVD」を使わざるを得ない ・「SVD」を使って勉強するとよいのではないか (例題と同じ結果を得たいときはどちらなのか確認すること) | 0.3 | 「いわゆるマルチコ」を指摘して 「非階層的クラスタリング」を回答とすべき質問 | ・「主成分分析」の目的には「多重共線性の解消」もある ・すべての主成分の「主成分得点」を使って k-means法によるクラスタリングをしてもよいか | | | | 1.0 | 「階層的クラスタリング」を回答とすべき質問 | ・「主成分分析」は分類の手法ではない ・(説明)変数が非常にたくさんあるときは (多重共線性の有無にかかわらず=たいていはあるが) (次元を減らす)『前処理』として「主成分分析」が使える ・「主成分得点」の距離行列で 階層的クラスタリングによるデンドログラムを描いてよいか | 1.1 | 「判別分析」を例示すべき質問 | ・「対応分析(コレスポンデンス分析)」の数理的な主要部分は 「主成分分析」によって置き換えうる ・入力(説明変数)が「質的変数」だからといって 「数量化III類」にこだわらなくてよい ・名義尺度を除く質的変数は量的に扱って「主成分分析」に入力してよい (名義尺度は回帰木の目的変数や分割表に使えばよい) (・そもそも「共分散構造分析」を行えばよい) | 2.0 | 「主成分回帰(PCR)」を回答とすべき質問 | ・外的変数の有無を本質的に見極める必要がある ・「主成分回帰(PCR)」がある ・「PLS回帰(PLSR)」との使い分けは外的変数の有無による ・そもそも外的変数を用意して回帰分析しなければ研究成果にならない (「主成分分析」だけで『検定』する考察のしかたはない) | 2.1 | 「共分散構造分析」を回答とすべき質問 | ・「主成分分析」は回帰(予測)の手法ではない (「主成分」を使って予測をしてはならない) ・出力(目的変数)が2値でよいなら判別分析やSVMを使えばよい (複雑な事象の判別や予測を2値で行なってはならない) ・変量間の関係の構造化には 「回帰木」や「ロジスティック回帰分析」が使えるが (変量間の関係そのものに対する考察が必要であれば) そもそも「共分散構造分析」を行えばよい |
※数字はイメージです。質問の出典は「教えて!goo」「Yahoo!知恵袋」「OKWAVE」です。これらのサイト上での回答だけによらず整理・補足しています。
※『統計学用語!』になじみがなく「プログラミング言語用語!(言語の仕様やフローチャートで使う用語や概念等)」になじみのあるかたの理解を助けるため、「入力」「出力」「前処理」「後処理」という表現を『便宜的に援用!』しています。…いや〜、それを「便宜的」とも「援用」ともいうんですよぉ。
※ここでなお疑問形で終わっている内容について、答えを確かめるのはレファレンスの域を超える(じぶんで確かめてください)ということです。あしからず。
・「数字はイメージです」とはいいながら「数字」のイメージです
https://ja.wikipedia.org/wiki/%E3%83%9E%E3%82%B0%E3%83%8B%E3%83%81%E3%83%A5%E3%83%BC%E3%83%89
> −2.0
> 60J:30W蛍光灯の2秒間点灯時の消費電力
いや〜、0.0って、30W蛍光灯の2100秒間点灯時の消費電力…えっと、35分ですよね、わかります。「主成分分析」は35分で勉強できるっ!(違)におかれましては蛍雪いかがお過ごし(大巾に中略)あなたの机に20W、20W形蛍光灯のインバーター点灯での消費電力は21Wだそうですよ。なんと、20W形蛍光灯のインバーター点灯での消費電力は21Wだそうですよっ。450mWみたいなのが「1W」ということになっちゃってたりしちゃってません? あらあら、まあまあ!(棒読み)
> 2.1
> 2013年4月のテキサス州肥料工場爆発事故で放出されたエネルギー
> 0.2の差はエネルギーでは約2倍の差となる
> **が1増えると××のエネルギーは約31.6倍になり、**が2増えると××のエネルギーは1000倍になる。
おっと、『1000倍!』とはいっても、10円玉と1万円札ですぜ★お客さーん…その発想はなかった!(わたしたちは既に、1000倍くらいの対数的な差があるものをきちんと使い分けることができているのですよ、の意。単価100円の買い物しかできないひとは10円玉10枚で100円の品物が買えることを理解していないかもしれないのよ!! …えーっ。)
※10円玉を20枚くらい(あるいはもっとたくさん)、1円玉だと200枚くらい(あるいはもっとたくさん)集めないと、100円の品物は買えないという感覚を持っていて、つまり10円玉1枚、1円玉1枚の価値を実際の半分くらいに感じているということがあるのかもですよ、の意。計算ができないということじゃないんです。あしからず。
> エンリコ・フェルミが、**実験の際に小さな紙切れをいくつか空中にまき、それらが××の**波によって動かされた距離から*出力を(かなり)粗く概算したことはよく知られている。
・【生産終了品】「21W」日立アプライアンスです
http://www.lighting.hitachi-ap.co.jp/lighting/item_detail.html?item_no=26403
このような質問がなぜ出てくるのかといえば、授業や教科書で説明が省略されている部分だからですね、わかります。▼いま目の前で起こったありのままの「主成分分析(※ワイルドなデータを使用しています=むしろじゃじゃ馬です)」と、▼授業や教科書で出てきた「きれいな主成分分析はこちらですか??(わざと泉に落としてみせるとGOOD!!)」みたいなのとが、まるで同じものとは思えないというくらいの戸惑いがなかったでしょうか。…ギクッ。(※あくまでイメージです。)
・「じゃじゃ馬」とはにわ
https://kotobank.jp/word/%E3%81%98%E3%82%83%E3%81%98%E3%82%83%E9%A6%AC-525169
・元祖「きれいな○○ですか??」に関する説明です
http://dic.nicovideo.jp/a/%E3%81%8D%E3%82%8C%E3%81%84%E3%81%AA%E3%82%B8%E3%83%A3%E3%82%A4%E3%82%A2%E3%83%B3
当然ながら、「教えて!goo」外2社のサイトにおいて『顕在化』していない質問は含まれませんのであしからず。逆にいえば、▼ここにない質問は教室や職場で解決される(※質問されたからといって第三者が安易に答えを教えてはならない)ということ、▼ここにある質問は教室や職場では解決されなかった(※教員や講師からも質問されうる)ということですね、わかります。
※日科技連に問い合わせさえすれば適切な『分析ソフト!』が紹介されてくるという業界や(≒業界団体がタイムリーに知識の普及に努めているような業界や)、SASやSPSSなどをヘルプに従って使っていさえすればよいという専門分野ではない、一種の『更地』からRだけを使ってデータ解析環境という「家」を建てようとしている新しめの会社や小さな会社にとって切実であろうと想像されましょう。
図書館のレファレンスサービスとしては、▼大学図書館ではこれらの質問に答えられることが求められてくるのではないか、▼公共図書館ではこれらの質問をあらかじめ踏まえて適切な入門書もしくは事典を紹介していくことが大切ではないかと、たぶんこういうわけです。(※見解です。)
・[3386]
> そもそも学校のセンセイ(子どもから見て、「知る機会」が歩いてくるようなもの!)が最新の動向や将来の見通しなどに決して明るくない(センセイにしても「知る機会」がほとんどない?)というのは、何らかの方法で補われていくことが期待されていましょう。
同じことは大学でも起き、大学の教員が困ったときは大学図書館のレファレンスサービスがあるのだと、こういうわけです。間違っても大学の教員が「教えて!goo」などに質問を投稿してはいけませんし、同僚や知り合いに聞ける範囲だけで解決しようとしてはいけません(⇔聞ける相手がいなかったといって開き直ってはいけません。大学図書館には行ったのですかと問われます)。
※大学図書館でも同じことが…なんということでしょう! 他館へのコメントや事例の登録に熱心と見受けられる近畿大学中央図書館にも得意不得意があるでしょうから、近畿大学中央図書館に聞けばわかる範囲だけで解決しようとしてはいけません!!(棒読み)
・[3452] 「ハイパー・ゼロ」第2回あらすじ
> 『ぜっ、ぜろをこえてゆけっ!! …お、おぅ。』的な気分を指して「ハイパー・ゼロ」と副題するのだという気持ち的におおらかです!
・[3521] 「ハイパー・ゼロ」第3回あらすじ
> わからないから質問したいのに、わかってから質問しろって、これなんて××ゲー? …いえいえいえ、そういうあなたには、辞書・事典などの「参考図書」をポヤンと眺めるところから勉強を始めることをおすすめいたしましょう。BSは、ぜんぶやる…じゃなくて、事典には「ぜんぶ書いてある!」んです。…なんと、事典には「ぜんぶ書いてある!」んですよ。…ま、それを事典というんですけどね。(※表現は演出です。)いきなりピンポイントで「ぎひょー!!」を参照しちゃうなんて、おぬし、まだまだじゃのう。
・ぎひょー!!
http://gihyo.jp/result?type=book&query=%E4%B8%BB%E6%88%90%E5%88%86%E5%88%86%E6%9E%90
※なんと、Excelのマクロで主成分分析をさせる本が2016年4月19日に出ていたりします。2013年4月12日の本ではRで主成分分析してみようというだけなのに「Rコマンダー」を使わせちゃうんですよぉ。…なんだかなぁ。2015年5月1日「統計学の図鑑」では、主成分分析が出てくるのが後ろすぎていかんのではないかと&目次を見る限りでは「6章」の中身があまり体系化されていないような…ゲフンゲフン。しかし、「数量化X類!」を『人物伝!』に追いやるとはさすがですぞ。(※目次だけ見ての感想です!)
多変量解析を勉強していくうえでの「かんどころ!」といえる「主成分分析」は、かえって「ぎひょー!!」で手厚く説明されるという「旬」のようなものを過ぎている(あるいは迎えていない)とみられます。お客さまからディープラーニングと呼ばれる深層学習を注文されたら(注文がとんちんかんであろうとも)全力で応えなければならない(いわば“よそいき”の)技術者のニーズと、地道に(自社の課題をじぶんで)多変量解析していかなければならない(いわば“ふだんぎ”の)技術者のニーズは異なるという理解が大切です。
補遺編([3587])ございます。
|