フォーラム - neorail.jp R16

【自由研究】の話題

 → 茨城県内で必要な「主論文・野帳・掲示物」とは? 【詳細】(2017/10/19) NEW!
 → 【自由研究】の記事一覧(新着順)


【研究ホワイトボックス】

研究を楽しく「追体験」! 真っ白のキャンバスに虹色の未来を描く方法、教えます。
R with Excel prcomp | kmeans・hclust | rpart | ggvoronoi | spantree | lm NEW!


いま問うA9のココロ
信号機のG現示の色がこんなにメロンソーダなわけがない
ATC・ATSの「Aの字」も出さずに効果音と動作を実装するには
「場内信号機 作り方」「信号機に名前をつける機能」とは


発行:2017/12/19
更新:2019/3/30

[3587]

【研究ホワイトボックス】

研究ホワイトボックス(31) ハイパー・ゼロ:「主成分分析」FAQ(補遺編)〜ふれねる「スクリープロット」の崖<がい>


いま問う「因子分析」のココロ(試)
朝倉書店「多変量解析実例ハンドブック」かく語りき(49)
「スクリープロット」とはにわが知りたい(再)
みんなだいすき「回転」とはにわが知りたい(談)
「内的整合性」とはにわが知りたい(仮)
あなたのいう「主成分分析」わたしのと違う(※意訳)
SPSSの「因子分析」における「方法(因子抽出法)」

(約32000字)

 [3584]の補足です。


★いま問う「因子分析」のココロ(試)


・(後述)
 > ・「因子分析」はただちに心理学の分析手法であるので、心理学を修めずには着手してはならない(心理学を修めた者と共著しなければいけない)
 > ・数理的な側面のみから「因子分析」と「主成分分析」を代替可能とみなすことは適切とはいえない
 > ・「主成分分析」は単なる数理的な操作であることが明確であるので、分野を問わず活用可能であるが、「因子分析」を行なわずに心理学的な実験結果や社会学的な調査結果などについて(「主成分分析」だけで)考察してはならない

 > こういうことであるという認識にございます。

 > 「実際的センス」については[2938]、「最初の一から状況的」については[3358]を参照。「共分散構造分析」ですから科学的です!! …えーっ。

 (ここまで、当初は[3584]に書こうとしていたのですが)この内容が[3584]に混ざるとややこしいと思って、分けてまとめようと、こういうわけです。

・ダッタカ遺跡ーっ!! 「主成分分析」が薄皮1枚になっちゃいました&だまされたとおもっていちど(以下略)この給水所は有料です!
 http://psy.isc.chubu.ac.jp/~oshiolab/teaching_folder/datakaiseki_folder/add_folder/daad_02.html
 http://psy.isc.chubu.ac.jp/~oshiolab/teaching_folder/datakaiseki_folder/add_folder/daad_01.html

※だってだってぇ、ここに「datakaiseki」って、書いてあるじゃないですかぁ。(恐縮です。)

 > 補足説明(1)の分析例をAmosで分析した結果をパス図として表すと,以下のようになる(推定したのは第1主成分のみ)。
 > 補足説明(1)で考察したように,第1主成分は6つの特性すべてから大きな影響を受けているので「総合能力」を表していると考えられる。

 こんな説明をしちゃだめでしょ! …だめでしょっ!!(※見解です。)

※逆に、この分野で「主成分分析」と呼ばれるデータ行列の特異値分解(SVD)がほとんど使われないようすがとってもよく伝わってくるとは思いました。(※「は」に傍点。)それなら「ほとんど使われないので説明を省く。」といって『積極的に逃げる!』べきだとぼかぁ思うんだなぁ。(※演出ですが見解です。)

 > 因子分析では共通因子が測定された変数に影響を及ぼすことを仮定するので,上記の主成分分析のパス図とは矢印の向きが逆(因子から観測された変数に向かう)になる。

 ええーっ!! 「主成分分析」で「主成分」と「測定された変数」の間に引く線は「向き」のわからない「相関」ですよね。6変数で第6主成分まであるとき、「主成分」どうしはすべてのペア(=15)において相関が0ということですよね(相関が0だということを明示する線を15本ほど描くんですよね&各主成分と6変数の間には計36本の線を引くんですよね)。…違うんでしょうか。

※(比ゆ的には)あやとりができるひとなら、このくらいの線(と頂点)の数がある構造くらい、なんてことなく扱えるはずだよね。本当でしょうか。「パス図」みたいなのを平面で描こうとするからいけないんですよ。「現に可視化できる範囲や方法だけで可視化しても(ほとんど)意味がない」については[3483]も参照。可視化するとあらばぜんぶ描ききる! 自明だからといって省略したり、数が少ないから(順位が低いから)といって省略したりしてはならないのですよ。(※…というひともいます!!)

・イチムラ「AYATORI<あやとり>」のイメージです
 http://www.ichimura-seisakusho.co.jp/topics/pickup/ayatori/
 http://www.ichimura-seisakusho.co.jp/wp/wp-content/uploads/1490182752-1600x1066.jpg

・「コンピュータが未発達な時代の簡便法」との見解です
 http://www2.itc.kansai-u.ac.jp/~tyasuda/files/2014/methoda/5_factor.pdf

 > ふつう最尤法(maximum likelihood method)か主因子法(principal factor method)を用いる。現在の計算環境では最尤法の方が優れていると考えられているが、コンピュータが未発達な時代の簡便法として主因子法がよく広まっており、現在も論文にはよく出てくる。実用上、両者に大きな違いが出ることはほとんどないので、いずれでもかまわない。

 > 因子分析では、数々の特殊な用語法が使われるが、最初に記しているように因子分析は各調査項目を従属変数とする回帰分析の集まりにすぎない。通常の回帰分析の枠組みで言えば、因子分析の特殊な言い回しは以下のようにとらえ直すことができる。

 (教える側の当座の説明として)手堅いと思いますけど、これでは(教わる側は)重回帰がわからなくて主成分分析もわからない(そして「主因子法」との使い分けもわからない)というところに留まりそうですよ。うん。(※見解です。)

※教える側として「因子分析」をどのように理解したのかがよくわかるとは思いました。(※「は」に傍点。)

 > データにはない想像上の潜在変数

 うーん…。

 > ほとんどの場合、共通因子に注目するので、共通因子のことだけを指して、「因子」と呼ぶことが多い。

 第1主成分だけ使おうというんですね。第1主成分がいかにもそれっぽい…第1主成分ですから当然です!(棒読み)

 > 因子には結果にふさわしい名称を分析者が付ける。その方がわかりやすいから

 …そのほうがかっこいいから!!(※意訳)そのかたじゃないよそのほうだよ。(違)…なんだかなぁ。

 > 分析に用いた方法の設定(主因子法、プロマックス回転)は、約束事として示しておかなければならないので、表1のように、下に注釈として記しておくとよい。

 かっこいいから!!(違)ちゃんと説明しないと、教わる側は「かっこいいから!(それらしく見えるから)」としか思いませんってば。あらあら、まあまあ!(※表現は演出です。)

・新しい最新式®「Rで因子分析」清水助教のスライドです(2014年12月2日)
 https://www.slideshare.net/simizu706/r-42283141

 > Rのpsychパッケージを用いた,因子分析の方法についてまとめています。
 > 特に,SPSSやSASなどの商用ソフトでは実行できない,多様な分析法がpsychを使えば可能になります。

 …ぷさいちゃんねる!!(違)

 > これまでの(アカン)因子分析の流れ

 ガッ

 > 主成分分析は,共通性を正しく推定できない
 > 変数を合成する方法であって,共通部分を推定する方法ではない
 > せめて反復主因子法を使う

 そもそも「共通性」の数字がどういう計算で出てくるのかが簡単にはわからないと思いました。

 > そこでmirtパッケージ

 > Full最尤法でカテゴリカル因子分析を推定
 >  ロジスティック多次元項目反応理論を利用
 > ポリコリック相関行列+重み付き最小二乗法に近い
 > むしろFull最尤法のほうが推定量としての性能はいい
 >  欠損値の推定もしてくれる

 おおー!(以下略)

・「polycorパッケージによる順序相関係数の算出」のふいんきです
 http://www.okadajp.org/RWiki/?polycor%E3%83%91%E3%83%83%E3%82%B1%E3%83%BC%E3%82%B8%E3%81%AB%E3%82%88%E3%82%8B%E9%A0%86%E5%BA%8F%E7%9B%B8%E9%96%A2%E4%BF%82%E6%95%B0%E3%81%AE%E7%AE%97%E5%87%BA

 > 連続変数と連続変数の相関係数がピアソンの相関係数である。
 > 順序変数と順序変数の相関係数がポリコリック相関係数である。
 > 順序変数と連続変数の相関係数がポリシリアル相関係数である。

 2×2になるとテトラですって!! まあまあ!(※表現は演出です。)

・R Documentation「psych」
 https://www.rdocumentation.org/packages/psych/versions/1.7.8

 > A general purpose toolbox for personality, psychometric theory and experimental psychology.

 心理学のひとって「道具箱」が好きですよねぇ。(深)

 > df2latex
 >  Convert a data frame, correlation matrix, or factor analysis output to a LaTeX table

 > multi.hist
 >  Multiple histograms with density and normal fits on one page

 …まさに「道具箱」だね。(棒読み)

 > vegetables
 >  Paired comparison of preferences for 9 vegetables

 > Turn Turnips 白い根菜
 > Cab Cabbage は
 > Beet Beets 紫の根菜
 > Asp Asparagus くき
 > Car Carrots カロテンを含む根菜
 > Spin Spinach 青菜
 > S.Beans String Beans さや
 > Peas Peas まめ
 > Corn Corn 麦・トウモロコシ類

 うー…レッツお野菜っ! 目をぐるぐるにしながらお野菜っ。トウモコロシはお野菜かっ!!

 > KMO
 >  Find the Kaiser, Meyer, Olkin Measure of Sampling Adequacy

 > alpha
 >  Find two estimates of reliability: Cronbach's alpha and Guttman's Lambda 6.

 > correct.cor
 >  Find dis-attenuated correlations given correlations and reliabilities

 > cor2dist
 >  Convert correlations to distances (necessary to do multidimensional scaling of correlation data)

 > corFiml
 >  Find a Full Information Maximum Likelihood (FIML) correlation or covariance matrix from a data matrix with missing data

 うーん。「道具箱」って、属人的なんですよねー。ほかのひとが触ろうとすると怒られちゃうんですよねー。(棒読み)

 > irt.fa
 >  Item Response Analysis by Exploratory Factor Analysis of tetrachoric/polychoric correlations

 あくまでSPSSの画面を思い浮かべながら回転法みたいなのをとっかえひっかえするくらいならIRT。たぶんこれだね。(※あくまで素人です!)

・典型的「歩くツールボックス!」のイメージです
 https://static3.depositphotos.com/1006617/213/v/950/depositphotos_2136589-stock-illustration-plumber-with-tools.jpg

 「道具箱」職人いなけりゃただの箱とはよくいったもんだよ。(字余り)


★朝倉書店「多変量解析実例ハンドブック」かく語りき(49)


・「多変量解析実例ハンドブック」目次とキーワードです(2002年6月)
 http://www.asakura.co.jp/books/isbn/978-4-254-12194-0/

 索引「因子」からの「因子の解釈:549」を参照してみると、それは青木センセイでした。

・49. 質問紙調査法における尺度構成 −インターネットによるデータ収集

※数字は章番号です。

 > 【概要】
 > 130項目よりなる健康調査票(THI)ののべ13,680人のデータ

 ↓

 > 因子分析による尺度の構成
 > クロンバックのα信頼性係数等による尺度の内的整合性の確認

 ↓

 > 結果として,18個の質問項目からなる『*A*状態』を表す尺度と,21個の質問項目からなる『*B*状態』を表す尺度が得られた.

 ↓

 > 尺度の有用性を検証

※フローチャートとして眺めることができるよう、順序を入れ替えて引用しています。

 あたりまえですけど、SPSSを使って効率的にデータ処理する部分と、じぶんの責任で所定の式を使って指標を算出してじぶんの責任で「内的整合性」や「有用性」を調べる部分と、その両方から成り立っているのです。そもそもSPSSって、そういう『便利ツール!』だったはずですよね。…その発想はなかった!

 > 予備調査として,調査目的に関連する500項目程度の質問項目を用意し,これを500人程度の対象者に実施した.

 ↓

 > 不適切な質問項目の除去
 > 回答の信頼性が低い回答者を除去

 ↓

 > 因子分析をおこない数個の因子を抽出する.
 > 49.3.2 最初の因子分析
 > THIの回答は「はい」,「どちらでもない」,「いいえ」等のような,3つの選択肢から選択される.本来はこのようなデータは順序尺度であり,間隔尺度以上の変数を対象とする因子分析の適用には問題がないわけではないが,簡便性のために因子分析により尺度を構成することにする.
 > 共通性の初期値をSMCにより推定し,反復推定することにより主因子解を求め,バリマックス回転により最終的な因子を求めた.

 ここまでに「共通性」も「SMC」も説明がないので、『初見!』のわたしこと残念なたわし、まったくちんぷんかんぷんなまま読み進めることになります。

 そして、「500項目程度」から「130項目」ができる過程については省略されていますが、「人が目で見て」しかし「分布を見て」すなわち「天井効果」「フロア効果」を見ながら取捨選択したり文章を改めたりしたと読める説明がございます。

 「表1」は、主成分分析の結果そのものですが、標準偏差でない固有値が表示されてございます。Rのprcomp関数では標準偏差で出てまいります。ここテストに出ます!(違)

 > 表1では,初期固有値が1以上のものは28個である.しかし,3番目以降の固有値はドングリの背比べであり,たとえば28番目に大きい固有値は1.006であるが,これは一人前の因子とは見なせないであろう.

 …えーっ。だからRでは最初から気を利かせて標準偏差を見せてくれるんですね、わかります。

 > このようなときに,単に数値だけで見当をつけるよりは図1のような「スクリープロット」を描くとよい.因子の大きさが急に変化するところがあれば,その前までの個数を因子数の推定値とするのである.

 > KMOとする(略)が解釈しやすい
 > もし,すべての変数間の偏相関係数aijの2乗和が相関係数rijの2乗和に比べて小さいときはKMOの値は1に近くなる.KMOの値が小さいということは,2変数間の相関関係を他の変数によって説明することができにくいということを意味するので,因子分析を適用することが不適切であることを示す.
 > Kaiserは表2のような判定基準を提案している(Kaiser,1974).

 > marvelous 素晴しい
 > meritorious 価値がある
 > middling まずまず
 > mediocre 並み
 > miserable 惨め
 > unacceptable ふさわしくない

 …えーっ。これ、ぜんぶmから始まるのってKaiserせんせーの皮肉とかなんですよね。3文字目がrのやつとdのやつとsのやつくらいの、実は3段階くらいしかないっていってるんですよね。(違)

 > 130質問項目全体の因子分析では,2つの因子が抽出され,2つの因子は元の分散の19.2%を説明していることになる.19.2%という説明率は

 累積寄与率のことをいっています。なんと、第2主成分までしか採らなかった&累積寄与率は19.2%しかないけれどこれでいくよとおっしゃる。…なんだかなぁ。

 > 19.2%という説明率は決して高いものではない.8割程度の分散は説明できないまま放置されていることに注意すべきである.説明率は目的や分野にもよるが7,80%以上あることが望ましいであろう.

 「表1」が省略されているので、累積寄与率が「7,80%」になるには第いくつ主成分まで採ればいいのかはわかりませんが、固有値で見ると、第1主成分は20.734、第2主成分は5.685、第128主成分は0.280、第129主成分は0.260、第130主成分は0.222となっており、第1から第130まで、対数的にフラットに(だらしなく)分布していそうな気配ではございます。そういう意味では、「スクリープロット」で見れば必ず第2主成分まででいいんだとしか結論されないようにも思えてこないでしょうか&本当でしょうか。

 > 表3において「共通性」と書かれた欄の数値は,

 やっと「共通性」の説明が出てきましたよ。えー、どれどれ?(略)

 > その変数が,抽出された因子で説明される割合を表している(0から1の範囲の値をとる).もしこの数値が小さい場合には,その質問はこれらの抽出された因子では説明できない割合が大きいということになるので,そのような変数は除外した方がよい.
 > 共通性が0.25以上の44質問項目を対象として2回目の因子分析をおこなった.(略)初期固有値が1以上のものは7個であるが,スクリープロットにより2因子が含まれていると推定される.(略)低すぎる共通性を持つ変数がなくなるまでこれを繰り返す方がいいかもしれない.5個の質問項目を除いて再度因子分析をおこなった結果を表4に示す.(略)累積寄与率は36.3%になっている((略)).

 えーっ…。44変数のとき第7主成分まで採れば累積寄与率はいくらになるんですかねぇ。

・「変分原理」
 https://kotobank.jp/word/%E5%A4%89%E5%88%86%E5%8E%9F%E7%90%86-131411

 > ブリタニカ国際大百科事典 小項目事典
 > (前略)力学ではハミルトンの原理,最小作用の原理,光学ではフェルマの原理などがある。物理法則は微分方程式で表わされることが多いが,変分式で表わすと,法則の物理的意味が簡明で,法則が座標系に依存しないことが保証され(後略)

 というような原理にきちんと従っている自然な多変量データでありさえすれば、「スクリープロット」はこのようにしかならないのであって、そういう(何を入力しても同じ見た目になる)「スクリープロット」を使って因子数を決めようとすれば、必ず「2」にしたくなるのではないんですかねぇ。本当でしょうか。

※逆にいえば、MDSによる『平面に布置!』が先にあっての「2つでいいんです」と強弁するための『マストアイテム!』みたいなのが「スクリープロット」だったのではないんですかねぇ。

・「共通性」
 https://support.minitab.com/ja-jp/minitab/18/help-and-how-to/modeling-statistics/multivariate/how-to/factor-analysis/methods-and-formulas/methods-and-formulas/

 > 主成分抽出法では、j番目の負荷量は、j番目の主成分のスケール化された係数です。因子は、最初のm個の成分と関係があります。無回転の解では、主成分分析の成分を解釈するように因子を解釈できます。ただし、回転させると、主成分に似た因子をもう解釈できなくなります。

 > 最尤法
 > このアルゴリズムは、最小値が見つかるまで、または指定された最大反復回数(デフォルトは25)に到達するまで反復します。

 いまとなってはメッソウなアルゴリズムだと思われることでしょう。SPSSでなぜデフォルトが「主成分分析」(「主成分法」)になっているのか、よく考えようではありませんか。…その発想はなかった!

 > Ψを対角要素が一意の分散Ψiであるp×p対角行列とします。その後、尤度関数f(L,Ψ)を最大化するLとΨの値を見つける必要があります。この手順は2段階あり、まずΨの値を見つけ、Lを見つけます。
 > Ψの最初の値を間接的に指摘できます。因子分析のオプションサブダイアログボックスに、共通性の初期推定値の共通性の最初の値を含む列を入力します。Minitabは、Ψを(1ー共通性)として対角要素を計算します。

※原文ママ。

 最尤法での尤度関数の最大化に必要なので「共通性」という考えが(いわば便宜的に)導入されるだけであって、これを積極的に「共通性ですね、わかります!!」みたいによろこんで(心理学上の)解釈や考察に使おうというのはアレではないかと思われないでしょうか。本当でしょうか。

 > ニュートン・ラフソン法を使用して、g(Ψ)を最小化します。これによりΨの推定値が求まり、尤度f(L,Ψ)に代入されます。その後、尤度を再びLで最大化します。さらに、g(Ψ)の新しい値などを計算します。デフォルトでは、反復は、収束しない限り、最大25ステップまで継続します。

 雰囲気だけはよくわかる説明だと思いました。(※感想です。)

[3543]
 > 装置やプログラムを自慢しながら我々「ここに置いてください」と書かれた投入口みたいなところに(中略)とっておきの試料やデータをもったいぶって(さらに略)わざわざ費用・労力・時間などを費やすのだから、これはもうすばらしい結果が出ないといけないんだ&むしろ出るんだと言い聞かせながら「OKぐーごー?」などと言葉による働きかけを(以下略)からの「途中であわてて止めてみせる」ところまでが「かける」です!

 ましてや「共通性」の数字も出てこない(※計算に不要なので算出されない)し回転もできない(※既にされている)「主成分分析」では、もったいぶった考察を述べることができないよ!! …えーっ。(※あくまでイメージです。)そのような「考察のしかた」と不可分で生き延びているのが「因子分析」(最尤法)ではないかと思われましょう。iPadはすごいけれども宇宙には行けないよね。(=宇宙船に積むコンピュータは旧型に限るよね!)…その発想はなかった!(棒読み)

※「SMC」:重相関係数の平方(Squared Multiple Correlation)との説明が見つかります。いま、「データ行列をどかんと特異値分解(SVD)する主成分分析」でいいんだといえば、もはや忘れていいんではないでしょうか。本当でしょうか。

・きわめて遠目に眺める「新たな特異値計算法」のイメージです
 http://www-is.amp.i.kyoto-u.ac.jp/lab/isvd/

 > 特異値分解は,情報検索,画像処理,最小2乗問題等に広く用いられています.
 > しかし,これらのコードは,速度・精度・信頼性のどれかに問題が指摘されています.

 (わたしたちとしては)『銀の弾丸!』みたいなことは言わない範囲でうまく使いましょう。うん。

 > 特異値が近接する行列
 > 近接特異値のなすクラスタの大きさ
 > 対称3重対角行列の悪条件のコレスキー分解

 何らかの悪化を引き起こすソレ(入力とする行列が持つ特性)はコレやで〜的に読めてまいります。(※あくまで素人です。)

 > 国際標準コードライブラリのLAPACKでは,2種類の実用的な特異値分解コードが公開されています.

 > DBDSQR
 > MATLABなどの汎用ソフトウェアにおいて広く使われています.しかし,特異値の相対精度が保証されず,直交性を除いて特異ベクトルの精度も十分でなく,何より全体では O(N3) の計算量を必要とする欠点があります.

 > DBDSDC
 > 特異値の相対精度が悪く,小さな特異値は精度良く求まりません.特異値が近接する行列では O(N2) の計算量で高速に特異値分解できるのに対して,特異値の散らばりの大きな行列では,QR法と同じく O(N3) のアルゴリズムとなってしまいます.

 Rのprcomp関数では「Venables, W. N. and B. D. Ripley (2002) Modern Applied Statistics with S, Springer-Verlag.」が挙げられています。…それ以上はわかりません&すみません。

・R Documentation「prcomp」 via Google翻訳
 https://translate.google.co.jp/translate?hl=ja&sl=en&u=https://www.rdocumentation.org/packages/stats/versions/3.4.3/topics/prcomp

※「R Documentation」みたいな文書はGoogle翻訳で(も)大丈夫だという一定の**を示すものです。

 > 計算は、共分散行列にeigenを使用するのではなく、(中心の、場合によってはスケールされた)データ行列の特異値分解によって行われます。これは、一般的に数値精度にとって好ましい方法です。これらのオブジェクトのprintメソッドは結果を素敵な形式で出力し、plotメソッドはスクリープロットを生成します。

 > 素敵な形式で出力
 > 素敵な形式で出力
 > prints the results in a nice format

 …ぬふっ(略)。見やすいってことですね。

 > sdev
 > 主成分の標準偏差(すなわち、共分散行列/相関行列の固有値の平方根ですが、計算は実際にはデータ行列の特異値で行われます)。

 なるほどRのprcomp関数、結果の「sdev」を二乗すれば「固有値」(実際の計算は特異値)ですね、わかります!! 「固有値で1前後」といっていた基準は、Rのprcomp関数、結果の「sdev」でいうと…やっぱり「1前後!」ですね、わかります!! …ええーっ。

※固有値が2だとか20だとかいって大きさを見るのでない限り、「1」という基準はそのままですよ、の意。平方根って、便利ですねぇ。…実に便利ですねぇ。(違)

■SPSSの「因子分析」における「方法(因子抽出法)」

主成分分析行列計算
重み付けのない最小二乗法相関行列の差の平方和を最小化
一般化最小二乗法相関行列の差の平方和を最小化(一意性の逆数で重み)
最尤法コンピュータによる反復法(一意性の逆数で重み)
主因子法手計算のための簡便法(重相関係数の2乗)
アルファ正準相関分析(アルファ信頼性を最大化)
イメージ因子法線形回帰


 さすがSPSSなんですよ。上ほどモダンで一般化された(抽象度の高い・不用意に仮定を置かない)方法で、下ほど古典的で手計算っぽい(ナイーブすぎる・仮定が多すぎる)方法になるよう、1次元的に並べられているとわかります。ここでデフォルトの「主成分分析」ではだめだというのは、あなたのデータや考察のしかたがモダンじゃないということなんですよ。(※仮の見解です。)実務では「最尤法」より下の方法を使ってはいけないと思われましょう。いちばん上から順に、それが採用できないということはじぶんの調査や研究に何らかの不備があるんだといって『1がびーん』、例えば「一般化最小二乗法」まで下がらないと採用できなかったとあらば、『2がびーん!』なんですよ。同様に、「最尤法」は『4がびーん!』、「主因子法」は『1アチャー!』、「アルファ」は『2アチャー!』、「イメージ因子法」は『4アチャー!』だと思えばいいんですよ。(※表現は演出です。1アチャーは8がびーんです。)

・「因子分析の因子抽出」IBMの説明です
 https://www.ibm.com/support/knowledgecenter/ja/SSLVMB_23.0.0/spss/base/idh_fact_ext.html

 > 主成分分析
 > 相関行列が特異である場合に使用することができます。

 これがわからないといって「見なかったこと!」にしてませんか? …ギクッ。

・「行列が特異かどうかを判別」MathWorksの説明です
 https://jp.mathworks.com/help/matlab/ref/det.html#bubi4bw-1

 > A が特異かどうかを調べるには、cond または rcond のいずれかの関数を使用します。

・ウィキペディア「非特異行列(non-singular matrix)」
 https://ja.wikipedia.org/wiki/%E6%AD%A3%E5%89%87%E8%A1%8C%E5%88%97

 > 正則行列(せいそくぎょうれつ、regular matrix)
 > 逆行列が存在する行列のことである。
 > AB=I=BA

・「正則行列」
 https://kotobank.jp/word/%E6%AD%A3%E5%89%87%E8%A1%8C%E5%88%97-86156

 > すなわち,行列式の値が0にならないものをいう。
 > 行列式の値が零ではない正方行列を指す。

 ひっくり返しても同じみたいだと対角の計算に意味がないということですよね。(※…曲解です!)

・ウィキペディア「固有値」⇒「ハウスホルダー変換」
 https://ja.wikipedia.org/wiki/%E5%9B%BA%E6%9C%89%E5%80%A4
 https://upload.wikimedia.org/wikipedia/commons/8/8c/Standing_wave.gif
 https://ja.wikipedia.org/wiki/%E3%83%8F%E3%82%A6%E3%82%B9%E3%83%9B%E3%83%AB%E3%83%80%E3%83%BC%E5%A4%89%E6%8F%9B

 > 現在では、固有値の概念は行列論とからめて導入されることが多いものの、歴史的には二次形式や微分方程式の研究から生じたものである。
 > 空間の線型変換(回転、鏡映、拡大・縮小、剪断、およびそれらの任意の合成)
 > 固有値問題は数値的対角化手法(→ヤコビ法、ハウスホルダー法など)によって解かれることとなる。

 > 直交変換の一種であり、行列のQR分解に用いられる。鏡映変換、基本直交変換ともいう。ハウスホルダーが1958年に発表した。

[3469]
 > やーい「ケーキ納豆」([3181])っ! じきにガトーショコラ風のシフォンケーキが空から落ちてくる算段になっているんだ([3450])。頼むよ、この通りだ。(違)

 > 最初から最後までベクトルで扱われたいかもですよ。新品がなければヤ×オクで…じゃなくて、パンがなければケーキ! 確率的な結果しか得られなくてもいいじゃない。…その発想はなかった!(※あくまでイメージです。)

 ベクトルを使っているのだという自覚なしに『文字面!』だけで「因子」「共通性」などと云々…それでよかったんですかねぇ。(棒読み)じゃあ(※)ベクトルだから幾何学的な説明をば(中略)「平面に布置!」からの「45度!!」…うーん。なぜベクトルを導入するのかといって、多次元空間に拡張するためですよね。


★「スクリープロット」とはにわが知りたい(再)


・(博士論文の要旨)「主成分分析におけるノンパラメトリック検定に関する研究」(2003年3月25日)
 http://ci.nii.ac.jp/naid/500000235336
 http://www2.lib.hokudai.ac.jp/gakui/2002/6076_ushizawa.pdf

 > Andersonをはじめ,多変量正規分布のもとでさまざまな推定・検定問題に関する結果が導かれた。さらに,多変量正規分布が仮定できない場合についてもFuikosMなどの漸近展開による方法やEfronの提唱したbootstrap法を応用する手順が開発されてきた。そして最近でも,Tsukadaらが固有ベクトルに関する新しい検定統計量を提案してその漸近的な性質を調べるなど,現在でもこのテーマに関する研究が続けられている。

 > これまでの研究の特徴は,一部の精密な理論を除いて,多変量正規分布を仮定する場合も,またそうでない場合も、ほとんどは解析的に漸近分布を導出するなどの研究が中心であり,前提条件が厳しかったり,あるいは,漸近的な分布式の中に,再び未知の母数が多く含まれるなど,実用的な視点から見た場合,多くの困難な問題も抱えているように思われる。

 > 柳井・前川は大学入試データの解析に応用している。これらは事例のほんの一部に過ぎず,実際のデータ解析の場面での応用事例は非常に多く,多変量解析の中でも,あるいは統計的手法全体の中でも最も応用される手法のーっと言える。このような現状を考えるとき,あまり厳しい前提条件がなくても適用できる簡便な方法の開発が実際的な場面では望まれるところである;

※一部OCRママ。手法のーっ! 手法のーっ!! ワレワレハー…のーっと言えるぅ!!(違;)

 ノンパラメトリック(スケールフリー)だというなら「スクリープロット」の縦軸は対数にしないとですよね。…その発想はなかった!(棒読み)この始まりも終わりもないセカイへようこそ…じゃなくて、母集団みたいなの(=パラメータ)がどこからどこまで広がっているのか知りようがないけれども、どこをとっても(大小関係は)同じだから(≒フラクタルだから)、どこをとるかということは問わなくていいの。きっとよ。(※なぜに映画の字幕ふうだし!)

 > 学位論文審査の要旨
 > これを要するに,著者は,非正規母集団の仮定の下で,従来の方法ではほとんど無カであった,主成分分析における固有値や固有ベク卜ルの検定問題に肘して,等分散性のノンパラメトリック検定法を応用するという観点から新しい方法論を開発し,その有効性を示したものであり,情報学,計算機統計学の発展に寄与するところ大なるものがある.

 「博士(工学)」をお取りになって2003年度からは教授のーっ…いえ、教授だという気配です。(※あくまで工学です。OCRのミスをそのまま載せちゃうのが工学だといいました! 「計算機統計学」への貢献はほとんどないとみなされるのではないかなぁ。)

[3543]
 > (どこのセンセイも同じ例えで教えると思われますが)「ドイツで人気ナンバーワンのビールはハイネケン!!」などとですね(略)「あまたある“地ビール”の総和」のほうがシェアが大きいとですよ@なんてこったい!(棒読み)ウソではないけれども、実態を「よく要約」しているとはいえない数えかたをしてはいけないんですよ。うん。セブンプレミアムのナンバーワンは「大つぶ・小つぶの あげ玉(50g)」だそうですよ。

 固有値で見ると(44変数からの主成分分析で)第7主成分まで採るべしと示唆されていながら「スクリープロット」を見て結局、2つだけでいいんだというのは、ドイツの地ビールの『バリアシオン!』をぜんぶ無視する(※ハイネケンと、地ビールというものが半分ずつあるんだね、といって、個々の地ビールには目を向けない)に等しいといえましょう。

・YouTube これは…ハイネケンですねー(棒読み)
 https://youtu.be/0sRamkJQprA?t=11s



 https://www.youtube.com/watch?v=Up4EELVst4g




・ロイター「世界の4大ビールメーカー、市場シェアの半分以上を占有」(2010年2月9日)
 https://jp.reuters.com/article/idJPJAPAN-13791720100209

 > 調査会社プラトー・ロジック

 > 世界のビール市場シェアは、1位がベルギーのアンハイザー・ブッシュ・インベブ(ABインベブ)(ABI.BR)、2位が英SABミラーSAB.L、3位がハイネケン、4位がデンマークのカールスバーグ(CARLb.CO)となり、5位の中国の青島ビール(0168.HK)(600600.SS)以下を大きく引き離した。
 > 9位がキリンホールディングス(2503.T)、10位がアサヒビール(2502.T)となった。

・日本経済新聞「ハイネケン、東南アに成長託す シェア3位に浮上」(2017年3月4日)
 https://www.nikkei.com/article/DGXLASDX03H14_T00C17A3FFE000/

・キリンビール大学「(表2)2013年国別ビール生産量」はイメージです! なんと表が画像だよおねーちゃんっ(2014年8月8日)
 http://www.kirin.co.jp/company/news/2014/0808_01.html
 http://www.kirin.co.jp/company/news/2014/images/0808_01_03.gif

 > 生産量(kl)
 > ドイツ 9,436,500
 > オランダ 2,400,000

・Jolliffe, I.T.「Principal Component Analysis and Factor Analysis」(1986年)
 https://link.springer.com/chapter/10.1007/978-1-4757-1904-8_7
 https://s3.amazonaws.com/academia.edu.documents/5409711/jolliffe_i._principal_component_analysis__2ed.__springer__2002__518s__mvsa_.pdf?AWSAccessKeyId=AKIAIWOWYYGZ2Y53UL3A&Expires=1513559708&Signature=C6XBFRX5s26Df7GeDggSiI9k0xQ%3D&response-content-disposition=inline%3B%20filename%3DPrincipal_component_analysis.pdf

 > (目次)
 > 4 Interpreting Principal Components: Examples
 >  4.1 Anatomical Measurements
 >  4.2 The Elderly at Home
 >  4.3 Spatial and Temporal Variation in Atmospheric Science
 >  4.4 Properties of Chemical Compounds
 >  4.5 StockMarket Prices

 > 5 Graphical Representation of Data Using Principal Components
 >  5.6 Displaying Intrinsically High-Dimensional Data

 > 6 Choosing a Subset of Principal Components or Variables
 >  6.1 How Many Principal Components?
 >   6.1.8 Discussion
 >  6.2 Choosing m, the Number of Components: Examples
 >   6.2.2 Gas Chromatography Data
 >  6.4 Examples Illustrating Variable Selection
 >   6.4.1 Alate adelges (Winged Aphids)

 > 8 Principal Components in Regression Analysis

 > 9 Principal Components Used with Other Multivariate Techniques

 (「主成分分析」のうち)「主成分」を抽出するところは数理的な技法なんです。わたしたちは技法を使いながら回帰分析し、それをまたクロスバリデーションしていかないといけないんですよ。

 > (115ページ)
 > It can be argued that a cut-off at lk = 1 retains too few variables.

 > 6.1.3 The Scree Graph and the Log-Eigenvalue Diagram
 > An alternative to the scree graph, which was developed in atmospheric science, is to plot log(lk), rather than lk, against k; this is known as the log-eigenvalue (or LEV) diagram (see Farmer (1971), Maryon (1979)).

 デスヨネ〜…。対数でプロットしないで「どやぁ」みたいなの低〜い!(※感想は小町です。)

 > In fact, Cattell (1966) views the rule as a means of deciding upon an upper bound to the true number of factors in a factor analysis after rotation (see Chapter 7). He did not seem to envisage its use in PCA, although it has certainly been widely adopted for that purpose.

 > it is difficult to write down a formal numerical rule and the procedure has until recently remained purely graphical. Tests that attempt to formalize the procedure, due to Bentler and Yuan (1996,1998), are discussed in Section 6.1.4.

 > A number of methods have been suggested in which the scree plot is compared with a corresponding plot representing given percentiles, often a 95 percentile, of the distributions of each variance (eigenvalue) when PCA is done on a ‘random’ matrix. Here ‘random’ usually refers to a correlation matrix obtained from a random sample of n observations on p uncorrelated normal random variables, where n, p are chosen to be the same as for the data set of interest.
 > Bootstrap versions of these rules are used by Jackson (1993) and are discussed further in Section 6.1.5.

 > Turning to the LEV diagram, (略)such eigenvalues will therefore appear as a straight line on the LEV diagram.

 デスヨネ〜!

 > Thus, to decide on how many PCs to retain, we should look for a point beyond which the LEV diagram becomes, approximately, a straight line. This is the same procedure as in Cattell’s interpretation of the scree graph, but the results are different, as we are now plotting log(lk) rather than lk. To justify Craddock and Flood’s procedure, Farmer (1971) generated simulated data with various known structures (or no structure).

 > For purely random data, with all variables uncorrelated, Farmer found that the whole of the LEV diagram is approximately a straight line. Furthermore, he showed that if structures of various dimensions are introduced, then the LEV diagram is useful in indicating the correct dimensionality, although real examples, of course, give much less clear-cut results than those of simulated data.

 なるほどねぇ。…実になるほどねぇ。(中略)安易に「村上」とか「青木」とか「柳井」とかいってないで、こういうのを自力で探さないとですよ。…たぶん。

※Google Scholar「pca factor analysis」で検索してなんばわん!! JR難波(じぇいあーるなんば)だほー…よく見ると、ん? 朝倉書店「多変量解析実例ハンドブック」の「73」で柳井センセイ、この「Jolliffe, I.T. (1986)」を参考文献として挙げておられます。事典のうしろのほうで平たく挙げられていても重みがわからないんですけど、Google Scholar「pca factor analysis」で検索してなんばわん!! 現代の読者にとっては、こういう具体的なクエリーでいってなんばわんだという説明のほうが文献の重みがよくわかるのではないでしょうか&本当でしょうか。

 そして、こういう方向で読み進めていくとわかるように、「Jolliffe, I.T. (1986)」のいう考察のしかたと実験計画のたてかたをぜんぶ含んでいるのが「共分散構造分析」あるいは「IRT」だといって豊田センセイ([3406])だよねと、たぶんこういうわけです。

・73. 文献を通して見る20世紀における多変量解析の発展

 > 73.2.2 主成分分析
 > 主成分分析は多変量データ解析における最も基本的な次元縮小の方法で,その記述に多変量の全般的解説書には必ずといってよいほど多くのページが割かれている.主成分分析に的を絞った著書(Jollife,1986;Jackson,1991)も出版されており,この意味でも主成分分析は今日においても多変量データ解析における主要な手法といえよう.

※「Jollife」は原文ママ。

 > (略)ところで,1990年代になって,工学の分野でICA(独立成分分析;independent component analysis)が提唱され注目を浴びている.この方法は,主成分分析が合成変数f=Xaの分散を最大にするように重みづけするものであるのに対し,ICAは合成変数の尖度を最大にするように重みづけをおこなうもので,広い意味で射影追跡(projection pursuit)の方法と見なすことも可能である(狩野・清水,2000).射影追跡は多次元空間における変数,または個体を,なるべく少数(できれば,1〜2次元)の空間に射影する方法の総称で,主成分分析をその特別な場合に含むものである.

 「73」の稿での柳井センセイの関心はそちらにあるので、スクリープロットが云々などという話はまったくすっかり飛ばされています。


★みんなだいすき「回転」とはにわが知りたい(談)


・こんがりプサイ@みならい(M1)「心理データ解析演習」(2006年6月27日)のふいんきです
 http://cogpsy.educ.kyoto-u.ac.jp/personal/Kusumi/datasem06/minemoto.pdf#page=32

 > 因子分析の手法の選び方
 >  計算結果が自分にわかる
 >  人からいいと聞いた
 >  人にやってもらった
 >  わからないから適当に行った
 >  自分の結果をうまく説明できる

 > 自分の解釈にとって最も都合のよい方法を採用すればよい

 すごーい!(棒読み)

・日科技連「よくある質問」より「主成分分析」の検索結果です
 https://www.juse.or.jp/src/faq/index.php?w=%E4%B8%BB%E6%88%90%E5%88%86%E5%88%86%E6%9E%90&t=

 > 分析で扱うべき変数が多数にわたり困っています。

 > (回答)
 > 主成分の値(主成分スコアと呼ばれます)を座標とすることによって、多次元空間内のデータを低次元の空間に、情報をあまり損なうことなく表示できます。
 > また、主成分ともとの変量の相関(因子負荷量と呼ばれます)をプロットすることによって、変量間の構造が把握できます。

・「負荷量プロット」のイメージです
 https://support.minitab.com/ja-jp/minitab/18/help-and-how-to/modeling-statistics/multivariate/how-to/factor-analysis/interpret-the-results/all-statistics-and-graphs/
 https://support.minitab.com/ja-jp/minitab/18/factor_analysis_job_applicants_loadings_plot.png

 > 負荷量プロットを使用して、どの変数が因子に最大の効果があるかを特定します。

 プロットを『視感!』で(人が目で見て主観的に[3581])特定するんだといっているようにも読めます。

 > 負荷量プロットは、最初の因子の変数ごとの回転因子負荷量対二番目の因子の回転因子負荷量をグラフ化します。

 MDSと同じ情報量といいますか説明力といいますか、あくまで第1主成分と第2主成分という平面で、変数のベクトルを描いてみせるプロットであります。…なんだかなぁ。

・青木センセイ「主成分分析」(2015年8月26日)
 http://aoki2.si.gunma-u.ac.jp/lecture/PCA/index.html
 http://aoki2.si.gunma-u.ac.jp/lecture/PCA/pca2.html

 > 得られた主成分分析の結果が,常に解釈可能( 既知の知見と整合性がある )とは限らない。このような原因としては,既知の知見が不十分なために分析結果が正当に評価できない場合もあるし,分析に使用した変数のセットが不適切な場合( 実態を把握するために必要な変数が抜け落ちているなど )もあるであろう。

 ごもっともごもっとも。どちらかといえば後者がほとんどではないんですかねぇ。

 > 得られた主成分の個数が多い場合には,例えば2組の主成分の組み合わせでケースのプロットをしても全容が把握しにくい。このような場合には,主成分得点を用いてクラスター分析を行ってみるのもよいであろう。

 うーん。

 > 主成分の解釈を容易にするために主成分軸の回転を行うことができる。

 > 軸を45度回転させると図2のようになりそれぞれの主成分において因子負荷量の大きい変数のみを考えればよいことになる。

 そんな千葉市の地図([3158])みたいなことを…えーっ。地図を見ながら「(神奈川は)東京の『下!』」とか「川崎から『右下!』に行くと木更津」とかいうひとみたいで、ちょっと恥ずかしいです。(※あくまで恥ずかしいだけです。)

[3270]
 > 千葉市では地図を反時計回りに45度ほど回転させる([3158])のと似たようなもので

 第2主成分まででじゅうぶんに説明されていることが前提ではあると思いました。

・日経リサーチ「プロマックス回転とギリシャ神話」
 https://www.nikkei-r.co.jp/glossary/id=1656

 > 因子間が直交(無相関)である、という仮定は現実的ではない場合が多い。数理的に無理やり直交させるのではなく、斜交しているか否かを確認する必要がある
 > (略)つまり直交回転で得られる知見は、斜交回転ですべて得られ、さらにより多くの知見が追加されるので、斜交回転をしない積極的理由はない。

 > バリマックスは「variance + max」(分散の最大化)という命名なので、「後方二回宙返り一回ひねり」のようなものであるが、プロマックス回転で使われているプロクラステス回転はギリシャ神話から来ている。

 カーナビは回転すべきか固定すべきか…それが問題だっ! おお、カーナビもかっ。(違)

・「頭の中で地図を回転でき」ない「昔の地図に慣れてるかた」ほかの用例です(2013年6月14日)
 https://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q13108766728

 > 会社にはNS固定派の人がいて、その人が社用車を使った後は必ずNS固定になっていて、すぐに設定変更してますヨ

 あくまでSPSS「因子分析」からの「方法」のドロップダウンメニュー(リスト)で「主成分分析」と「主因子法」が対等に並んでいるかのように見えるからといって、両者では発想がまるで違うのだということを理解しなければいけないと感じられてきそうです。「主成分分析」は回転が完了しきっているのですよ。うん。「主成分分析」で得られる(従来でいうところの)「因子」(※実際には主成分ですけど)は、「因子」としてはだいたい同じように考察できそうな気配がするけれども、従来のように「回転」を何種類も試してというのは荒唐無稽なんですよ。…たぶん。(※恐縮です。)

[3326]
 > > 最近では、素データがインターネット等で公開されていることも多く、そのようなデータを入手して活用することもできる(適当に検索して探してみると良いだろう)。

 > 「素」で『素データ』へのビスケットが足りないのではないかねキミぃ

[3559]
 > > 通帳には「お金がたまる、ははははは」と笑いながら札束をわしづかみにするパンダのイラストで、これまでの銀行通帳のイメージを打ち破った。

[3528]
 > オッ、きょうはまたずいぶんとはぶりがいいじゃないか。さてはりんじしゅーにゅーでもあったんだな?(※表現は演出です。居住まいを正して紙幣を数えるしぐさをして見せながら言うとGOOD!!)

 > 【研究倫理】データに対するマナー(作法)
 > (初詣のにぎわいが去った後の神社のほうなど思い浮かべながら)「札勘」というのは、ちょうどよい例えだなぁと思われてきます。

 > 統計の『向こう!』には1人1人の人間がいるのです。そこにビスケットなしで、スナック菓子をつまみながらべたべた触るような…とんでもない!(棒読み)…あ、いえ、正しくは「リスペクト」ですので、あしからず。

[3559]
 > そういう意味で「わしづかみ」も「ははははは」も、(銀行としては)表現としてアウトですよね。んだんだ。そういう表現の作品が市井にあってもなくても関知しませんけど、銀行として採用するのは限りなくアウトですよね。(※見解です。)小町的に「会社の現金はお金に見えない」([3377])も参照。

・いっけん謙虚な「正解がありません」の用例です
 https://www.ic.nanzan-u.ac.jp/~urakami/u-spss/SPSS7.html

 > 因子分析には正解がありません。
 > 因子分析には正解がありません。

 > 因子抽出方法では,主成分分析(デフォルト),重み付けのない最小2乗法,など7種類から選択できます。主成分分析,主因子法,一般化最小2乗法,最尤法くらいは,試してほしいと思います。

 > 「因子分析を行った結果,因子数は○個であった」というような表記は言葉が足らないのです

 > 目標は統計的にも,分析者の主観的にも納得できる因子を抽出することです。

 うーん。謙虚なのかそうでないのか、わからなくなってきます。みずからが使おうとする数理的手法および多変量データに対して、数理的な理解をともなわずに素手でべたべたと触りながら壊れたら捨てる(※データや実験計画まるごと反省なしに破棄してやり直す)みたいな横柄さが感じられてしまいます。カブトムシが動かなくなったって? 背中には電池ケースのフタがあってだなぁ…(違)。

・「cozの精神はあまり「科学的」ではないと私は言っている。」 via Google翻訳
 https://translate.google.co.jp/translate?hl=ja&sl=en&u=https://stats.stackexchange.com/questions/262611/r-pca-principal-psych-package-vs-prcomp-loadings

 > いいえ、私はpsychが単に読みやすさを向上させるためにそれを使用していると思います。 cozの精神はあまり「科学的」ではないと私は言っている。 もう一つの例は、固有ベクトルは単位長を持つべきであり、psychのベクトルはそれを持っていません - 標準化する必要があります(rescale)、prcompはデフォルトで単位長のベクトルを与えます。

 やーい道具箱のーっ。数ある道具箱のーっ。そういう「におい」がわからないとR(の標準でないパッケージ)を使っていくことはできないよね(※使っていいのか不安が残るよね=そういう不安はだいたい当たるよね)。んだんだ。(※経験に基づく感想です。)


★「内的整合性」とはにわが知りたい(仮)


・「THI(東大式健康調査)」付近(1976年、2002年)
 http://aoki2.si.gunma-u.ac.jp/thi/ref.html
 http://aoki2.si.gunma-u.ac.jp/thi/thi.html

 文字化けするんですけど。…EUCなんですけど!(※ひとのことはいえまいて&ギクッ。)

・(回答前には見ないでください)
 http://aoki2.si.gunma-u.ac.jp/thi/interpret.html

・青木センセイ「共通性」の説明です
 http://aoki2.si.gunma-u.ac.jp/lecture/PFA/pfa1.html

 > 共通性の欄は,各変数がm個の共通因子でどれくらい説明されるかを表す(0≦共通性≦1)。
 > 共通性の推定は,重相関係数の2乗値(SMC)などを初期値として主因子解を求め,得られた因子負荷量から改善された共通性の推定値を求めるという手順を,収束するまで繰返す。

 …はひ!?

・同「相関係数行列の吟味」
 http://aoki2.si.gunma-u.ac.jp/lecture/PFA/pfa6.html

 > marvelous 素晴しい
 > meritorious 価値がある
 > middling まずまず
 > mediocre 並み
 > miserable 惨め
 > unacceptable ふさわしくない

 青木センセイがこれを学んだというか習ったというか覚えたというか、そういう時代および年齢によるところもあるとは思われるのですけれども、どうにもこうにもKaiserせんせーが向こうで笑ってるみたいな表に見えてしかたないんです。気のせいでしょうか。

・教えて!goo「因子分析においてのKMOの重要性」(2001年9月7日)
 https://okwave.jp/qa/q131643.html

 > 文献によって記載されているものもあれば、全く触れられていないものもあり
 > どれだけの必要性・重要性があるのかわからず困っています。

 > (回答)
 > marvelous 素晴しい
 > meritorious 価値がある
 > middling まずまず
 > mediocre 並み
 > miserable 惨め
 > unacceptable ふさわしくない

 > おっしゃる通り、文献でもKMOを記載しているものはあまり見かけないように思います。おそらく心理学では、因子負荷量の絶対値が0.4以上という経験的な判断基準と、信頼性係数(クロンバックのアルファ係数など)によって採用する項目を決定している習慣があるのだと思います。良いか悪いかは別にして。

 青木センセイは統計学なので、きっちりかっちりしてますし、じぶんでプログラムをぜんぶ書くということですよね。うん。…というか、だいたいのあらすじと図表はWebでも参照できるとわかりました。なんてこったい!(棒読み)

・青木センセイ「因子分析の適用例」
 http://aoki2.si.gunma-u.ac.jp/lecture/PFA/pfa8.html

 なぜ朝倉書店「多変量解析実例ハンドブック」の索引で「因子」から「因子の解釈」を引いて青木センセイに至ったかといえば、同書で「因子分析」の掲載ページが非常にたくさんあるので、ならばより詳細な見出し語でいこうと、「因子の解釈」を引いたわけです。事典の索引って、こうやって使うんですよ…そこからですかっ。

 再び朝倉書店「多変量解析実例ハンドブック」より青木センセイです。

 > 49.3.4 尺度の内的整合性の確認
 > 前項で,39個の質問項目から2つの「仮の尺度」を構成した.次におこなうことはそれぞれのグループ内で質問が内的整合性を持っているかどうかということである.ここでは,因子分析とクロンバックのα信頼性係数(Cronbach,1951)を取り上げる.

 尺度と呼んだりグループと呼んだり揺れるんですけど(略)因子分析で得た因子と強く関連する質問項目群(尺度、グループ)をさらに因子分析にかけて「内的整合性」を確かめようとおっしゃる。…うーん。

 > 因子軸の回転をおこなう前の因子解に注目する.
 > 内的整合性が高ければ,第1因子の因子負荷量の2乗和(固有値)が圧倒的に大きくなるであろう.
 > 逆に内的整合性が低い場合には第2因子以降に別の意味を持つ因子が現れることになる.

 分布の歪みみたいなのを云々(以下略)。あ、いえ、「表11」に出てくるんです。

 > 表11
 > 歪度 -0.026 0.535
 > 尖度(-3) -0.811 -0.234

 > 中心極限定理からいえば(大巾に中略)いずれの場合であっても,標準集団における尺度得点の度数分布を求めておけば,個人の位置を知ることができるので評価に役立つ.
 > 単純合計による尺度得点を求め,その分布状況を調べると表11,12,13,図2,3のようになった.
 > (略)の分布はゆがみが小さいが(略)の分布は右裾が長い分布になっている.

 『右裾!』とかいっちゃいますかっ。

 再び「内的整合性の確認」に戻ります。

 > 18項目からなる(略)尺度
 > 初期固有値が1以上のものが2個あったので(固有値が7.567のものと1.505のもの),抽出因子数を2として因子分析をおこなった.
 > 因子負荷量の2乗和は第1因子では7.029,第2因子では0.999となり,第1因子の因子負荷量が圧倒的に大きいので単一因子性が確認できる.

 本当でしょうか。…本当でしょうか。

 > 21項目からなる(略)尺度
 > 初期固有値が1以上のものが3個あったので(固有値が7.536,1.887,1.143のもの),抽出因子数を3として因子分析をおこなった.
 > 因子負荷量の2乗和は第1因子では6.983,第2因子では1.386,第3因子では0.723となり,第1因子の因子負荷量が圧倒的に大きいので単一因子性が確認できる.

 ええーっ。…ええーっ。……ええーっ。

 そもそも「内的整合性の確認」といいながら「単一因子性が確認できる.」で終わるんですよ。コレハヒドイ。

 他方、「b. クロンバックのα信頼性係数による内的整合性の確認」のほうは、しごくまっとうなことをおっしゃる。そして「内的整合性に問題はないことがわかる.」と結論されるんです。ぜひ事典を参照してお確かめになってください。しかし、これはSPSSで「アルファ」を選びさえすれば全自動で出てくるんじゃあ、ないんですかねぇ。(棒読み)


★あなたのいう「主成分分析」わたしのと違う(※意訳)


・(再掲)「主成分分析の結果から一次元構造が確認される」の用例です(2010年5月5日)
 https://oshiete.goo.ne.jp/qa/5874524.html

 > 今扱っている論文に「主成分分析の結果から一次元構造が確認される」という言葉が何度か出てきます。
 > 何となく研究の正当性を主張するのに使っているというのは分かるのですが、詳しい意味がよく分かりません。
 > 結局一次元構造とは何なのでしょうか?

[3582]
 > > Carmines&Ziller(1979)の結果
 > > 彼らはこのような2因子に分類されたのは,**によって**によって生じたためであり,この2因子それぞれと,**性,**態度などの外的変数との相関係数が非常に類似していることから,この2因子は単一の次元を測定していると解釈している。
 > > Franzoi&Reddish(1980)では,この尺度の構造を検討し,尺度の一次元性を明らかにしている。

 > > 下位尺度ごとで,固有値を1以上とし主成分分析による確証的因子分析を行った.そして,下位尺度が一次元構造であるかを確認した(村上,2013).
 > > 下位尺度ごとに主成分分析を行ったところ,1つの主成分が抽出された.主成分負荷量は0.811以上で寄与率は72.8%以上であり強い一次元構造が確認された.

 「村上,2013」を参考にして「一次元構造が確認された」と考察してみせるという『型<かた>』が(少なくともこの分野では2017年にも)あるようだということでした。

・「心理学ブーム」とは
 http://diamond.jp/articles/-/139359

 > 1990年代後半から起きた心理学ブームで臨床心理士資格試験の受験者は2000年に1000人を突破

 > 今年9月に誕生する国家資格「公認心理師」に注目が集まっている。
 > 臨床心理士は卒業学部を問わないのに対し、公認心理師は心理系学部・学科卒業である点に注意が必要だ。

 > 「公認心理師の養成カリキュラムの真価や国家試験制度も不透明。ひとまず、臨床心理士を目指し、必要になったころに取得するのも一つの方法」と話す。

 この分野では「Amos入門」からの「共分散構造分析」『1択!』ではなかろうかと(中略)「因子分析」をしないといけない分野なんですよ。(いくら数理的に共通する部分があるとはいえ)畑違いの「主成分分析」では、いけないんですよ。

・主成分分析の結果について(心理学の論文として認められるレヴェルで)考察を述べるための「報告文例」みたいなの:そんなものはない!

・(心理学なら)共分散構造分析の一連の手続きが、実験のしかたから考察のしかたまでをあらかじめ規定しているので、それに従う以外の方法をとってはならない

 …という理解でございました。

 上述の「(心理学なら)共分散構造分析の一連の手続きが、実験のしかたから考察のしかたまでをあらかじめ規定しているので、それに従う以外の方法をとってはならない」の逆みたいなのは、どう考えておけばよいでしょうか。

・心理学を修めていない者が、Rの操作だけを覚えて「因子分析」を行なってはならない(無資格××である)
・経済学を修めていない者が、Rの操作だけを覚えて「時系列分析」を、実経済のデータを題材として行なってはならない(無資格××である)

 だいたいこのような理解だと思いました。(※見解です。)

・「時系列分析(time series analysis)」
 https://kotobank.jp/word/%E6%99%82%E7%B3%BB%E5%88%97%E5%88%86%E6%9E%90-4128

 > ブリタニカ国際大百科事典 小項目事典
 > 広義には時系列資料を用いた経済変量間の関係分析をいい,同時点の経済統計を用いて行う横断面分析と区別する意味で使用されるが,通常はもっと狭義の,すなわち時間の経過順に配置された時系列資料から,その各種変動を処理する統計的分析をいう。

 > 赤池弘次他編『時系列解析の方法』(1988・朝倉書店)

・「時系列分析」は応用範囲が広いので、経済学とは関係なく分析手法だけを使うということはあるとしても、経済学が培ってきた背景を理解せずに小手先で使ってみせるのはおこがましい(経済学における「時系列分析」が既に直面し解決してきた数々の問題を最初から学んだほうがよい)
・「因子分析」はただちに心理学の分析手法であるので、心理学を修めずには着手してはならない(心理学を修めた者と共著しなければいけない)
・数理的な側面のみから「因子分析」と「主成分分析」を代替可能とみなすことは適切とはいえない
・「主成分分析」は単なる数理的な操作であることが明確であるので、分野を問わず活用可能であるが、「因子分析」を行なわずに心理学的な実験結果や社会学的な調査結果などについて(「主成分分析」だけで)考察してはならない

 さらにこういうことであるという認識にございます。(※見解です。)

※ここでいう「〜を修めた者」とは、修士論文が合格して修士号を得た者以上とする…みたいにいっちゃうと、専門職大学院の『みなし修士!(修士論文なし)』はどうなのかといって、うーん。そっちは『AT限定!』で、(後からでも)修士論文を書けば『限定解除!(MTもいけます!)』でしょ。…えーっ!!(あくまで比ゆ的です。)

・2017年3月からの「準中型免許」にまつわるエトセトラ(2017年6月11日)
 http://news.livedoor.com/article/detail/13187620/

 当然ながら、若いうちにフルセット(『ぜんぶ載せ!』)の勉強や訓練を受けていないと、あとから『限定解除!』なんて、とても無理ですってば!(※あくまでイメージです。)新しいことや難しいこと(…新しいことはたいてい難しいんですけど)は若い者に頼る。これだね。(棒読み)

・はいはいエリンですか??「フルセット」は和製英語ではありません(エリンの出番なかったデース@すごすご)
 https://ejje.weblio.jp/content/%E3%83%95%E3%83%AB+%E3%82%BB%E3%83%83%E3%83%88
 https://www.weblio.jp/content/%E3%81%99%E3%81%94%E3%81%99%E3%81%94

・教えて!goo「SD法で得たデータを因子分析するには?」(2004年11月21日)
 https://oshiete.goo.ne.jp/qa/1094332.html

 > SD法にて得たデータを統計的に分類する方法
 > SD法にて得たデータを統計的に分類する方法

 > (回答)
 > 下記の本は、「SD法」について,その成り立ちと使い方についても紹介されている良書です。

※川島書店は臨床すぎませんかねぇ。臨床という分野から見て外にあった「SD法」を仲間内に「紹介」するような視野の狭さのある本だったりしませんかねぇ&それが役に立つのは臨床のひとだけですよ。(※偏見です。)

 > 良書
 > 良書

 うわぁ2004年11月に「良書」とか書いちゃうひとキターっ。既に「SD法」といって、その実、「SD尺度法」=イコール=「尺度のつくりかた!」だけを指す狭い意味が通用しているのだということを承知しなければなりません。1983年の計算機環境ではちょっと扱いあぐねていたようなデータ処理(あくまでデータ処理です)も、いまならできて、この先はもっといろいろできることでしょう。そのような変化を承知せず、じぶんが学生時代に習ったことだけで(中略)低〜い!(※小町の感想をストレートに表現しています。)

・「SD法」
 https://kotobank.jp/word/%E3%82%BB%E3%83%9E%E3%83%B3%E3%83%86%E3%82%A3%E3%83%83%E3%82%AF%E3%83%BB%E3%83%87%E3%82%A3%E3%83%95%E3%82%A1%E3%83%AC%E3%83%B3%E3%82%B7%E3%83%A3%E3%83%AB%E6%B3%95-87659

 > C. E.オズグッドらによって開拓された多変量解析法の1種。多数の両極的な評定尺度によって評定されたいくつかの概念を,意味空間と呼ばれる多次元のユークリッド空間における点として位置づけ,相互の間の関係を距離的関係として定量的にとらえる技法。意味空間の主要な次元として評価,潜勢力,活動性の3つの直交する座標軸が認められるといわれている。

 このうち、「多数の両極的な評定尺度によって評定」「多次元のユークリッド空間における点として位置づけ」「距離的関係として定量的にとらえる」というところまでは同意しながら、それ以外は納得いきませんみたいな議論をしていかないと心理学じゃないですし、心理学がそのような議論を続けているとあらば、心理学を外から眺めるわたしたちとしては、「SD尺度」のところだけは確実に原典に沿いながら、その先の分析は(じぶんの責任で)モダンな手法に載せていこうと、たぶんこういうわけです。


この記事のURL https://neorail.jp/forum/3587/


この記事を参照している記事


[3406]

放送大学「心理統計法(’17)」をあらかじめ読み解きながら「放送大学」(1981年)・「朝日放送大学21世紀セミナー」(1970年)とその周辺を読み解く【一部既報】

2017/1/20

[3584]

研究ホワイトボックス(30) ハイパー・ゼロ:「主成分分析」FAQ

2017/12/19

[3594]

いま問う「相関係数計算機」のココロ

2018/1/1

[3595]

【千里奈央】静岡県総合教育センター「BSアンテナを望遠鏡用赤道儀にセットし、太陽からの12GHzの電波を観測する。」を思い出しながら「あいすくりん」(1860年)ほかを読み解く(談)【現金会員3円引き】

2018/1/1

[3615]

まだ見ぬ『高速吉祥寺』の青写真をたずねて(高速長田編)

2018/3/10

[3617]

武蔵野市「武蔵野市地域公共交通総合連携計画」(2010年3月)を読み解く

2018/3/10

[3622]

【初音ケ丘】都市計画道路「保土ケ谷常盤台線」ほかを読み解く(仮)【秋葉立体入口交差点あり】

2018/3/18

[3625]

大磯町「大磯駅前広場の利用等に関するアンケート調査の結果」(2017年11月)を読み解く

2018/3/29

[3636]

Re:[3583] 或るナポリタンと停電のハフソク(則)

2018/4/10

[3639]

【自由研究】ふわコレ(6)

2018/4/30

[3649]

【お知らせ】ストリートビューの表示を休止します

2018/5/31

[3652]

【自由研究】ふわコレ(7)

2018/6/10

[3657]

Re:[3656] 「富士山の使い方」 / ほか

2018/6/30

[3668]

【豆汽車】いま問う「正規登城ルートはこちらから 小田原城天守閣正面入口」のココロ(談)【かむろ坂下交差点あり】

2018/7/28

[3676]

【正宗の名刀で速射砲と立合をするような奇観を呈出】発生学から出立するディープラーニング(仮)【社会調査工房オンラインあり】

2018/9/13

[3687]

【三日月島】いま問う「ビュアーソフトについて」のココロ(試)【ポイント1個あり】

2019/1/1

[3695]

いま問う「(お好きな地形)EX(30倍)」(2010年3月・2013年2月)のココロ(運転編)

2019/3/1

[3716]

【A9・Exp.】「乗客のアルゴリズム」一計

2019/6/9

[3728]

【A9・Exp.】「音と時間」しゃくしゃく(尺)【名鉄ミュージックホーンの楽譜あり】

2019/7/1

[3755]

き電24 〜にじゅぅぅーよぉん〜

2019/8/25

[3763]

どうなる千葉駅(11) 「出発時機表示器」「連動装置」で「黒砂」「本千葉」を読み解くココロミ(試)【黒砂試単あり】

2019/9/13

[4014]

きょうは川端康成で粗灰分。

2020/4/1

[4043]

きょうはセーブオンで老舗のカツカレーを再現したコンビニのカレー。

2020/4/1

[4064]

縦書きディープなラーニング(2020)

2020/5/7

[4130]

【自由研究】時には『該当なし』の英断を!(談)

2020/7/28

[4167]

【A9・Exp.】時間拡張「 3倍」の罠(再)

2020/8/1

[4180]

「Big5」とは何か 〜ジャンボサマーの夏〜

2020/8/25

[4222]

【理数探究】再び「西荻窪駅にスタバがなぜできないのか」を斬る(再)

2020/10/1

[4248]

研究ホワイトボックス(42) A列車で理数探究

2020/10/1

[4315]

Re:[4311] 「難度」とは何か(後編)

2020/11/15

[4322]

「照焼大橋」不滅なれ(グリル編)

2020/12/1

[4399]

【A9・Exp.】シナリオマップのトウモコロシ(談)

2021/1/16

[4483]

ふれねる「YRくらま」の塊(KAI)

2021/4/1

[4548]

いわゆるMDSとPCAの違い【t-SNEのBarnes-Hutアルゴリズムあり】

2021/5/13

[4626]

ふれねる「自由研究 数学」の写(SHA)

2021/8/25

[4634]

ふれねる「自由研究 数学」の計(KEI)

2021/8/25

[4653]

ツールとは何か

2021/11/16

[4683]

【コピペ決定の宿】青い砂は呼んでいるか【ビビット】

2022/1/1

[4703]

シニカルでグロテスクでコミカルな「アンチ・アンチ・オペラ」をサントリー「ゲーターレード」で読み解かない(談)

2022/4/1

[4725]

「かまちM」を再起動しました(中編)

2022/5/1

[4733]

「知見」という言葉(再)

2022/5/1

[4743]

ひとりで遊ぼう「A列車で行こうシリーズ」(再)

2022/5/1

[4753]

「社会人」という言葉(再)

2022/5/1

[4773]

いま問う「A列車で理数探究」のココロ(談)

2022/6/1

[4857]

「配線略図」は『曼荼羅』(前編)

2022/9/1

[4890]

難しい9 〜「火力発電所」の「最大乗客数」をローソンサテライト「安田倉庫守屋町店」ほかで読み解く(鱈)〜【ニッセイ基礎研究所あり】

2022/9/1

[4969]

研究ホワイトボックス(49) とにかく「主成分分析つき回帰木」するには

2023/1/1

[5071]

【2023年】「自由研究とその周辺」エメラルドマウンテン(冬)

2023/9/1

[5171]

きょうは独学でタンポポの天ぷら。

2024/3/1

[5204]

【ハマチ】超漢字のスーパーグラフィック(談)【ハルトマン】

2024/4/4

[5239]

コロナ社「土木・交通計画のための多変量解析(改訂版)」(2024年3月)こもごも(談)

2024/5/1

[5268]

【100%】いま問う「とりあえずビール」のココロ(再)【下駄】

2024/9/9


関連する記事


[4628]

ふれねる「自由研究 数学」の忙(BOU) tht - 2021/8/25


[4543]

【東口直結】特異値分解とは何か(再)【多様な個性が響き合う】 tht - 2021/5/1


[4347]

「テレビ視聴時間の規定要因を探る」(2016年7月)を読み解く(前編) tht - 2020/12/1


[4221]

【スーパードライ】啓林館「理数探究」(2020年4月)しゃきしゃき【お酒ではありません】 tht - 2020/10/1


[4296]

子どもがひねり出す謎の『理路』(11) tht - 2020/11/1


[4629]

ふれねる「自由研究 数学」の好(HAO) tht - 2021/8/25


[4458]

研究ホワイトボックス(44) ハイパー・ゼロ:「散布図行列」「相関係数行列」とは tht - 2021/3/1


[5210]

実例に見る日英対訳(44) 「レオンチェフの逆説」と「PageRank」 tht - 2024/4/4






neorail.jp/は、個人が運営する非営利のウェブサイトです。広告ではありません。 All Rights Reserved. ©1999-2024, tht.