・朝倉書店「多変量解析実例ハンドブック」かく語りき(18) ・冴えない教科書の探しかた(再) ・「PLS回帰」を「重回帰分析+主成分分析=主成分回帰(その特別な場合)」に代わって「主成分分析+回帰木」で読み解く(試) ・表401.60 外的基準の有無と主成分回帰・PLS回帰(※独自に作成)
(約18000字)
なにげにきわめてハードルの高いタイトルなんですけど。…なにげにきわめてハードルの高いタイトルなんですけど!(※2回いいました。)
※「研究ホワイトボックス」としては、[3469],[3500]などの続きです。
・[3571]
> (公社)日本化学会
> > 16:30-17:30 重回帰分析とPLS
> > PLS回帰は予測因子の行列が観測因子よりも変数の数が多い時、そしてXの値の間に多重共線性が存在する時に特に適している。
> いわば「行列どうしの主成分分析みたいなの」(『主成分分析の自乗!!』)ですね、わかります。(※きわめて曲解ですが、こういう表現でわかった気になれるならこれでもいいかなー…みたいなー…?)
もう少しちゃんと理解しておきたいという欲求が出てきました。よきかなよきかな。(棒読み)
※この記事を最後まで(予め略)そういうことだったのん!
★朝倉書店「多変量解析実例ハンドブック」かく語りき(18)
※括弧の数字は章番号です。
・朝倉書店「多変量解析実例ハンドブック」
http://www.asakura.co.jp/books/isbn/978-4-254-12194-0/
・18. PLS回帰による農業リモートセンシングデータの解析
ずばりな記事が事典にもございます。マルチコっ。
> 従来,多重共線性を扱う手段として,変数選択,主成分回帰,リッジ回帰等の手法が用いられていた.これに対し,最近,計量化学(chemometrics)の分野でPLS(partial least squares)回帰によるデータ解析法が使用されるようになってきた.
> スペクトルデータは141個の波長から構成され,各波長が説明変数の役割を果たす
> 波長範囲400〜1100nmを5nm間隔で測定し,白板の値で除し
> 試験区の数(観測値の数)はn=156であった.
> 窒素吸収量を目的変数y,分光反射係数を説明変数x1,x2,…,x141とした解析をおこなう.
※ここでいう「試験区」:富山県農業技術センターの水稲の栽培試験区。
たいへん明瞭な記述です。(※同じ事典の中に、明瞭じゃないのもあるといいました。)
> 説明変数の数pが観測値の数nより多いときには,式(2)の解は一意に定まらない.この多重共線性の問題に対応するため,従来,変数選択,主成分回帰,リッジ回帰等の方法が用いられていた.
> 主成分回帰
> 同様にして第r主成分まで求める(r≪p).
> PCR(主成分回帰;principal component regression)は,このようにして求められたr個の主成分を説明変数として,目的変数yに対する重回帰分析をおこなうものである.各主成分は互いに無相関となるように決められるので,多重共線性の問題は生じない.
> PLS回帰
> 潜在変数をいくつまで用いるかについては,クロスバリデーションCV…式(8)を最小にするrを用いることが多い.
> 式(8)は予測平方和(PRESS)と呼ばれることもある.
おおー!(略)
> PLS回帰は最小2乗法と主成分回帰の折衷的な性格を持ち,
じぶん、PLS回帰というものを『主成分分析の自乗!!』などと曲解した上で、これをそのままひとにいうのははばかられつつ(中略)なるほど「最小2乗法と主成分回帰の折衷的な性格」といえばよかったんですねぇ!!(棒読み)
※まったく好き勝手に『主成分分析の自乗!!』と曲解したのは事実であり、曲解した後で「18」の稿を参照して「なるほど」したのも事実です。先に事典を読んでから『主成分分析の自乗!!』などといってみせたのではないことだけは明確にしておこうと…『〜だけは明確にしておこう』みたいなのキターっ。(※恐縮です。)「単に「最小二乗法」と訳してしまうと、(数学上の)操作の目的がよくわからなくなるという『副作用』がございますよね。」については[3563]を参照。
> 潜在因子の数を増やせば,いくらでも当てはまりはよくなる.
あたりまえですっ!! …と、教室のあちこちからつぶやきが聞こえてくるようなら授業は成功したのかもですよ。えー、ど
|