【研究ホワイトボックス】

研究ホワイトボックス（26）商用製品に頼らずに「PLS回帰」を理解して使いこなすには

・朝倉書店「多変量解析実例ハンドブック」かく語りき（18）
・冴えない教科書の探しかた（再）
・「PLS回帰」を「重回帰分析＋主成分分析＝主成分回帰（その特別な場合）」に代わって「主成分分析＋回帰木」で読み解く（試）
・表401.60 外的基準の有無と主成分回帰・PLS回帰（※独自に作成）

（約18000字）

　なにげにきわめてハードルの高いタイトルなんですけど。…なにげにきわめてハードルの高いタイトルなんですけど！（※2回いいました。）

※「研究ホワイトボックス」としては、[3469],[3500]などの続きです。

・[3571]
　> （公社）日本化学会
　> > 16:30-17:30 重回帰分析とPLS

　> > PLS回帰は予測因子の行列が観測因子よりも変数の数が多い時、そしてXの値の間に多重共線性が存在する時に特に適している。

　> いわば「行列どうしの主成分分析みたいなの」（『主成分分析の自乗！！』）ですね、わかります。（※きわめて曲解ですが、こういう表現でわかった気になれるならこれでもいいかなー…みたいなー…？）

　もう少しちゃんと理解しておきたいという欲求が出てきました。よきかなよきかな。（棒読み）

※この記事を最後まで（予め略）そういうことだったのん！

★朝倉書店「多変量解析実例ハンドブック」かく語りき（18）

※括弧の数字は章番号です。

・朝倉書店「多変量解析実例ハンドブック」
　http://www.asakura.co.jp/books/isbn/978-4-254-12194-0/

・18. PLS回帰による農業リモートセンシングデータの解析

　ずばりな記事が事典にもございます。マルチコっ。

　> 従来，多重共線性を扱う手段として，変数選択，主成分回帰，リッジ回帰等の手法が用いられていた．これに対し，最近，計量化学（chemometrics）の分野でPLS（partial least squares）回帰によるデータ解析法が使用されるようになってきた．

　> スペクトルデータは141個の波長から構成され，各波長が説明変数の役割を果たす
　> 波長範囲400～1100nmを5nm間隔で測定し，白板の値で除し
　> 試験区の数（観測値の数）はn=156であった．
　> 窒素吸収量を目的変数y，分光反射係数を説明変数x₁，x₂，…，x₁₄₁とした解析をおこなう．

※ここでいう「試験区」：富山県農業技術センターの水稲の栽培試験区。

　たいへん明瞭な記述です。（※同じ事典の中に、明瞭じゃないのもあるといいました。）

　> 説明変数の数pが観測値の数nより多いときには，式（2）の解は一意に定まらない．この多重共線性の問題に対応するため，従来，変数選択，主成分回帰，リッジ回帰等の方法が用いられていた．

　> 主成分回帰
　> 同様にして第r主成分まで求める（r≪p）．
　> PCR（主成分回帰；principal component regression）は，このようにして求められたr個の主成分を説明変数として，目的変数yに対する重回帰分析をおこなうものである．各主成分は互いに無相関となるように決められるので，多重共線性の問題は生じない．

　> PLS回帰
　> 潜在変数をいくつまで用いるかについては，クロスバリデーションCV…式（8）を最小にするrを用いることが多い．
　> 式（8）は予測平方和（PRESS）と呼ばれることもある．

　おおー！（略）

　> PLS回帰は最小2乗法と主成分回帰の折衷的な性格を持ち，

　じぶん、PLS回帰というものを『主成分分析の自乗！！』などと曲解した上で、これをそのままひとにいうのははばかられつつ（中略）なるほど「最小2乗法と主成分回帰の折衷的な性格」といえばよかったんですねぇ！！（棒読み）

※まったく好き勝手に『主成分分析の自乗！！』と曲解したのは事実であり、曲解した後で「18」の稿を参照して「なるほど」したのも事実です。先に事典を読んでから『主成分分析の自乗！！』などといってみせたのではないことだけは明確にしておこうと…『～だけは明確にしておこう』みたいなのキターっ。（※恐縮です。）「単に「最小二乗法」と訳してしまうと、（数学上の）操作の目的がよくわからなくなるという『副作用』がございますよね。」については[3563]を参照。

　> 潜在因子の数を増やせば，いくらでも当てはまりはよくなる．

　あたりまえですっ！！ …と、教室のあちこちからつぶやきが聞こえてくるようなら授業は成功したのかもですよ。えー、どれどれ？（※あくまでイメージです。「18」の稿の著者は教員ではありません＝当時。）

　> n＝156，p＝141のスペクトルデータにPLS回帰を当てはめた．
　> ここでは統計パッケージSASを用いて計算した（Tobias，1995）．クロスバリデーションの結果，予測残差平方和（PRESS）は，r＝5で最小となった．
　> 強い多重共線性を持つp＝141個の説明変数はr＝5個の潜在変数に要約され，この5個の潜在変数だけで目的変数yの変動がよく説明されている．

　こう、なんといいましょうか、著者自身が納得するかのように丁寧に記述されてございます。しかし、いきなり「変動がよく説明されている」と書いてしまってよかったのでしょうか。…ギクッ。（※見解です。）

　> 本稿では（略）残りの2/3を校正データセット（n_{V}＝104）として解析する．

　> 3番目ごと
　> 3番目ごと

　> クロスバリデーションの結果，r＝7で予測残差平方和（PRESS）が最小となった．この回帰係数を用いて確認データセットの窒素吸収量を予測した結果，予測値と観測値との相関係数はr＝0.926であった（図5）．予測の精度は実用的に満足できるものである．しかし回帰係数（図4）は，かなりギザギザしている．これは，潜在変数を多く取り込みすぎていることが原因と考えられる．

　アブストラクトからここまでスバラシイのに最後の最後、「取り込みすぎている」みたいなのキターっ。おぬしおしいですのう。（※「取り込む潜在変数が多すぎる」ですね、わかります。）

　なお、「図4」が「かなりギザギザ」というのは、波長を「5nm間隔」にしたことに由来するのであってだなぁ（略）そこをそのままにしたまま「使う」「使わない」で増減させたからって「なめらか！」になるわけじゃないでしょ。んだんだ。（※あくまで素人です。）

　スペクトルからの説明変数の採りかたとしては、既知の物質の固有のソレ（波長）などをピンポイントで（※必ずしも一定間隔ではないかもしれない）並べてだなぁ（略）んだんだ。あるいは「5nm間隔」での測定値を15nmや30nmの『ウインドウ！』（※「イ」！）で積分しながらスライドさせるなどの（略）本当でしょうか。（※あくまで素人です。）

・[3547]
　> > 早く帰りすぎると、『まだご飯ができていない』と言われ

　> 「早く帰りすぎる」と発話されちゃうと、そのままお伝えするしかなくなっちゃうんですよっ＆『そのままお伝えしすぎ！』って、こうですね！

・[3504]
　> > 弦長を20mとした場合では、その条件は厳しくなり、半径500m未満では1m単位、700m未満では5m単位とすることが望ましいといえる。

　> 角川つばさ文庫「1％」（[3099]）、「じゃあ1秒単位にすればいいじゃない」（[2997]）、「最小単位でがんばるぞい」（[3052]）なども参照。

・[3052]
　> 概ね20名以下では1名刻みで見たいですから、そして、どこから上は2名刻みや3名刻みでもよいかは決めかねますから、ええい、ぜんぶ1名刻みでがんばるぞい

　そういう意味では分光計で「5nm間隔」というのは「すごくがんばった」（＝当時「いちばんいいやつをたのむよ！」みたいな予算が通ったっぽい的な意味で）ということだと見受けられるわけです。

・[3453]
　> 太陽光をプリズムを通して当てるなどして連続的に吸光度を測ることって、できないんですかねぇ。ほら、曇りの日には研究をお休みできるじゃないですかぁ。（違）…わあぃマウナケア山の山頂で試料の分析だっ。…その発想はなかった！（恐縮です。）

・（その逆）「ハイパースペクトルカメラ」のイメージです
　http://www.ebajapan.jp/spectral.html
　http://www.ebajapan.jp/assets/img/spectral5.png
　http://www.ebajapan.jp/hyper_choose.html

　> ハイパースペクトルとは、数十バンド(種類)以上に分光されたスペクトルのことです。
　> ハイパースペクトル情報を取得することで、人間の目や既存のRGBカメラでは捉えられなかった対象の特性や情報を捉えられるようになります。

　> ハイパースペクトルカメラでは350nm(近紫外)～1100nm(近赤外)の波長を、5nm間隔で分光し、ハイパースペクトル情報を取得しています。

　> 空撮約3秒、移動体約1秒

　> 当社製品は、デフォルトで5nmの波長分解能に設定されております。
　> また、お客様のご要望に合わせて、1nm～ご希望の範囲で波長分解能を変更することが可能です。

　ぬおー（略）。この「5nm」という「デフォルト」の設定そのものが、既に『ウインドウ！』（※「イ」！）みたいなものっぽいですよね。本当でしょうか。（※あくまで素人です。）

・[3076]
　> 速度制限を「5km/h刻み」で設定することの根拠を問う

・[2988]
　> 車両長23mというのも、ええぃ、20mか25mかはっきりせぇ（＝中途半端な長さで気持ちわるい）、という感覚が日本国内ではありましょうが、あえて一本化するなら23mだろう、ということなのでしょう。23mは、約75フィート（100フィートの3/4）で、人が隙間なく縦列で75人ほど並んだ長さとなり、フィートな文化圏では割と直感的な（＝中途半端ではなく、気持ちのいい）長さなのだろうと思います。

　> 似たようなことは、強風時の運転規制が風速の5m刻みで定められている（[2552]）ところにもいえ、実は対数スケールの事象なのだから等間隔でなく対数的な境界値をとったほうがいいでしょうに、という話もあるでしょう。

　測定するときは（機械や光源の都合で）波長で考えるけれども、分析するときは周波数にすればいいんじゃないかとかってないんですかねぇ。（※まったく素人です！）

・産業技術総合研究所計量標準総合センター物理計測標準研究部門「周波数計測研究グループ」のイメージです
　https://unit.aist.go.jp/ripm/freqmeas/research.html

　なお、朝倉書店「多変量解析実例ハンドブック」の「18」の稿が挙げる参考文献は…うーん。

・「Tobias, R.（1995）． An introduction to partial least squares regression. Proceedings of the 20th Annual SUGI Conference (pp.1250-1257). SAS Institute.」
　http://support.sas.com/events/sasglobalforum/previous/index.html
　http://www.sascommunity.org/wiki/SAS_Global_Forum_Proceedings/SUGI_95
　https://goo.gl/maps/sKDCAgHE2Um

　> Walt Disney World Dolphin

　わあぃWalt Disney World Dolphin。みんなだいすきWalt Disney World Dolphin。Walt Disney World Dolphinですから、よろこばないひとなどいるはずがありません！！ …SAS！ SAS！いわゆるひとつのいまここにユーザー会つくったよみたいなやつってことでよかったでしょーかみたいな（略）…なんだかなぁ。

※ひとつひとつのホテルのランクとかわかりませんけど、毎年の会場の選びかたがミーハーなのではないかなぁ。本当でしょうか。ま、ホテルは無数にあるんです。わざわざWalt Disney World Dolphin（諸事情により略）会場をWalt Disney World Dolphin（＝Walt Disney World Dolphin、Walt Disney World Dolphinですよ、あなた！）にすれば参加者がよろこぶとお考えになったんですね、わかります。SASの利益がSASの大口顧客に還元される、民間企業どうしの接待なんです。政府機関の者や大学に所属する者が出て行ってはいけない気がするよ。うん。（※見解です。）

・村田製作所です
　https://japan.zdnet.com/article/35011465/

　> 村田製作所は、製造現場にある大量の品質データを活用して、データマイニング手法などを駆使して、品質改善を図ってきた。だが、必要なデータの用意にETLツールの専門家が必要になるなど分析するための準備に時間や負荷がかかり、改善のサイクルが遅くなるという課題を抱えていた。

　> 品質解析を中心としたモデリング、自動化モニタリングやアラートなどの機能を搭載

　> 村田製作所はQuality Lifecycle Analysisを採用することで、GUIでのデータの抽出、加工、分析が実現し、従来よりも容易に、迅速に品質データを活用できる環境を構築しているという。従来では困難とされた分析プロセスそのものの検証、標準化も可能となり、効率化が期待できるとしている。

　途中から主語がわからなくなってきます。

・一般「JMP」のイメージです
　https://cloud.watch.impress.co.jp/docs/news/1020927.html

　> 探索的データ分析ソフトウェア「JMP（ジャンプ）」
　> JMPは、主に企業の製品企画開発部門や品質管理部門、データ分析担当者や医師、大学および公共の教育、研究機関などにおいて統計学のリファレンス的ソフトウェアとして利用されているソフト。

　> 一般化回帰では、新たな検証基準、正則化の手法が追加。一般化回帰で打ち切りデータを扱うこともでき、さまざまな問題をモデル化できるようになった。このほか、Gauss過程モデルでは、当てはめスピードが向上し、より大きな問題が分析可能になり、アソシエーション分析では、所与の事象、レコード、またはトランザクションでともに発生する項目を特定できるようになった。

・「植物とその生育環境のリモートセンシング」（1997年）
　https://www.jstage.jst.go.jp/article/rssj1981/17/3/17_3_275/_article/-char/ja/
　https://www.jstage.jst.go.jp/article/rssj1981/17/4/17_4_365/_article/-char/ja/

　> Landsat-TMの波長帯を使った単純な教師なし分類の結果は土壌の種類とよく対応した。

※Landsat-TM：Landsat Thematic Mapper。

　いきなり「よく対応した。」といわれましてもねぇ。（棒読み）

　> 多数の波長データを用いた多変量の回帰モデルや99)
　> 99) Inoue, Y. and M.S. Moran: Crop Research in Asia. 2, 710-711, 1996.

　タイトルと内容がわからないのですが、著者ら前年の発表のようです。えー、どれどれ？（略）このへんがPLS回帰っぽいのだろうと予想しながら、本来なら情報探索を続けるところではございますが、本日は時間の関係で…ゲフンゲフン。（※恐縮です。）

　> 診断の方法としては，ひとつの特性値分布に閾値を設けるだけの簡易な方法から，農業的に重要な複数の特性値の分布とエキスパートシステムを使った複雑な方法までいくつかの選択肢がある。

　> 今後は生産プロセス全体を面的に捉えるために，リモートセンシング情報やメッシュ気象データなどを組み込んだ総合的な診断・意志決定システムを構築することが必要である。

　> 1日2回という高頻度の観測データ
　> 1日2回という高頻度の観測データ

　おおー（※理由は示さずに略）1997年です。

★冴えない教科書の探しかた（再）

・なんと朝倉書店「多変量解析実例ハンドブック」より「18」の稿を参考文献に挙げた論文のイメージです
　https://www.jstage.jst.go.jp/article/grj2002/80/4/80_4_178/_article/references/-char/ja/
　https://www.jstage.jst.go.jp/article/grj2002/80/4/80_4_178/_pdf

　事典は参考図書ですからね。だまって勉強に使いながら、参考文献としては事典と同じ著者の正式な論文を参照すべきではないですかねぇ。しかし、そういう意味では分野もテーマも異なるので、単にPLS回帰を使っているというだけで参考文献として挙げるのはいかがですかねぇ。教科書があれば、教科書だけを挙げれば済みそうですよ。…その発想はなかった！（※見解です。）

　> 本稿では,PLSRを地域分析に適用した結果,次のような有用性が認められた.複雑な構造を持っごみの排出という事象に対して,多重共線性などの制約を受けずに分析が必要とするより多くの説明変数を考慮することができ,結果として予測精度の高いモデルを得ることができた.

※OCRママ。持っごみ持っごみ。…ごっつぁんです。（違）

　うーん。せっかく朝倉書店「多変量解析実例ハンドブック」の「18」を参照した上で、ちょっと頼りない記述ではなかろうかと…うーん。（※見解です。）「「and so on」と「など」が同じ意味で使われている場合もある」については[3373]を参照。「多重共線性など」って何ですか＆何なんですかっ。…気になります！

　> PLS回帰入門. http://cse.naro.affrc.go.jp/iwatah/toukei/pls/2006/pls_introo9.pdf (最終閲覧日: 2007年1月28日)

・Internet Archiveです
　https://web.archive.org/web/20070701175459/http://cse.naro.affrc.go.jp/iwatah/index_j.html#domestic
　https://web.archive.org/web/20071123055335/http://cse.naro.affrc.go.jp:80/iwatah/toukei/pls/index.html

　> 下記のリンクからダウンロードできます．

　> Rによる統計解析数理統計研修統計パッケージR入門
　> PLS回帰入門数理統計研修 PLS（Partial LeastSquare)回帰の入門
　> SHAPEチュートリアル進化学会2003福岡大会での発表に関連する資料

　教科書なみの信頼がおけるPDFではあっても、やはり教科書を参照したい、教科書がない段階で使う（[3296]）とあらば、PDFに頼らずじぶんで式を導出できるレヴェルでありたいなどと無理難題のほうなど（略）。（※見解です。）

・[3296]
　> 特に、「ハイパーパラメータの推奨値」などを予稿から拝借して実装されるにあっては、続報や他者の論文で「やっぱり違った」と否定されていないか、一種「無効資料調査（公知資料調査）」のようなクロウが求められてしまいます。それを自分ではハンドリングしかねるといって一種「投げる」場合は、しかるべき「教科書」が出るのを待ちましょうということです。

・「もうひとつの重回帰分析」（2017年6月8日）
　https://www.amazon.co.jp/dp/4489022697

　> もうひとつの重回帰分析
　> もうひとつの重回帰分析

　> 偏回帰係数を素朴に解釈する誤用が目につく。この問題の解決策として、本書では「予測変数を直交化」する重回帰分析を紹介。

　> 「予測変数を直交化」する重回帰分析
　> 「予測変数を直交化」する重回帰分析

　えーっ…もどかしいとはこのことだよ。『主成分分析の自乗！！』といいしょーぶではございませんこと？あらあら、まあまあ！（棒読み）そのうえ「東京図書」ときたもんだ。東京図書はほとんど『印刷所状態！（持ち込みっ！）』みたいなものですから（編集者が目を光らせるでもなく）著者自身の力量がものをいう…それを持ち込みというんですよ。（※あくまで偏見です。）

・東京図書「原稿募集のお知らせ」（※公式です）
　http://www.tokyo-tosho.co.jp/

　> 原稿募集のお知らせ
　> 統計学の普及に貢献する本であればどなたでも出版できる場を提供しています。東京図書編集部まで、完成原稿をお送りください（住所は下記）。

　これが東京図書ですよ＆東京書籍じゃないよ東京図書だよ。東京図書でなければ芝浦工学社（月刊LIFO）や飯田橋システム（…会席料理マニュアルっ）とでも名乗りなさいってこった。（※あくまで偏見です。たぶん実在しない芝浦工学社ならびに飯田橋システムとは無関係です。）「完成原稿をお送りください（住所は下記）」などと（略）むしがいいとはこのことだよ。（棒読み）

※もちろん、東京図書みたいな出版社があるからじぶんの授業でしか使わないような教科書も出版できるワケダ…なのですよ。

・飯田橋とはにわ！会席料理が384倍わかる本（※当初企画では「512倍」を目指しておりましたが折衝の結果「384倍」で決着しましたみたいなの！）
　https://tabelog.com/tokyo/A1309/rstLst/RC010101/

　そもそも店の紹介に「飯田橋」と書くか書かないか…そこからですかっ。

・豊田センセイ付近
　http://www.waseda.jp/sem-toyoda-lab/backbook/conjoint.html

　> 朝倉書店

　えーっ！！朝倉書店から出るはずが何らかのアクション（[3394]）…じゃなくて、何らかの何か的なもので東京図書になっちゃいましたっ＆だまされたとおもって（以下略）単なる誤記ですかねぇ。

・再びAmazonより「カスタマーレビュー」をご覧いただきます

　> タイトルから内容を推察するのがやや難しい
　> この本は主にコンジョイント分析について解説している本であるが、タイトルからそれがピンとこない人もいるかもしれない。
　> なお、この本において「予測変数を直交化する方法」というのは、直交表を使用するという意味であり、主成分回帰やPLS回帰を行うという事では無い。念のため。

　えーっ。…エーッ！！（棒読み）

・いつかどこかで「直交表」のイメージです
　https://www.i-juse.co.jp/statistics/product/func/doe/orthogonal-layout.html

　> わりつけ設定支援
　> わりつけ設定支援

　ぐふっ。（略）

　> プーリング

　うーん。

・「プーリング」の用例です
　http://www.st.nanzan-u.ac.jp/info/nas/academia/vol_009pdf/09-015-026.pdf

　> 統計処理ソフトR上でプログラムを作成

　> 企業でプーリングを行う際に、交互作用を考えないで一連の流れを行うことはあまりないため、交互作用を考慮したプーリング手法を研究することは意義があると考える。

　うまくいくとおもったんだ。SASならね。（違）

・すごーい！「化学者のための多変量解析ケモメトリックス入門」は講談社「KS化学専門書」なんだね（2002年11月25日）
　https://www.amazon.co.jp/dp/4061543016

　> 現代は一成分から多成分へ、最小二乗法から多変量解析の時代。

　> 化学は本来、濃度、pH、スペクトル強度などいろいろな多変量を扱う学問である

　> いろいろな多変量
　> いろいろな多変量

　> 講談社
　> 講談社

　「内容紹介」は講談社のひとが目を光らせて書かれているんでしょ。これを著者自身で書くのはむずかしく、（じぶんでは）書けたつもりでもまったく書けていないと自覚せねばなるまいて。んだんだ。（棒読み）

　> ＰＬＳは主成分分析を出力側と入力側に適用するものだという説明は初学者を混乱させるだけだろう．
　> 日本語のテキストが少ないのは確かだが，あえて本書を選ぶ必要はないだろう．中途半端だとの印象が強い．

　ぐふっ。この記事を（再び略）のん！「初学者を混乱させるだけ」と非難することに主眼のあるレビューであり、じゃあ（※）どう説明すればすとーんとすとすとまいる、できるのかはおっしゃらないのだと、こういうわけです。それに輪をかけるかのように「行列どうしの主成分分析みたいなの」（『主成分分析の自乗！！』）などとですね（略）そのような何か的なものをかいくぐって理解していくのが勉強というものなんですよ。ええ。…おっと、「PLS回帰の説明として妥当でない文章を選べ。」みたいな『問題文』（※「問題のある文！」）がうっかりできてしまったよ。

※この記事を最後まで（略）そもそも「PCR」（主成分回帰）は、外的基準（「真の目的変数」みたいなの）のありなしでまったく、主成分分析（行列の操作としてのSVD！）の意味を成すか成さないかが変わってしまうのだという、そこですよね。（※この手紙が読まれるころ…じゃなくて、この記事を最後まで書いてからこの注を補っています。）

　> 意味不明と思われる文章が多い

　講談社なのに…講談社なのにですかっ！！（棒読み）

　> 扱っている話題自体は「ケモメトリックス」よりも7年新しいだけに残念。

　> データ構造の説明など、線形代数を用いて１次元から多次元へスムーズにわからせるような工夫が見られる。多数盛り込まれている事例は説明不足のところは否めないが、社内の解析依頼に対応したものならば、記述内容に関して煩わしい程のチェック・削除が入ったであろうことは同じ企業人として推察される。
　> ６章の混合スペクトル分離に関しては、日本語による解説は初の試みであろうが、初心者でもわかるようにもう一工夫ほしかった。
　> 総合的には、企業の研究者が実践で使う、主成分分析・回帰分析・実験計画法・因子分析（混合スペクトル分離？）がバランスよく盛り込まれており、

　> スペクトル分離の章は、まだ理解できない部分もたくさんありますが、「何ができるのか」はどうにか把握したつもりです。この６章は他の分野の人には意味不明で無視される内容かもしれませんが、分析業務に携わる研究者にとって、この概念を理解しているか否かは天動説と地動説の差くらいあるのではないでしょうか。

　このへんっぽいですよね。うん。

　> 著者の理解のレベルが高すぎて、難しいことがサラリと書かれてあるので、逆に初心者にはその「ありがたみ」が判りにくいのかもしれまん。

　（著者が）じぶんで納得するために書いているんですよ＠えっへん！（※えっへんはイメージです。）研修（※「ベンダーのソレにいってこい」もしくは「ベンダーのひとがくるんやでー」みたいなの）が充実した企業の研究者は、きっとまったく（市販される）教科書には頼っていないということですよね。あたりまえのように（商用製品を使って）PLS回帰も（マニュアルやヘルプに従ってやすやすと＝「えっ、PLSRって、そんなにむずかしいものだったんですかっ！！」みたいに）使っているんですよね。…たぶん。（※一般的な推察です。個別の企業の事情は承知しておりません。）

★「PLS回帰」を「重回帰分析＋主成分分析＝主成分回帰（その特別な場合）」に代わって「主成分分析＋回帰木」で読み解く（試）

・「システム生物学と多変量解析」（2014年8月5日）
　http://kurodalab.bs.s.u-tokyo.ac.jp/member/Yugi/Textbook/chapter11.pdf

　> 私たちの研究室では、ウェットとドライの両方を駆使して＊＊＊＊を解析できる人材の養成も目指しています。現在、実際に実験科学（ウェット）出身と数学・情報（ドライ）出身の両方の研究員が参加していて、どちらの分野も理解・解析できるようなバイリンガルな人材育成の体制を整えています。ウェットとドライのどちらも自分でやるという点が私たちの研究室の特徴のひとつです。

　…という研究室のかたがささっとお書きになった、よくできた勉強会のプリントみたいなのだと思って参照すればいいのだと思います。（※恐縮です。）なお、じぶんの研究のためにじぶんでデータを採るばかりが研究ではないという意味での（整備されたデータコレクションを使って複数のチームが独立に研究を進めるなどの＆ひいてはSSHと呼ばれる高校でこそ実験よりデータ処理であろうとの）「スーパードライ！」については[3512],[3564]を参照。（※お酒ではありません。）

　> PLS回帰は以下の基礎知識に支えられている。

　> PLS回帰
　> 主成分回帰(PCR)
　> 重回帰(MLR) 主成分分析(PCA)

　> よって、この概念図の下から順に取り扱う。

　これ以上に明快な概念図がありましょうか。わたしたち、あたかもSVMやk-meansとも見境なく「分類ができるんでしょ？」といって『決定木』を使うなどの…それでも使えちゃうのもスゴイことではあるんですけど、あっ…といってあしもとをすくわれるやうなとはこのことだよ。（棒読み）

　> PCRを改良したものがPLSである。
　> XとYの相関を加味した主成分スコア(に近いもの) になる。

　> PLS回帰係数の導き方
　> 最終的に、XとYのPLS回帰係数行列は、X、Yそれぞれのloadingsに相当するP、Qおよびその間をつなぐ回帰係数Bによって決まる。

　ほぉお！（略）

　（単）回帰を重回帰（多変量）に拡張するところ（から※）をきちんと説明することは理想的ではありますが、いくらなんでももどかしすぎるとの感想のほうなど…ゲフンゲフン。この概念図の左半分を下から上まで「回帰木」で代わりとしても、いいと思うんです。ついでに「PLS回帰」より上まで突き抜けて「ツリーモデル」での可視化までできちゃったよ＠なんてこったい。（※一部の表現は演出です。）

※いやーテクニカルなんですよ。しかしテクニカルでしかないんですよ。だいたいそういうのが最初から（Rで）パッケージになっていてゲタをはかせてもらっている（≒予算を取れない高校でも使える）、そのゲタは存分に利用しようではありませんか。（※考えかたには時代により変遷がございます。そして、SSHの予算があっても理科室に消ゆ、の意。）

　> 主成分分析(PCA)
　> 分散最大化が最小二乗法(回帰分析) と似ていると思った人も多いだろう。実際、データからあらかじめ平均値が差し引かれていれば(中心化)、分散最大化は最小二乗法(回帰分析) と一致する。すなわち、主成分軸と回帰直線が一致する。
　> (利点) 多次元のデータであっても2次元に縮約し、平面にプロットすることが可能になる。

　うーん。あくまで“平面”の回帰式（紙や黒板に手で描けるやつ！）をベースラインとして学習ならびに指導なさるんですか。ふーん。ほー。へー…

※主成分分析というのは最初から行列（ベクトル）を操作するテクニックであるという理解でした！回帰式（紙や黒板に手で描けるやつ！）まで立ち返って説明されるとは思いもよりませんでしたっ！！（棒読み）

　現在の水準でわたしたち、最初から多変量でいきましょう。このとき、（教科書やジャーナルに白黒で印刷できる図という意味で）“平面”の発想にしばられていると、（4次元以上の）多変量解析というものを過度にむずかしいものだと思ってしまいます。むずかしいと思うからむずかしくなるんですよ。…その発想はなかった！

※「理科室に消ゆ！」というのは本当でしょうか。SSH＝スーパーサイエンスハイスクール事業については[3578]に補足ございます。

　わたしたち、学習上の様々な段階で、それ以上の理解をあきらめるという局面に立たされてまいります。そのときあきらめるのが「多変量（を直感的に扱える）」なのか「回帰式（を手で描ける）」なのかに分かれるとあらば、断然、あきらめるのは後者にしておきなはれよと、こういうわけです。後者ができて前者ができないと（『多変量の時代！』には）致命的なのですよ。（※私見です。）

・IBMの説明です
　https://www.ibm.com/support/knowledgecenter/ja/SSLVMB_22.0.0/com.ibm.spss.statistics.help/spss/base/idh_idd_pls_variables.htm

　> 「偏相関最小二乗法回帰」手続きは、偏相関最小二乗法 (PLS。潜在的構造投影方法 (projection to latent structure) とも呼ばれます) 回帰モデルを推定します。PLS は、通常最小二乗法 (OLS) 回帰、正準相関、構造方程式モデリングに対する代替の予測技術で、予測変数が密接に相関している場合や、予測数がケース数を超えている場合に特に役立ちます。

　ぐふっ（略）『出だしのイントロ！』がアレって、こうですか？わかりませーん。

・もう少し実際的な「PCR」「PLSR」の説明です
　https://jp.mathworks.com/help/stats/examples/partial-least-squares-regression-and-principal-components-regression.html

　> PLSRとPCRは、どちらも、高相関性または共線性のある多数の予測子変数がある場合に、応答変数をモデル化するために使用する手法です。どちらの手法も、オリジナルの予測子変数の線形結合として、成分と呼ばれる新しい予測子変数を作成しますが、それらの成分の作成方法は異なります。PCRは、応答変数を一切考慮することなく、予測子変数での観測された変動を説明する成分を作成します。一方、PLSRは応答変数を考慮するため、少ない数の成分で応答変数を近似できるモデルにつながります。

※応答変数：目的変数（従属変数）。予測子変数：説明変数（独立変数）。

　…なるほどねぇ。（略）PLS回帰の主成分をつくるところって、変数の区別をせずぜんぶほうり込んだ主成分分析みたいなのと思えばいいんですかねぇ。（交差検証：クロスバリデーションのようなものとして）多変量データの一部の変数を目的変数にしたいみたいなときは、そうしないと意味がないですよねぇ。本当でしょうか。

　> 401波長でのガソリンの60標本のスペクトル強度と、オクタン価で構成されるデータセット

　…いきなり読んでも頭に入ってこない文字列ですのう。えー、どれどれ？

　> 401波長でのガソリンの60標本のスペクトル強度と、オクタン価で構成されるデータセット

　ぬおー（略）。いつまでも『あやめ3号！』とかいってないで「401波長でのガソリンの60標本のスペクトル強度と、オクタン価で構成されるデータセット」にしましょうよ。（違）そして、結局「商用製品のヘルプ！」頼みだという…そういうものなんですよね。お客さまがいっぱい！よく鍛えられているってことです。うん。（棒読み）

　> 図を対話形式で回転できないので、わかりにくいかもしれませんが
　> 図を対話形式で回転できないので、わかりにくいかもしれませんが

　この段階では散布図行列で見せるところではないかなぁ。

　> 交差検定による成分数の選択

※MathWorksのひとが書く日本語としては「交差検定」との用語だということです。

　> 交差検定による平均二乗予測誤差 (MSEP) を推定するオプション
　> この場合は、10分割交差検定を使用します。

　> PLSRのMSEP曲線は、2個または3個の成分を使用すると、最大限の効果があることを示しています。一方、PCRで同じ予測精度を実現するには4つの成分が必要になります。

　目的変数1つを除外して主成分分析したみたいな「PCR」で「固有値が1前後まで」みたいな主成分を選ぶと、目的変数1つも含む「PLSR」より1つ多く主成分が必要になるという…あたりまえだという感じがしてきます。その上で、「PLSR」は主成分分析そのものが「（半端なことをする）PCR」より「まとも」だということから、さらに1つ減らしても同じ情報を表現できている（要約できている＝「同じ予測精度」が実現される）らしいとうかがえます。「2個または3個」「4つ」という順番で、しかも平たく説明されてもよくわからないのですが、ここでは「3つ」というのが本質的な次元の数（特に工夫せず、また特におかしなこともしでかしたりしない場合に「順当に」必要となる主成分の数）と思われ、▼「PCR」は半端なことをしたおかげで必要な数が増えちゃうよ、▼「PLSR」はまともなので、状況によってはあと1つ減らせる場合も出てくるんだよ、と、立体的な理解を促されたいとは思われないでしょうか。本当でしょうか。（※あくまで私見です。）

※ここでいう「立体的な理解」：『プラスワン次元！』での理解を、の意。メタリックでベベルなプラスワンと書かれたWordArtみたいなのをぐりぐり回転させながらサーチライトが右へ左へ動いてみせるとＧＯＯＤ！！ …そっちは21世紀フォックスですよぅ。

・いわゆる「プラスワン」のイメージです
　https://www50.atwiki.jp/newsop/pages/138.html
　https://ja.wikipedia.org/wiki/20%E4%B8%96%E7%B4%80%E3%83%95%E3%82%A9%E3%83%83%E3%82%AF%E3%82%B9

　> 20世紀フォックスは21世紀フォックスの傘下となった
　> 20世紀フォックスは21世紀フォックスの傘下となった

　えーっ…。

　> 空中にピラミッドが二つ合わさったもの（正八面体）が現れ、中に入るとタイトルロゴが看板になっていて、スポットライトを浴び、さりげなく飛行船も飛んでいる。
　> 大島ミチル

　> オープニングのみステレオ音声だった。

　それでもステレオ放送の割合とかって番組単位で計上するんですかねぇ。（棒読み）

　> 耳の大きな犬「プラスワンちゃん」がタイトルロゴをくわえてくる。

　> セットを変更する際にはいずれも報道フロアから伝えていた。

　…あたりまえでしょっ。美術さんに徹夜でひとばんで改装を終えろとおっしゃいますかっ。（棒読み）

■表401.60 外的基準の有無と主成分回帰・PLS回帰（※独自に作成）

	主成分回帰（PCR）	PLS回帰（PLSR）

外的基準あり	○	◎
外的基準なし	×	○

※記号はイメージです。…イメージなんですかっ！（棒読み）

　回帰と名が付きさえすれば予測でしょ…うーん。

・日経リサーチ「パス解析」のイメージです
　https://www.nikkei-r.co.jp/glossary/id=1650
　https://www.nikkei-r.co.jp/files/user/images/glossary/1650_01.png

　> 重回帰分析は特定の従属変数の「予測」に関心がある場合に使うことが多い。パス解析は複数の従属変数があり、予測を目的とするというより、因果関係のメカニズムを明らかにしたい場合に使う。マーケティング分野では消費者行動モデルなどで利用された。

　数理的には、この1枚の図で順に説明していけつつ、この図で説明できることだけが各手法の数理的な本質なのだと、こういうわけです。じゃあ（※）PLS回帰はどう説明できるんですかっ。…ギクッ。「PLS回帰の説明として妥当な図を選べ。」みたいな（以下略）うーん。（※恐縮です！）

・後ろから読む日経リサーチ「多変量解析」
　https://www.nikkei-r.co.jp/glossary/id=1643

　> 多変量解析のテキストでは、しばしば外的基準（目的変数）の有無で多変量解析の手法を分類している。この分類法は数理的な観点である。上記では利用目的から分類したので因子分析と主成分分析は要約（次元縮小）の手法として同類としているが、因子分析は外的基準「有」で、主成分分析は「無」である。また多くの手法は数学的には同じ場合さえある。

　> 予測と要約の境界は曖昧になる場合もあり、複数の手法を組み合わせる場合もある。

　> 多変量解析の目的は要約と予測に大別できる。要約とは単純化による理解の容易化である。
　> 要約は分類を最終目的とすることもある。

　> 予測にはしばしば要因分析が伴っている。単に予測できればよい、という場合もあるが、その予測に寄与する変数を探すこと、また寄与の大小から重要な予測変数を知ることで、行動計画を策定することができる。売上を5%増やすためには、何を、どの程度、実施・実現すれば予測値を目標値に達成させられるかを知りたい場面は多い。

※ここから『OR用語』としての『決定木！』を使いさえすればといって主成分分析を置き去りにしていくような早合点が生まれる余地が出てくるのだと、たぶんこういうわけです。やーい、はなのキラキラ★管理工学すたぁずぅ（[1729],[3350]）。いやいやいや！これ、むしろほめてますからっ。

　後ろから読むとわかりますけど、「多変量解析」を見出し語にして、お書きのような順序でお書きになることにはかなり無理があるという印象が出てきましょう。

　「主成分分析＋回帰木」については[3573]に続きます。

この記事のURL　https://neorail.jp/forum/3572/

この記事を参照している記事

[3571]	実例に見る日英対訳（17）「ランダムフォーレスト」に野生はあふれ	2017/12/3
[3575]	研究ホワイトボックス（29）多変量データの全域を考察するには～駅弁の商品構成を例に（後編）	2017/12/3
[3576]	縦書きディープなラーニング（一汁三菜編）	2017/12/3
[3578]	【アンデスメロン】「スーパーサイエンスハイスクール事業の俯瞰と効果の検証」（2015年3月）を遠目に眺める（仮）【最小二乗法】	2017/12/3
[3581]	実例に見る総合評価（4） T工務店：ビル外壁汚れ認知構造のモデル化	2017/12/7
[3582]	10年後に読む「よりよい環境創造のための環境心理調査手法入門」（2000年5月）	2017/12/7
[3583]	JR西日本「データ分析コンテストの開催」を遠目に眺める（談）	2017/12/7
[3651]	【自由研究】ゆるシミュ（7）	2018/6/10
[3668]	【豆汽車】いま問う「正規登城ルートはこちらから小田原城天守閣正面入口」のココロ（談）【かむろ坂下交差点あり】	2018/7/28
[3669]	【自由研究】ゆるシミュ（9）	2018/8/16
[3711]	「色覚多様性」と「ユニバーサルデザイン」	2019/6/4
[3712]	「理由の書き方」／「自分の考えの書き方」／ほか	2019/6/4
[3714]	Re:[3701] 「箱庭」とは何か／ほか	2019/6/4
[3717]	【多摩川越え】「蓄電池」あれば怖くない？（仮）【たまごっちCD-ROMあり】	2019/6/17
[3742]	研究ホワイトボックス（38）数学の自由研究で郵便番号データを使うには	2019/8/1
[3747]	難しい9	2019/8/15
[3896]	研究ホワイトボックス（41）とにかく「R」を使うには	2020/1/27
[4014]	きょうは川端康成で粗灰分。	2020/4/1
[4036]	きょうはA列車で理数探究。	2020/4/1
[4221]	【スーパードライ】啓林館「理数探究」（2020年4月）しゃきしゃき【お酒ではありません】	2020/10/1
[4236]	きょうは三ツ境で三都物語。	2020/10/1
[4293]	子どもがひねり出す謎の『理路』（8）	2020/11/1
[4296]	子どもがひねり出す謎の『理路』（11）	2020/11/1
[4393]	きょうは新座で半ライス。	2021/1/16
[4414]	きょうは水無瀬でぼっしゅーと。	2021/2/1
[4543]	【東口直結】特異値分解とは何か（再）【多様な個性が響き合う】	2021/5/1
[4548]	いわゆるMDSとPCAの違い【t-SNEのBarnes-Hutアルゴリズムあり】	2021/5/13
[4628]	ふれねる「自由研究数学」の忙（BOU）	2021/8/25
[4630]	ふれねる「自由研究数学」の算（COM）	2021/8/25
[4639]	ふれねる「自由研究数学」の位（CRY）	2021/8/25
[4653]	ツールとは何か	2021/11/16
[4825]	きょうは鶉野でオクタン価。	2022/7/1
[4826]	【A9V1】北条鉄道『リアルA列車』は「白雲谷温泉ゆぴか」とともに【九会】	2022/7/1
[4829]	【講談社】青い鳥文庫「お姉ちゃんの語彙力」でビクター「京都から博多まで」から「面影平野」まで（談）【加速度あり】	2022/7/1
[4944]	【ロドリーゴ】ずずいと熊さん（仮）【香港のセブンイレブンあり】	2022/12/1
[4969]	研究ホワイトボックス（49）とにかく「主成分分析つき回帰木」するには	2023/1/1
[5240]	実例に見る総合評価（5） N県立高：理数探究基礎の5段階評価	2024/5/31

【自由研究】の話題