・【CART法】回帰木(パーティション)とは ・きわめて限られたデータだけで「rpart」する(だが多変量だ) ・「いわゆるマルチコ」とはにわ的な何か(談) ・多変量データを多変量のまま考察しきるには ・「R with Excel」より「rpart」「rpart.plot」 ・表8.1 本分析で使用する関数(※表8との差分です) ・表0.11 「rpart」による回帰木(V1をV1以外で説明) ・表0.12 第1主成分を目的変数、第2・第3主成分を説明変数とする「rpart」 ・表0.13 第1主成分を目的変数、第2〜第7主成分を説明変数とする「rpart」
(約21000字)
前編([3573])、中編([3574])からの続きです。
★【CART法】回帰木(パーティション)とは
前編([3573])で、もともと用意した「本質的」と思われる7変量(以下、「生の多変量データ」)のままk-meansしても、よくわからないクラスタリングしかできませんでしたが、中編([3574])で主成分分析することで、この7変量の相関関係を詳細かつ定量的に考察することが可能となることがわかりました。
わたしたち(お客さまとしても、KY軒で新商品にゴーサインを出すひととしても)は、主成分分析を使って意思決定をしているわけではありません。しかし、その選択の背後には、「本質的」と考えられた7変量のような多変量データが潜んでいるのです。わたしたちはどうやって多変量データを簡単に扱っている(もしくは扱えたつもりになりながら実は大きく見落としている?)のでしょうか。
同じ多変量データを、わたしたちの意思決定のしかたに近い分析方法で見ると、どうなるでしょうか。そこで「rpart」でございます。ハレでも(ざーざー)アメでも(ごろごろ)アラシでも(ぴよぴよぴよ)うぃーあーざあーるういずえくせらー…ズ(ぱらぼーら)「R with Excel」…ささっ。(隣の部屋で効果音「どんがらがっしゃーん」を再生してもらうための目くばせをしながらいうとGOOD!!)
■「R with Excel」より「rpart」「rpart.plot」ライブラリを読み込みます | library(rpart) library(rpart.plot) | rpartを実行する | myrpart301 <- rpart(V1~., mydata30, minsplit = 3) # データフレーム「mydata30」のうち、 # V1を目的変数(従属変数)、 # それ以外を説明変数とする回帰です # 変数名を定義していない(ヘッダーがない)場合です | rpartの実行結果を rpart.plotでプロットする | rpart.plot(myrpart301, type = 2, uniform = TRUE, extra = 1, under = 1, faclen = 0) # プロットされた図を右クリックしてコピーや保存をします | RからExcelに rpartによる分割結果の表をコピーする | write.table(myrpart301$where, file="clipboard", sep="\t") | rpartによる分割結果で色分けした 多変量相関図(散布図行列)を描く | library(mclust) clPairs(mydata30, cl=myrpart301$where) |
※rpart(recursive partitioning and regression trees):再帰的な分割と回帰の木。以下、そのまま「rpart」と呼んでいきます。
■表8.1 本分析で使用する関数(※表8との差分です)関数名 | パッケージ | 説明 | 入力(引数) | 出力 | | | | | | prcomp | stats (標準) | 主成分分析を実行する | ・分析するデータフレーム名(行列) | ・固有値の平方根 ・固有ベクトル | | | | | | rpart | rpart | CART法による回帰を実行する | ・式 (※目的変数yと説明変数xを式で指定する) ・分析するデータフレーム名(行列) ・木の分割に関するオプション | ・(rpartの実行結果) | rpart.plot | rpart.plot | 回帰木を描く | ・rpartの実行結果を格納したデータフレーム名 ・表示方法に関するオプション | ・回帰木(グラフィック) |
・「prcomp」
https://www.rdocumentation.org/packages/stats/versions/3.4.1/topics/prcomp
・「rpart」
https://www.rdocumentation.org/packages/rpart/versions/4.1-11/topics/rpart
> References
> Breiman L., Friedman J. H., Olshen R. A., and Stone, C. J. (1984) Classification and Regression Trees. Wadsworth.
・「PCAの異なる実装法」の説明例です
http://www.ism.ac.jp/editsec/toukei/pdf/62-2-185.pdf
> 本稿で述べたポテンシャルエネルギー項を用いたPCAやFPCAを推定するためのPCA(付録B)では数万以上の変数となり共分散行列の対角化を行うことが困難であることが多い.ここでは共分散行列の対角化を用いないPCAの実装法について簡単に述べる.
> 統計解析ソフトのRではprcomp関数は中心化データ行列のSVD,princomp関数は共分散行列の対角化によりPCAを実行している(R Core Team, 2013)
※SVD:特異値分解。対角化:うわぁ「数学C」とかで出てきそうなやつ!
あくまでことばだけで理解する限りは、(対角化を用いない)prcomp関数にほうり込めば支障がないと読まれます。
・[3572]
> 主成分分析というのは最初から行列(ベクトル)を操作するテクニックであるという理解でした! 回帰式(紙や黒板に手で描けるやつ!)まで立ち返って説明されるとは思いもよりませんでしたっ!!(棒読み)
※主成分分析ではなくPageRankだったかもですが、最初からSVDのアルゴリズムみたいなのを見せられてどやぁみたいな勉強をしたようなしなかったような(もう忘れかけているんですけど)ということから、行列を操作する意味は対角化だけど計算機ではいきなりSVDだよねという理解から始まっていました、ということをいっています。
・呼ばれましては啓林館であります
https://www.shinko-keirin.co.jp/keirinkan/topics/2011/data/math_keitouhyo.pdf
※「数学C」が…ないっ! ナントイウコトデショー…「対角化」もないよっ。
・…SVD! SVD!
https://ja.wikipedia.org/wiki/SVD
・[3526]
> 「R」において「データフレーム名」は必ずつけなければいけません(省略できません)が、「列名(ヘッダー)」と「要素の名前」は省略できます。ここでは、これを積極的に活かし、原則として「データフレーム名」のみを命名することにしましょう。
> 「列」と「要素」が無名の場合、これらは▼数字で指定し、▼数字で表示されることになります。
(初歩のチュートリアルとして)打鍵数を少しでも減らし、分析や処理の最中に変数名など見ないようにしよう!(テキストを見ながらタイプする文字列の、どれが関数名でどれがそうじゃないのか一目瞭然にしておこう!)…そのような目的で無名にすると、「rpart」を使う時に目的変数や説明変数をどう指定したらよいのかというところで戸惑うわけですが、そのまま「V1」とか「V2」とか書けばいいだけなんですよ。…その発想はなかった!(※列名などを積極的に無名にして扱おうという教科書はあまり見かけません。)
・「An Introduction to Recursive Partitioning Using the RPART Routines」(2017年3月12日)
http://www.math.u-bordeaux.fr/~mchave100p/wordpress/wp-content/uploads/2013/10/longintro.pdf
https://goo.gl/maps/FvSGk6fYY8r
> the rpart routines, which implement many of the ideas found in the CART (Classification and Regression Trees) book and programs of Breiman, Friedman, Olshen and Stone
※CART(Classification and Regression Trees):分類と回帰の木。
URLに反してPDF内に書いてある日付はずいぶん新しいようですよ。ほぉお!(略)そして「rpart」はあくまで「recursive partitioning and regression trees」なんです。好き勝手に「決定木」などと決めつけて『呼びくだし!』たりしないことです。いいですね?(棒読み)
・「決定木」は『数学用語』じゃなくて『OR用語』だよね
https://en.wikipedia.org/wiki/Decision_tree
> A decision tree is a decision support tool that uses a tree-like graph or model of decisions
> Decision trees are commonly used in operations research
・[3563]
> 授業は日本語でいいんですけど、数学用語はすべて英語表記を確かめながら学びたいですよね
・[3567]
> さあさあ手法を説明するために、手法の名前でなく『数学用語!』だけを使ひたまへよキミたち…エー!!(※教室にひびく絶叫はイメージです。わあぃケテスタ。さあさあ「エ」によじのぼって「ー」を使って高い木にひっかかったボールを取ってあげるのですよ。)
・かみつたセンセイ「CART」
http://ibisforest.org/index.php?CART
> 分割統治アルゴリズムで,各ノードで分割する属性を木全体の Gini index の減少を最大にするという規準で選ぶ.
・ヒューリンクスの説明ですが使うのはRですみませんみたいな(略)
https://www.hulinks.co.jp/support/cart/whitepaper.html
https://www.hulinks.co.jp/corporate/history
> 交差検証法を使用するCARTは小さなデータセットでも、2進木分析を行うことができるのです。
> CARTは全 (学習用) データを使って最大樹木を成長させます。次に、このツリーを剪定します。
今回の狙いおよびデータに対して過不足なさそうだとの感触を得てみます。(※あくまで感触です。)
> CARTとステップワイズ・ロジスティック回帰分析あるいは判別分析を比べたとき、学習用サンプルに関してはCARTは遙かによい結論を導き出してくれます。
> CARTは十分に強力です。CARTはたった1日、2日で、専門家が何日もかかって構築したモデルの若干予測精度の劣る程度のモデルを、自動的に作り上げてくれるのですから。
> CARTは、すべての変数に関して可能な分岐をすべてチェックします。たとえば19の変数をもった215サンプルのデータセットで考えてみましょう。CARTは、最大で19変数×215サンプル=4085回の分岐を試みます。
「たった1日、2日で」のありがたみがピンと来ないかもですが、これはたいへんなことですぞ!(棒読み)わたしたち、いまは7変数×18サンプルなので126回で済むということですが(※総当たりの「貪欲法!」だということですね)、仮に512変数の文書ベクトルみたいなので1000万件ほどの文書(※)があるみたいな…げふ…タイムカードを押してから次に押すまでという意味での「1日」で終わるとうれしいよね。「1日」って、妙に長いなぁ。(棒読み)
※企業内文書のシソーラスを専門家が手作業でつくるくらいの規模をイメージしています。
> データセットの分析方針を決める前に、とにかくCARTを試してみて下さい。これは決して誇張ではありません。CARTは非常に有用な結果を導き出してくれるでしょう。
…すみしょーっ!! 日本語だけど英語で説得されているような気がするよ。(※日本語です!)
> あなたのゴルフボールがカップから1インチのところにある場合は、どのクラブを使おうが重要ではありません。何を使おうがボールは簡単にホールに入れられるでしょう。
こつん…からん。1インチは2.54cmです。(「ふっふーん! これを外すなんて××もいいところだわ」といいながらおっかなびっくり延々いつまでも目測ばかりし続けてみせるとGOOD!! …おっと、向かい風だっ。)
> 2進再帰分割のための最もよく知られているルールは、GINI、Twoing およびエントロピーです。各々が異なるスタイルのツリーを育てるとともに、異なる哲学を表わしています。
“対数的”な分布(所得の分布みたいな分布)を想定するならジニ係数。これだね。(※あくまで早合点です。)
※「Twoing」は「はんぶんこ」みたいなのだという早合点のほうなど…えーっ。そもそも「2分木!」しようとしているので(分布の山を)「ハラキリ!」みたいに分けるんですけれども、そのときなるべくぴったりまん中で分けようと…そっちのほうが大きいよッ!!(※「はんぶんこ」でけんかするひとのイメージです。)
> 乗用車の好みをさぐるこの例
> Twoing分岐ルールをを使った2回目は、相対誤差0.876で50ノードのツリーが成長しました。
「回帰木」(「決定木」)ということばのイメージから、(分岐に意味のある限りぜんぶ)可視化するものだと(一般に)思いこまれているかもしれませんが、いいえ。このあとさらに活用していくためのデータとしての「木」なんです。いくらでも大きくなったり複雑になったりしてよいのですよ。(※蛇足ではございました。)
・「CART®」のイメージです
https://www.hulinks.co.jp/software/datamining/cart
> ヒューリンクスの CART (カート)
「CART」は「カート」と読むことがわかります。
> CARTはKDDCup 2000 web-mining competitionで優勝した際に使用された主なツールで、また現在メジャーなWeb運用で使用されています。
> メジャーなWeb運用
> メジャーなWeb運用
どこですかっ…気になります!(棒読み)
・「Statistical Learning from a Regression Perspective」より「Classification and Regression Trees (CART)」(2008年)
https://link.springer.com/chapter/10.1007/978-0-387-77501-2_3
商用製品としての「CART®」は、GUI(や、大規模な実運用でのサポートつき)としてのソレがアレでナニ(略)げふ(さらに略)Rで「rpart」を使うことに法的問題はないんですよね。本当ですよねっ…だれに聞けばいいのかもわからないとはこのことだよ。(※Rのパッケージが「CART」と名乗ることは認められないという理解です。「商標を削除したCentOS!」みたいなものですよ…と理解していいんですよねっ。じゃあ(※)Rの「rpart」を使って書いた論文に「これはCART法だ」と書いていいんですかっ。…えーっ!!)
・スーパーえむジンせんせい「ツリーモデル(木)」
https://www1.doshisha.ac.jp/~mjin/R/Chap_19/19.html
木っ! 漢字1文字で木ーっ…すがすがしいとはこのことだよ。(あざとく深呼吸するふりをしてみせながら言うとGOOD!!)
> 関数 rpart は木を成長させると同時に、交差確認法の結果も計算する。関数 printcp でその結果を返すことができる。また関数 plotcp は、複雑パラメター cp (complexity parameter) と木の深さの関係をグラフで示す。
> cp=0
> #最大木を作成
(「複雑度」を扱いたいと思い立ったかたがググって「rpart」を見つけてやっほー的な意味で)rpartだけで「複雑度」を云々するのも心配になってきます(≒rpartという方法なので複雑になってしまうだけで多変量データとしてはこんなものだみたいなこともあるのではないかと疑う、の意。)。本当でしょうか。
★きわめて限られたデータだけで「rpart」する(だが多変量だ)
・「rpart」のイメージです
https://neorail.jp/forum/uploads/rpart_v1_by_v2-7_n18p7_bento.png
V2からV7までの6変量によってV1を説明させた回帰木です。
■表0.11 「rpart」による回帰木(V1をV1以外で説明)分類 | 丼A 丼B | 弁当B 弁当H 弁当I | 弁当C 弁当D 季節弁当A 季節弁当B 季節弁当C | 弁当A | 弁当F 弁当G ピラフ類A ピラフ類B ピラフ類C ピラフ類D | 弁当E | V1(平均) | 0 | 0.63 | 0.93 | 1.4 | 1.3 | 2.1 | | | | | | | | V3 | 容器の面積が 169cm2未満 | 容器の面積が 169cm2以上 | | | | | V4 | | 内容(品数)が 8.5以上 | | | 内容(品数)が 8.5未満 | | V7 | | シウマイ率(エネルギー比)が 0.096未満 | シウマイ率(エネルギー比)が 0.096以上 | | | | V6 | | | シウマイ(個数)が 4未満 | シウマイ(個数)が 4以上 | | | V2 | | | | | 容器の容積が 709cm3以上 | 容器の容積が 709cm3未満 |
たまたまV1といって先頭の列にあったのでアレですが(…たまたまですよ!)、相関行列をみて、いちばん独立しているっぽい(※相関係数の絶対値の最大が最も小さい)変量を選ぶとV1になります。そのV1を、ものどもかかれっ…いえ、V1以外の6変量でよってたかって…説明しよう!(※6変量がいかなる閾値で分割できて、その結果、V1のような違いが出てくるのかを「筋道を立てて」説明する、の意。)
※『数量化X類!』([3469],[3500])をぜんぶまとめたみたいなの!
「丼A」「丼B」の特徴は際立っているわけですが、実際にはさらに、丼だけ「冷蔵」だという…決定打的なかきーん!(※※)…ぐふっ。
※▼牛乳パックですけど「『変形』で容積が増えますにょ!」については[3160]、それに▼なんと「「誕生日」を「r」と「θ」で表わそう」からの▼鳥の卵「ハンド・ウイング指数」については[3543]を参照。現象や事象のメカニズムに迫るデータ表現をしないと、まっとうな分析はできませぬぞ。んだんだ。(※私見です。)ここで急に不安になるのが円の面積の公式なんですけど@ちゃんと知ってるよ! 「2πr」だよねっ。(違いますってば!! そして、ちゃんと正しい円の面積を入力していたと確かめました。暗記に頼っていいのは中学生までだよね。覚えきれないほどたくさんのことを扱うようになったら、暗記しようとしちゃだめなんだよね。うん。)
※※仕出し弁当を遠くまで運ぶための冷蔵便の空きを使うためですとか、実はだまって(KY軒の名前は出ずに)コンビニやスーパー向けのチルド弁当としての中華丼のほうなど製造なさっておられるのではないかとか…げふ…そういうことっぽいので容器も(KY軒の「商品ラインナップ」の中に並べると)特徴があるんですよ。うん。(棒読み)
・遠くまで「かきーん」とはにわスターズ(仮)
https://kotobank.jp/word/%E3%82%AF%E3%83%AA%E3%83%BC%E3%83%B3%E3%83%92%E3%83%83%E3%83%88-486039
・関西低温「ルート便」のイメージです
http://www.kansaiteion.jp/work2.html
http://www.kansaiteion.jp/img/work1/work2_10.png
> 計画配車によって無駄のない積載量に努め、時間のロスを無くし商品が安心してご指定の場所へ届けられます。
> 毎日決まった場所(オフィスや店舗)へ配送したい!
> 企業のサービスを拠点に数十カ所に荷物を届ける場合など大変便利です。
なお、実際の店頭(売店)で18種類ぜんぶが並んでいるわけではありませんので、この18種類ぜんぶを並べたてまつる「回帰木」は何を表現しているのかといって、うーん。
・お客さまの商品選択のシーンを模しているわけではありません
・工場などで常に発生し続けている事象などをモデル化したものではありません
KY軒が商品構成を考えるときの、バリエーションともいう「バリアシオン」の拡げかたとでもいいましょうか、しかも(商品が考案・発売された)年代として幅のある「地層」みたいなの(の境目をなぞっていくような)を模していることになるんだと思います。(※恐縮です。昔の特急や新幹線は、利用客の属性が非常に偏っていたんですよ。わあぃ均等法っ。…えっ、それ統計の何かですかっ? いや〜統計といえば統計かもだけど均等法だよっ…みたいなのー。)
先述の通り、わたしたち売店の「ショーウインドー」に顔と手をむにゃーっとくっつけ…じゃなくて、『指で指さして!』これくださいのほうなど(中略)「V1」すなわち「容器の縦横比(販売時)」そのものを見て(頭の中で縦横比を計算してあるいは縦横比というものを直感で感じ取れる器官などを有して)いるわけではありませんが、端的には「V1」すなわち「容器の縦横比(販売時)」で表現しうる、容器の外装(いわゆるデザイン)を見て、弁当を選んでいるわけです。KY軒の「商品ラインナップ」上、特徴のある商品であるといえそうな「弁当A」「弁当E」「丼A」「丼B」は、きちんと「V1」すなわち「容器の縦横比(販売時)」だけで判別できるように、そのような外装にされているのだろうと推察しようかという、たぶんこういうわけです。
・(参考)「データ表現」と「自然科学」のイメージです
http://www.ns.kogakuin.ac.jp/~ft13389/lecture/arukikata/main_arukikata.pdf
> 自然をよく観察するということは、自然科学の研究を進める上で非常に重要なことである。さらに、観察をした結果を数値的に表現することが出来ると、そこに数学という一般的な道具を持ち込めることになる。
> 現象を言葉として表現した上で、そこから何らかの関連性を見つけていくという方法が取られるが、一方で、いかに数値化して定量的に物事を表すか、という方向性も重要になる。
> 「木を見て森を見ない」という言葉があるが、自然の全体が大きな「森」だとすれば、それぞれの実験データの一つ一つというのは、その森を構成する「木」である。実験データは、「ある値に対して、別の値がどうなるか」という個々の事情を教えてくれるが、単にその一つを見ていても、「結局それらの量の間の関係は何か」ということは教えてくれない。
きわめて文字通りにのみ受け止めて「じゃあ(※)木を使ってる論文は見なかったことにすればいいんですね、わかります」みたいな…それもなんだかなぁ。やーい、らー・んー・だー・むー・ふぉー・おー・れー・すー・とーっ(字余り)。
・きわめて文字通りに「均等法 統計」の検索結果です
http://www.mhlw.go.jp/toukei/list/71-23.html
(「家庭科室」の整備の進捗やエポックメイキングな食品の発売などによって)食習慣ががらっと変わった「断層」みたいなのを挟んでいると、必ずしも性別だけによるのでなく、お客さまの(大勢としての)弁当の好み(すなわち「売れ筋」)も大きく変わろうかと、こういうわけです。だからといって、これまでの「商品ラインナップ」を『廃番!』にできるとは限らず、それなりには商品構成は「増える一方」「複雑化する一方」であっただろうといってですね(略)あえて古風な「弁当E」を喜んでみせるのもアリです!(棒読み)
・[3571]
> うわぁ「ヘヴィなんだよね」(エコーはいりまーす)からの「ブリは照り焼きに限るのよぉっ!!」(エコーはいりまーす)みたいなのそのものだよね。(棒読み)「有意義な時間」などという便利でおトクな決まり文句とも呼ばれる常套句があるから発話されるだけであって、その意味なんて、あまり考えていないんだよね(エコーはいりまーす)。モスバーガー1号店(だった場所)の前でひとしきりぼーぜんとしてみせてからのJVCと書かれたヘヴィなビデオカメラ([3393])を回しながら後ずさり(中略)「(じぶんでいう)きずついた!!」も流行語でしたなぁ。(棒読み)あまつさえカラオケが流行ったんじゃなくてエコーが流行ったんだよね。歌いたいんじゃなくてエコーしたいんだよね。…その発想はなかった!(扇風機にむかってワレワレハー!!)
・[3393]
> この映画がはやるまで、「フュ」だの「フィ」だのという発音は珍しく、『フイルム』と発音しても間違いだとも恥ずかしいとも思われていなかったやの錯覚にございます。
★「いわゆるマルチコ」とはにわ的な何か(談)
『マルチコ』などと略して呼ぶことを間違いだとも恥ずかしいとも…いえ、主成分分析によって、元の多変量データ(行列)はどのように変換されたのでしょうか。その答えはこちらっ!(早っ。)
・(たぶん本邦初)動く!「主成分分析びふぉーあたふたー」のイメージです
https://neorail.jp/forum/uploads/raw2pca_n18p7_bento_cl_rpart.gif
いわゆる『マルチコ!』(およびその解消)とはこういうことだよ。これでもう「多重共線性など」などとごにょっと書かなくて済むよね。んだんだ。(棒読み)
※7×7というマス目の数が同じですけど、「びふぉー」と「あたふたー」との間で、マス目の使いかたは7×7の全体でまったくすっかり変わっていますので、あしからず。…まさに「びふぉーあたふたー」とはこのことだよ&わざわざ張った2階の床板を切断するよう指示(中略)水回りが2階だよっ!(棒読み)
▼(1)生の多変量データと、▼(2)主成分分析で得られた主成分得点の行列(ぜんぶ)を、▼いずれも第1主成分を目的変数、第2〜第7主成分を説明変数とする(=後述)「rpart」で得られた分割の結果で色分けしてアニメーションしています。
各点(各弁当)の色分けは同じ(※)ですから、行列(多変量データの点)の変化(※回転)のようすだけを観察することができましょう。なるほど暗号化とか無線LANとかみたいなアレですよね、わかります。
※足元の乗車位置…じゃなくて、青色の△印は「丼A・丼B」(縦横比0、面積最小、シウマイ0)、赤色の○印は「弁当E」(こーん!)、水色の×印は「ピラフ類B・ピラフ類C」、それに緑色の米印は「弁当I」(1,280円)です。さあさあ旅の思い出の釜めしの釜は洗って何度でも使うのですよ…じゃなくて、この飾り見覚えありませんかからの客間の欄間だーみたいなのー。問いかけないと気づいてもらえないなんて…うっうっ。(棒読み)
・違う意味で「動く!」のイメージです
http://cdn-ak.f.st-hatena.com/images/fotolife/n/n_shuyo/20100527/20100527113734.gif
https://qiita-image-store.s3.amazonaws.com/0/54587/f613e8b6-4a4d-a9c5-3fa2-d6f962e5b724.gif
・群馬県内などで「おぎのや」ほかを展開する「株式会社荻野屋(おぎのやグループ)」の見解です
http://oginoya.co.jp/oginoya02/tougenokamameshi/lunch/how_to_boil.html
http://www.oginoya.co.jp/oginoya02/company/history.html
> 長野行き新幹線開通高崎・軽井沢間にて釜めし車内販売開始(日本レストランエンタープライズさん通し)
> 日本レストランエンタープライズさん通し
> 日本レストランエンタープライズさん通し
…さん通し!! 歴史的なダイヤ改正の期日とかみたいだよね。(違)なお、NREは日本レストランエンタプライズです。
・アスキーさん通し(!)でアレですけど「暗号化とか無線LANとかみたいなアレ」のイメージです
http://ascii.jp/elem/000/000/462/462448/zu_04_588x.jpg
主成分分析で「無相関」というのもこういうことだよ。この一様な散らばりっぷりをごらんなさいな…からの、ここで「V1(PC1)」と「V2(PC2)」の散布図1枚だけを見て「わかったつもりだもん!(えっへん)」しちゃうのがMDS([3469],[3566],[3567])なんだと、こういうわけです。その散布図1枚でじゅうぶんなのかどうかは、まったくデータしだいであるので、分析する前から「MDSを使うー!」などと宣言しちゃうことがいかにダメなことか、すとーんとすとすとまいる、いただけましたでしょうかっ。(棒読み)
・「平成3年10月4日」に発売されたゲームソフトでございます(※本文とはまったく関係ございません)
https://ja.wikipedia.org/wiki/%E8%B6%85%E9%AD%94%E7%95%8C%E6%9D%91
> 『大魔界村』(1988年)の続編
> 『超魔界村』(ちょうまかいむら、英名:Super Ghouls'n Ghosts)
> 『ファミリーコンピュータMagazine』の読者投票による「ゲーム通信簿」での評価
項目 | キャラクタ | 音楽 | 操作性 | 熱中度 | お買得度 | オリジナリティ | 総合 | 得点 | 4.08 | 4.21 | 3.77 | 4.22 | 3.66 | 3.76 | 23.69 |
…うーん。(大巾に中略)…うーん! あえていおう! なにもいわないでおこうと!!(棒読み)『準新作!』…いえいえいえ! 『新発売!』のゲームソフトに向かってのうのうと「『お買得度』が高い!」などとですね(略)いくら「続編」とはいえがんばったクリエイター陣、がっくりですぞ。(※あくまで想像です。)つまり、「お買得度」は2.5〜3前後になるのがよいのであって(=適正価格だと思われたということであって)、「総合」としても、「お買得度」についてはそのような操作をしてから算入すべきではないかなぁ。(※しけん=試みの私見です。)
※徳間書店「ゲーム通信簿」については[3402]を参照。
・「適正価格」とはにわ
http://nlab.itmedia.co.jp/nl/articles/1709/08/news012.html
> 弊社の「大豆イソフラボン子大豆もやし」は、電子レンジ対応パックを採用しており、袋のままチンして食べられるような仕様になっています。電子レンジ調理で時短になるだけでなく、栄養を一番逃がさず、健康的に食べることができます。このような調理面の工夫も必要になってくるでしょう。
…コレハスゴイ。
・認定1号2号!(※ミカンとともに)「大豆イソフラボン子大豆もやし福尾」のイメージです(※「大豆イソフラボン子大豆もやし福尾」はファイル名です)
http://www.saladcosmo.co.jp/blog/wp-content/uploads/2015/07/%E5%A4%A7%E8%B1%86%E3%82%A4%E3%82%BD%E3%83%95%E3%83%A9%E3%83%9C%E3%83%B3%E5%AD%90%E5%A4%A7%E8%B1%86%E3%82%82%E3%82%84%E3%81%97%E7%A6%8F%E5%B0%BE.jpg
http://www.saladcosmo.co.jp/blog/wp-content/uploads/2015/07/-%E5%AD%90%E5%A4%A7%E8%B1%86200g-9%E3%83%BC%EF%BD%93%EF%BD%831-e1441760756132.jpg
工場で(=自動の機械で&環境を完全にコントロールして)生産されるので各成分の含有量の「ばらつき」(※分散)が少ないので云々、という新聞記事なども目に入ります。えー、どれどれ?(以下略)サンマーメンについては[3472]を参照。
・[3472]
> わあぃサンマーメンっ! さあさあもやしは速いのでいっぱい食べておくんな! …お、おぅ。まだ食べ終わってないんかね? えーっ、これから食べるんですけど!(※演出です。)
★多変量データを多変量のまま考察しきるには
・Google ストリートビューです(※本文とは無関係です)
https://goo.gl/maps/MC87adE6uM82
https://goo.gl/maps/bqncu7i8GyN2
https://goo.gl/maps/x3oFNhz3FBC2
https://goo.gl/maps/akCys3uq2mw
https://goo.gl/maps/nK8SuZjwcF42
ここで本日のテーマをもう一度…おっと、どこへやったっけ。(われわれ屋形船みたいなのでどんぶらこのほうなどされながらせんこくしょうちのすけ…じゃなくて、すっかり夕刻、寒そうな顔で「テーマが書かれた紙きれ!」をあざとくあたふた探してみせるとGOOD!!)
・『多変量データの全域を考察するには』
・『多変量データの全域を考察するには』
第1主成分と第2主成分だけの平面でプロットしてわかったつもりになろうというMDSでは、(データしだいで)大巾に情報を捨ててしまうことになるような多変量データもあるのだという注意点が見えてきたところでした。
また、「主成分分析=イコール=次元削減の方法でしょ★ちゃんと知ってるよ」との早合点では不十分であり、主成分分析によって行列がどのように「回転」されるのかということを、ポヤンと直感的にイメージしつつ、そのようにして「無相関」になった行列(多重共線性が解消された行列)を使って、多変量データの全域を考察することが…できそうな気がしてきますよね。
MDSより1次元(1変量)多い(※)という意味で、第1主成分、第2主成分、第3主成分の3変量(3次元)を使った「rpart」(による回帰木のプロット)も見てみましょう。(※第1主成分を目的変数、第2・第3主成分を説明変数とする回帰です。)
※あくまで「ヴィジュアルに可視化!」しようといって3DCGでぐりぐりして見せるなどの…3次元(3変量)までしか扱えないなんて、とんでもない! もし3DCGで表現するとしても、(多次元空間上の回帰木の線や構造は)「メンガーのスポンジ」([3460])みたいなことになると思うんでぇ…それを先にわかっていたら3DCGにしようなどと考えるはずもないよね。んだんだ。(※見解です。)「グラフィカルに可視化」については[3403],[3542]も参照。
・第1主成分を目的変数、第2・第3主成分を説明変数とする「rpart」のイメージです
https://neorail.jp/forum/uploads/rpart_pc1_by_pc2-3_n18p7_bento.png
■表0.12 第1主成分を目的変数、第2・第3主成分を説明変数とする「rpart」弁当C 弁当D 季節弁当A 季節弁当B | 弁当A | 季節弁当C ピラフ類A ピラフ類D | ピラフ類B ピラフ類C | 弁当F 弁当G 弁当H | 弁当E | 弁当B 弁当I | 丼A 丼B |
大まかなところは確かな感じ(「弁当A」「弁当E」「丼A・丼B」を見分けている感じ)ですが、それ以外の部分が本当にこういうグループ(パーティション)でいいのか、不安になってくるような分割だと感じられましょう。(※個人の感想です。)主成分分析で得られる主成分(得点の行列)は、ぜんぶ使ってやっと、元のデータを再現できるのです。そこを「固有値の大きいほうから「つまみ食い」!」などと…データによってはとんでもないことでもありうるのだと思いたいと思えてきます。(※見解です。)
・第1主成分を目的変数、第2〜第7主成分を説明変数とする「rpart」のイメージです
https://neorail.jp/forum/uploads/rpart_pc1_by_pc2-7_n18p7_bento.png
■表0.13 第1主成分を目的変数、第2〜第7主成分を説明変数とする「rpart」弁当B 季節弁当A 季節弁当B | 弁当A 弁当C 弁当D | ピラフ類A ピラフ類D | 季節弁当C | 弁当F 弁当H ピラフ類C | 弁当G ピラフ類B | 弁当E | 弁当I | 丼A 丼B |
「弁当A」が「弁当C」「弁当D」と同じパーティションに入りました。しかし、第4主成分、それに第5主成分は使われないんですねぇ。ふーん。ほー。へー…
※これってウォード法を使った階層的クラスタリング([3525])と同じじゃん…同じ(※※)ですっ。でも、手順と中身を「ホワイトボックス」したかったので、主成分分析(行列の固有値分解)と回帰木(多次元空間での階段型回帰)に分けて実行しましたみたいな状態です。あしからず。
※※かなり「おおらかな気持ちで」、の意。
「PLS回帰」については[3572]に戻って参照いただきつつ、ここでKY軒の「商品ラインナップ」の多変量データ(7変量×18サンプル)を主成分分析してから「rpart」(回帰木)にかけたといって、これは結局、何をしていることになるのかというと、「自己相関」(「自己共分散」)みたいなことを、時間方向ではなく次元方向(?)でしているような感じかなぁなどと(以下略)あしからず。
・「自己共分散」のイメージです
https://ja.wikipedia.org/wiki/%E8%87%AA%E5%B7%B1%E5%85%B1%E5%88%86%E6%95%A3
> 自己共分散(英: Autocovariance)とは、統計学における確率過程での、自分自身の時間をずらしたバージョンとの共分散である。
※「価格」など外部的な指標を目的変数に…うーん。そんなことがしたかったわけではなかったと思ったのですよ。もっとも、上掲の通りCART法じたいが「交差検証法」するのでアレなんですけど(=どのように「アレ」なのかも説明できないんですけど)、の意。(きわめて恐縮です。)
第1主成分とはにわ! といって、その実、「みんな、だいたいこんな感じだよね成分!」(大域的な特徴みたいなの⇒そうでなければ固有値が1を大きく超えるはずもないよね)なんですよ。…その発想はなかった! 確かに第1主成分と第2主成分で平面にすれば「よく広がって」見える、そのための引き伸ばし成分みたいな(※言語学でいう「内容語的」な際立った特徴(意味)を表すのでなく、一種「機能語的」(=くっつけはっつけ! のりとハサミをもてーい!)な)ソレ(合成変数)になっているということなんですよ。…たぶん。
・ハサミは不要です!「はっつく」きざみのりのイメージです(※本文とは無関係です)
https://images-na.ssl-images-amazon.com/images/I/81SVwNEDquL._SL1500_.jpg
…コレジャナイ。
・「内容語」「機能語」
https://kotobank.jp/word/%E5%86%85%E5%AE%B9%E8%AA%9E-345484
https://kotobank.jp/word/%E6%A9%9F%E8%83%BD%E8%AA%9E-475213
逆に、KY軒の「商品ラインナップ」でいう第7主成分(※「第7主成分は、▼どこにでもあるふつうの「弁当C」「弁当D」と、▼KY軒の力作(≒準新作)「季節弁当A」「弁当B」を両端に置いた軸になっているとわかります。」みたいなの)を、かなり使って分割しているようすがわかります。ここで何も考えずMDSしてしまうと、KY軒のひとが熟考を重ねて生まれた商品…のための努力の方向性や考えかたのようなものを反映すると考えられる第7主成分(※「第7主成分は、▼どこにでもあるふつうの「弁当C」「弁当D」と、▼KY軒の力作(≒準新作)「季節弁当A」「弁当B」を両端に置いた軸になっているとわかります。」みたいなの)というものを(※特に、そのようにして第7主成分として一種『析出!』した結晶みたいな、粒は小さくてもキレイなやつを)、まったく無造作に捨ててしまうということになってしまうのだとわかります。(MDSに限らず)多変量データを扱いながら、問答無用で「平面に布置!」しておしまいにしちゃう(古式ゆかしい)分析って、ひどいですねぇ。
・ウィキペディア「結晶」より「液晶」「アモルファス」です
https://ja.wikipedia.org/wiki/%E7%B5%90%E6%99%B6
・[3489]
> わあぃはこねのやまにひとり! 賊が出てもひとり!
・[3574]
> 「ねんどばん」に残った粉みたいなのをぜんぶ集めたみたいなのが第7主成分(固有値が最も小さいソレ)だというイメージではございました。ばんじょー!!
板の上だけに…ぜんぜん違ったんですね。おみそれしましたっ!(消しゴムのかすで消しゴムをつくってみせながらいうとGOOD!!)
・ただし照り焼きに限る…じゃなくて、マクロミルにみる「MDS(多次元尺度構成法)」の説明です
https://www.macromill.com/service/data_analysis/d011.html
> 軸の解釈は、マップを回転し、軸の両端付近にある対象の特徴から意味を推測する方法がよいと思いますが、必ずしも軸に意味があるとは限りません。
はいはーい!!(勢いよく鼻息まじりで挙手して発言を求めながら、あざとく麦わら帽子をかぶってタンスの角に足の小指をぶつけてみせながら言うとGOOD!!)お客さまからの『ご指名!』でMDSを使わねばならないときー…じゃなくて、ここですよね。▼軸の「目盛り」に具体的な意味を見いだして考察を述べるということが必ずしもできなくても、▼両端に何を置いた軸なのか(何と何を引き離そうという距離なのか)というのは一種『絶対的』な考察(=結果を見て自動的に述べることができる考察…いえ、それを考察というのですよ⇒[3528])ですよね。
> 採用する軸の数
> 因子分析のスクリープロットと同様のグラフを書いて軸の数を決めますが、スクリープロットの場合と異なる点は、急激に落ち込んだ次の軸までを採用することにあります。
「採用する軸の数」が3を超えたときに、お客さまにお渡しする資料に『ビジュアルな図1!(図1だけを見れば済むような『図1』!)』を入れようがないなどと…うーん。(※あくまで一般的な想像です。)
・「何と何を引き離そうという距離なのか」のイメージです
https://flets.com/customer/column/483/img/c03_img_01.gif
https://youtu.be/JMxppn6J228
ポップコーンはバターに限るっ。われわれしんみょーに(中略)フライパンをふりふりしながら待つこと2分。…ぽん。あ、ぽん。ぽぽん。…ぽぽぽぽーん。……ぽん。そろそろいいかな。うん。(※ぽんは正規分布に従っています。)
・「おみそれしました」
https://www.weblio.jp/content/%E3%81%8A%E3%81%BF%E3%81%9D%E3%82%8C
・おおらかな気持ちで「Ward法」のイメージです
http://www.risk.tsukuba.ac.jp/pdf/bulletin12.pdf#page=6
・かみつたセンセイ「Ward法」
http://www.kamishima.net/archive/clustering.pdf#page=27
> (19ページ)
> 簡単な更新式が利点であったWPGMAやメジアン法は計算機の発達であまり使われなくなった
その昔、WPGMAやメジアン法を使って書かれた論文を『無効化!(期限切れ)』するとか、新しい方法でやり直しただけでも採録されていくとか、そういうことってあるんでしょうか。(棒読み)さあさあすたぱーん!! われわれ「ぼいど」と書かれたスタンプのほうなど…ふーふーしたら押せるかな。(違)
※インキは油性です。スタンプに息を吹きかけたり、指で触ったりしないでください。
> (27ページ)
> Lance-Williams の更新式で,次の条件下で β を変えるのが可変法
> β を 1 に近づけると空間濃縮が,小さくすると空間拡散が生じる
こういう説明はすがすがしいと思いました。(※感じかたには個人差があります。)
> (43ページ)
> データの概要を把握するために探索的に用いる場合
> 究極的には分析者が納得すればいい
> 元データと矛盾していない結果や,均一なデータを無理矢理分割していないといった,入力データの性質を反映しているかを評価
> (46ページ)
> 最初は基本的な手法でデータの構造を探る
> 様子がつかめてきたら他の手法でより詳細な解析を
> (57ページ)
> ORCLUS (arbitrarily ORiented projected CLUSter generation)
> 次元削減 (特徴変換)を利用するクラスタリング手法
> 固有値分解して,小さな固有値に対応する部分空間を採用
> 主成分分析の逆
『ウォード法と同じ!』というのは無理があるんですけど、だいたいこのへんっぽくないですか?(棒読み)
・シヤチハタ「フォアコート スタンプ台 専用スタンプインキ」ほかのイメージです
https://www.shachihata.co.jp/products/new_item/forcoat/index.php
・スーパーえむジンせんせい「コーフェン行列」
https://www1.doshisha.ac.jp/~mjin/R/Chap_28/28.html
> 階層的クラスター分析では、データから距離の行列を求め、距離の行列を用いて樹形図を描くためのコーフェン行列を求め、コーフェン行列に基づいて樹形図を描くというプロセスを経る。
> このように何らかの方法で求めた距離行列がコーフェン行列である。
> ウォード法は最小分散法 (minimum variance method) とも呼ばれている。
ブラックボックスとしてデンドログラムだけ描いたよ…とんでもない! デンドログラムを描くために使った行列を直接、見るための引数など揃っているということです。むしろ、デンドログラムを表示しきれないような大きなソレについて、あくまで行列のまま云々して(考察して)いければ確かですよね。…その発想はなかった!(…ないからデンドログラムだけ描いておしまいにしちゃうのですよ。)
そのような意味で、多変量データの全域を考察していけるとあらば、可視化できなくてもいいじゃない…いえ、回帰木によって構造を見よう、Ward法でいこう、というのは各々に選び取っていけばいいことだとわかってきます。「(あとにもさきにも)MDSだけ!」「散布図行列を見て印象を述べるだけ!」というのではだめだと、ここまで『順を追って順番に』(略)いまならはっきりわかりますよね。んだんだ。
※あくまで多変量データに親しむための例題ですので、この分析結果を利用しないでください。実在のKY軒とは無関係です。分析手法の組合せは無数にあります。
「ホワイトボックスとは」([3579])に続きます。
|