フォーラム - neorail.jp R16

【自由研究】の話題

 → 茨城県内で必要な「主論文・野帳・掲示物」とは? 【詳細】(2017/10/19) NEW!
 → 【自由研究】の記事一覧(新着順)


【研究ホワイトボックス】

研究を楽しく「追体験」! 真っ白のキャンバスに虹色の未来を描く方法、教えます。
R with Excel prcomp | kmeans・hclust | rpart | ggvoronoi | spantree NEW!


発行:2017/12/3
更新:2018/5/22

[3574]

【研究ホワイトボックス】

研究ホワイトボックス(28) 多変量データの全域を考察するには〜駅弁の商品構成を例に(中編)


主成分分析とは何か【MCAあり】
「主成分得点」「構造ベクトル」を使って考察するには
表0.6 主成分分析の結果(累積寄与率)
表0.7 主成分得点
表0.8 各弁当における主成分得点の絶対値が最大となる主成分
表0.9 各主成分における主成分得点の絶対値が大きい弁当(上位3位)
表0.10 構造ベクトル(主成分と元の変数との相関係数)

(約15000字)

 前編([3573])からの続きです。


★主成分分析とは何か【MCAあり】


 これより主成分分析に入ってまいります。

※このフォーラムで主成分分析をすることになろうとは…うっうっ、の意。

■表0.6 主成分分析の結果(累積寄与率)

PC1PC2PC3PC4PC5PC6PC7
Standard deviation1.8821.2910.9820.8260.3440.1300.090
Proportion of Variance0.5060.2380.1380.0970.0170.0020.001
Cumulative Proportion0.5110.7440.8820.9790.9960.9991.000


・「主成分分析の結果(累積寄与率)」のイメージです
 https://neorail.jp/forum/uploads/pca_n18p7_bento.png

https://neorail.jp/forum/uploads/pca_n18p7_bento.png


・スーパーえむジンせんせい「逆」とは
 http://www.cis.doshisha.ac.jp/mjin/R/24/24.html

 > 主成分分析で求まる主成分および主成分得点の正負の符号は、固有値及び固有ベクトルを求めるときのアルゴリズムが異なると逆になる場合がある。
 > つまり、個体の散布図を描いたときに、異なるアルゴリズムによる結果の上下が逆になったり、左右が逆になったりすることがある。主成分分析で行う分析は、変数間、個体間の絶対的関係ではなく、相対的関係であるため、分析には問題がない。

 いちばん大事なのはここですよね&先に言ってよみたいな(略)メッソウではございました。

 > 分散共分散行列を用いる場合は、一般的には累積寄与率70%〜80%を大まかな目安とし、累積寄与率がこれを超える主成分まで用いて分析をすることが多い。
 > 相関行列を用いた主成分分析の場合は、固有値の値が1前後になる主成分まで用いるのが1つの目安である。

 Rのprcomp関数で出てくる「標準偏差」が「1前後」という見かたでよかったでしょうかからの、その基準でいっても(KY軒の弁当でいう)第3主成分は必ず考察に含めなければならないと判断できようかというところでございます。

 主成分分析(ひいてはMDS)を使いながら、(可視化の都合だという言い訳をしながら)あらかじめ第2主成分までしか使わないと決めつけてしまうような分析例も散見されましょう。

 しかし、主成分分析を使って無理にでも(=情報の一部を捨ててでも)次元を減らしたいというニーズが出てくるようなデータというのは、きっと「本質的な次元の数」がやたら多いのですよ(≒減らしようがないのですよ)。そのような「じゅうぶんに多変量な多変量データ」にあって、いずれかの基準で「第2主成分まででよい」と判断できる場合のほうが珍しいのではないかと想像するところにございます。

※まったくデータしだいであり、一般的にこうだと決めつけられない話であるとの理解にはございます。

・各社「ねんど板」ございます付近
 https://storage.topvalu.net/assets/contents/images/product/11076/4901810983315_PC_L.jpg

 「ねんどばん」に残った粉みたいなのをぜんぶ集めたみたいなのが第7主成分(固有値が最も小さいソレ)だというイメージではございました。ばんじょー!! 我々『切りたった崖の下から「てんかのけん」と書かれた矢印…いえ、いわゆる断崖絶壁みたいなのを仰ぎ見るみたいな顔!』で(中略)ここではあくまで、大きいほうから見ていきます。「「岩屑(がんせつ)」から「砂」そして「沈泥」まで」については[3566]をなめらかに参照。(※こけは含まれません。)

・ばんじょー!!「ホテル竜飛」近畿日本ツーリストのイメージです
 http://mdsposi.knt.co.jp/syukuhaku/posi/knt/img/TI/1/01/1355/TI_1038852_20160615175309000.jpg

 ここでかみつたセンセイ、さりげにとんでもなく突飛なことをおっしゃるようですよ。えー、どれどれ?(※ホテル竜飛とは無関係です。)

・かみつたセンセイ「MCA」とは
 http://ibisforest.org/index.php?%E4%B8%BB%E6%88%90%E5%88%86%E5%88%86%E6%9E%90

 > 累積寄与率は,縮約する次元の数を決める基準に利用できる.
 > 逆に,分散が小さくまとまった部分空間を求めたいときは,固有値の小さな方から成分を選ぶ.これを,minor component analysis (MCA) という.

 …その発想はなかった!(…本当になかった!! 突飛に思えるとはこのことだよ。)

 ある成分が「第1」だの「第7」だのと決めつける(=決めつけた結果、「PCA」では「主成分」と呼ぶ)のは、固有値(分散)の大きい順に並べ替えて初めて決まる決めつけです。並べ替える前の成分はそれぞれどういうことになっているかといえば、「回転」(※)しただけなのだと、こういう理解でした。

※多変量データとしては「回転」、射影としては「傾斜」(平行四辺形や台形みたいな変形)というような…ま、スクリーンの向こうで塑像みたいなのをあっちに向けたりこっちに向けたりしてるんですよ、わかります。

 直感としては、固有値が最大や最小となる「はっきりした」成分から先にできていって、その残りを「その他がっさい合算でごわす!(…ごっつぁんです)」したみたいな成分がどこかにできているはずです(=そうでなければ「回転」の前後で、情報が保存されません)。固有値で並べ替えたときに、そういうつじつま合わせみたいな成分は「第1」にも「第7」にもならないだろうと見込んで、「PCA」といって上から少数、「MCA」といって下から少数の「主成分」を採る、というわけですね。…本当でしょうか。

※ばんじょー!! わたしことたわし、そういうつじつま合わせは必ず固有値で最下位のほうに追いやられるのだと思いこんでいたのですよ。(※たわしは残念賞です。)われわれ熱海…いえ、昭和新山…じゃなくて、知床…だったかな…くろよん! 光沢感のある美しい布を両側から押して中央部にしわのほうなど(略)逃げるにしかずっ。知床のイメージを思い浮かべながらひらがなよっつ「しー・れー・とー・こーっ」が出てこない&出てこないんですよっ。「逃げるにしかず」といいさえすれば「国際観光ホテル整備法に基づく知床第一ホテル」([3479])が思い出されるなんて、予備校もびっくりのメソッドだよ。

・Google ストリートビューはここまでか&ここまでなのかっ(※キャプションは演出です)
 https://goo.gl/maps/LRqZ66Q8nVB2
 https://goo.gl/maps/typaWWYSXmM2
 https://goo.gl/maps/i5GK8nLWB5J2
 https://goo.gl/maps/DasoMdLigpx
 https://goo.gl/maps/27P7Wio7nRt
 https://goo.gl/maps/eGFAmHaC5W82
 https://goo.gl/maps/3dHZZdnagtn
 https://goo.gl/maps/4FsC3AC5m7P2
 https://goo.gl/maps/M1dPn9u6HBr

※あえてセブンイレブンさん(※実名)のイメージです。(※セブンイレブンさんはイメージじゃないといいました。)

・「イメージじゃない」からの「実はタイプじゃないんだよね(タイプじゃないんだよね…タイプじゃないんだよね……)」…がびーんみたいなの(違)
 https://thesaurus.weblio.jp/content/%E3%82%BF%E3%82%A4%E3%83%97%E3%81%98%E3%82%83%E3%81%AA%E3%81%84

・返し言葉とはいいますが(※いいません!)なんと日経ビジネス「わっ、わたしだって好きでやってるわけじゃないのよっ(好きでやってるわけじゃないのよっ…好きでやってるわけじゃないのよっ……)」みたいなのの用例です
 http://business.nikkeibp.co.jp/atcl/NBD/15/special/112900499/
 https://kotobank.jp/word/%E5%A3%B2%E3%82%8A%E8%A8%80%E8%91%89%E3%81%AB%E8%B2%B7%E3%81%84%E8%A8%80%E8%91%89-442057

 > おのれ!間接部門
 > おのれ!間接部門

※「ついにおとずれたきゃくだよおきゃくさまだよおねーちゃん(仮)「走れ店頭っ「「オレンジ」とはにわが知りたいとはこのことだよみたいなのはこちらでよろしかったでしょうか」ございます」からの「以上1点でお買い上げ1,458円になります」付近で14キロ(…長っ)」からの「走れ!みかんのかわ」については[3566]を参照。

 > 直接部門から湧き上がる不満に対し、当の間接部門からは戸惑いと反論の声が上がる。「雑務を増やしているかもしれないが、全て法令順守と効率化のため」が共通の見解だ。「それにしたって他にやりようがある」と主張する直接部門との溝は、簡単には埋まりそうにない。

[3294]
 > レッツ防弾チョッキは白衣の下! JVCのビデオカメラを回しながら後ずさりだっ。

[3571]
 > うわぁ「ヘヴィなんだよね」(エコーはいりまーす)からの「ブリは照り焼きに限るのよぉっ!!」(エコーはいりまーす)みたいなのそのものだよね。(棒読み)

※流行語というか常套句というか、そういうのだけでライトなけんかみたいなのが完了できると、それで済むんですよね。むしろ相手のいいぶんがとってもよくわかるんですよね。流行語というか常套句みたいなのだけに。(棒読み)

 (分布がわからない)とりあえずこの7変量で…というときに、「その他がっさい合算でごわす!(…ごっつぁんです)」みたいな成分が、固有値で並べ替えて何番目のところに出てくる(出てしまう)のかは、よくわからないと思えてきます。それでも、じゅうぶんな数の変量があるときに固有値の小さいほうから2つだけ採るような「MCA」は、それなりにひとつの見かたになってくるのでしょう。(ここでは「第7」ですので不安になってきますが、『第35!』くらいなら)一種「小さいほうから見たときの第1主成分みたいなの!」として、「小さいほうから見ての累積寄与率みたいなの!」が(『第35主成分!』の「1つ!」で)がばっとしてくるのは好ましいことなんですよね。…えーっ。

・第35っ!
 https://goo.gl/maps/LP3d8wezXDq
 https://goo.gl/maps/SsgyqToXuRt
 https://goo.gl/maps/ckQKWDsFur12

 「風雲! 衣笠城の支城」([3564])も思い出していただきながら、理科の模型みたいな地形でメソッド…じゃなくて、メソγスケール(南西から北東へ約10km)な天気のメカニズムがよくわかるとはこのことだよ。(棒読み)

※「風雲! 衣笠城の支城」は、「ふううん!」と元気よく発話し始めながら「き・ぬ・が・さ…じょー…のし・じょー」とだらしなくトーンを下げながら話速もぐだぐだのしのし発音するとGOOD!! やーい、ちゅーおー…せんの・『かくえきていしゃ』・でんしゃ『は、』とーえき『には、停車いたしません。』ーっ。すいどーばし。ほーめん…『は、』御茶ノ水・『駅で、お乗り換えです。』ーッ!!

・『は、』ならびに『には、停車いたしません。』音片のイメージです
 http://www.oriori.org/atos/tokubetsu/
 https://goo.gl/maps/8xsKKrta3NP2
 https://goo.gl/maps/h6CJkmncDWF2
 https://goo.gl/maps/yBZMZomwHfS2
 https://goo.gl/maps/ZitUL43XjPv
 https://goo.gl/maps/NFUxWt6ptY62
 https://goo.gl/maps/uaF5pZFVgvC2
 https://goo.gl/maps/5Ggk2jkHNzC2
 https://goo.gl/maps/9QpFJNGexMv
 https://goo.gl/maps/AfmzZnMknqT2
 https://goo.gl/maps/43Jta17BDPK2

 わあぃJVCと書かれたスピーカーみたいなのが1つ。JVCと書かれたスピーカーみたいなのが2つ(大巾に中略)掲示物なのに「御茶ノ水」と「駅」の間に半角空白が入ってるのって、やっぱりそういうことなんですかっ…じゃなくて、東京駅周辺から飛んできた種なのか豊田や拝島から運ばれてきた種なのか…気になります!(…そっちですかっ!!)

・凪のウィキペディアから「海陸風」のイメージです
 https://ja.wikipedia.org/wiki/%E6%B5%B7%E9%99%B8%E9%A2%A8

 > 一日のうち朝と夕方に、陸風と海風が切り替わる時間帯があり無風となる。これが凪(なぎ)である。

 主成分分析については後編([3575])でさらに深めます。

※「MCA」については、あくまでわかったようなわからないような、ということで、あしからず。


★「主成分得点」「構造ベクトル」を使って考察するには


 工学的なアプリケーションや、データ要約や可視化(「平面に布置!」)のために主成分分析を使う時には、主成分分析の結果そのもので何かを考察しようというシーンは出てこないことでしょう。

 しかし、探索的なデータ解析で、主成分分析の結果そのものを詳しく考察したいという時には、どうしたらよいでしょうか。「主成分得点」のほかに「構造ベクトル」が使えるとの日経リサーチさんにございましたので、それにならいます。

■表0.7 主成分得点

商品名
(仮名)
PC1PC2PC3PC4PC5PC6PC7
弁当A-2.391.691.42-0.43-0.20-0.08-0.07
弁当B-1.56-2.160.491.36-0.630.010.14
弁当C-1.97-1.330.610.820.220.04-0.14
弁当D-1.64-0.150.05-0.310.38-0.08-0.14
弁当E2.891.97-0.571.540.530.020.04
弁当F0.801.30-0.99-0.07-0.180.13-0.03
弁当G1.000.12-1.521.02-0.51-0.08-0.05
弁当H0.300.23-1.29-1.42-0.26-0.02-0.06
弁当I-0.16-1.92-1.86-0.090.17-0.13-0.06
季節弁当A-1.940.17-0.10-0.990.30-0.050.14
季節弁当B-1.83-0.89-0.66-0.010.640.100.13
季節弁当C-0.450.49-0.35-1.00-0.420.040.09
ピラフ類A-0.660.630.880.59-0.05-0.02-0.05
ピラフ類B1.161.120.740.120.01-0.340.07
ピラフ類C0.461.230.23-0.25-0.100.200.04
ピラフ類D-1.070.670.610.38-0.020.17-0.01
丼A3.43-1.571.04-0.680.000.17-0.08
丼B3.63-1.601.27-0.580.11-0.100.05


 この表0.7を縦に見ての(主成分得点の絶対値の)最大値に着目します。…おっと、それは後でいいや(…『後でいいや』!)まずは先に(…『まずは先に』!!)横に見ましょうか。

※以下、「(仮名)」とのケッタイな表示は省略いたしますが、すべて仮名であり、実在のKY軒とは無関係です。また、あくまで11月30日で終了した「秋」のメニュー、すなわち過去のデータを使っているというタテマエにございます。あしからず。特に「シウマイ(個数)」は変更される場合がありますのでご注意ください。

■表0.8 各弁当における主成分得点の絶対値が最大となる主成分

弁当APC1
弁当BPC2
弁当CPC1
弁当DPC1
弁当EPC1
弁当FPC2
弁当GPC3
弁当HPC4
弁当IPC2
季節弁当APC1
季節弁当BPC1
季節弁当CPC4
ピラフ類APC3
ピラフ類BPC1
ピラフ類CPC2
ピラフ類DPC1
丼APC1
丼BPC1


 表0.7を横に見ての(絶対値の)最大値ですね、わかります。▼第4主成分以下を無視するということは「弁当H」「季節弁当C」の「らしさみたいなの(仮)」を無視するということで、▼第3主成分以下を無視するということは左記に加え「弁当G」「ピラフ類A」の「らしさみたいなの(仮)」を無視するということになるのだとうかがえます。(あくまで主成分得点の絶対値のみを見ての決めつけです。)

 …ちらっ。こっそり隣の部屋で本来の商品名を見てきたわたしたち、第4主成分以下で特徴が出てくるっぽい「弁当H」「季節弁当C」は、うーん。KY軒でこれを買うのはよほどのことですぞ(※かっこつけぇの&なぜにKY軒で買うし!)…いえいえいえ、KY軒につきあわされたけれどさっぱりさっぱり! 700円くらいで10品くらい入っていてカロリーが高くないといいわアリガトウみたいな(中略)なるほどねぇ。…実になるほどねぇ。(※あくまで個人のお客さまの感想です!)

 それに第3主成分以下で特徴が出てくるっぽい「弁当G」「ピラフ類A」は、あなた「はらぺこ感がきわめて高い」ひと(が、ここはKY軒なのだという「KY軒らしさ(仮)」みたいなのはまったく無視して、弁当の内容と容積のみで選ぶときに選ばれそうな弁当)ですね、わかります。(※あくまで個人の経験に基づく推察です。)

■表0.9 各主成分における主成分得点の絶対値が大きい弁当(上位3位)

順位PC1PC2PC3PC4PC5PC6PC7
1丼B弁当B弁当I弁当E季節弁当Bピラフ類B弁当C
2丼A−弁当E弁当G−弁当H−弁当B−ピラフ類C−季節弁当A
3弁当E弁当I−弁当A弁当B弁当E−丼A−弁当B


※主成分得点の絶対値が最大の弁当と、符号の正負が逆の弁当を「−」と表示しています。

 ここで改めてRのprcomp関数から「rotation」といって返ってくるソレをポヤンと眺めようではありませんか。

■表0.10 構造ベクトル(主成分と元の変数との相関係数)

変量PC1PC2PC3PC4PC5PC6PC7
V1容器の縦横比(販売時)-0.1160.598-0.1320.6900.3350.1470.043
V2容器の容積-0.209-0.6250.3460.2890.3840.463-0.010
V3容器の面積(喫食時)-0.429-0.276-0.0660.504-0.588-0.3400.140
V4内容-0.452-0.161-0.411-0.2050.574-0.4590.139
V51品あたりエネルギー(シウマイを除く)0.441-0.0570.5210.2160.240-0.5950.271
V6シウマイ(個)-0.4290.2340.504-0.1040.031-0.228-0.666
V7シウマイ率(エネルギー比)-0.4200.3010.406-0.296-0.0790.1780.665


※(絶対値で)0.6以上と0.1未満を太字で表示しています。

 えーと(略)えー、どれどれ? ややこしくなってきました。

・「V6」「V7」と最も関係がないのは第5主成分
・「V3」と最も関係がないのは第3主成分
・「V5」と最も関係がないのは第2主成分
・「V2」「V1」と最も関係がないのは第7主成分

・「V4」はどの主成分ともそれなりに関係があるが、最も関係があるのは第5主成分

・「V1」と最も関係があるのは第4主成分で、その次は第2主成分
・「V2」と最も関係があるのは第2主成分
・「V3」と最も関係があるのは第5主成分で、その次は第4主成分
・「V5」と最も関係があるのは第6主成分で、その次は第3主成分
・「V6」「V7」と最も関係があるのは第7主成分

 ややこしいとはこのことだよ。(棒読み)しかし、これをぜんぶ自動的に(=この段階では取捨選択しないで、の意)書き下したうえで(…『下したうえで』!)、変量の具体的な内容に立ち入っての考察に進めるのだと、こういうわけです。

 第1主成分は、▼「ごはん率が高い(品数が少ない)」の「丼A」「丼B」「弁当E」と、▼「シウマイ率が高い」の「弁当A」を両端に置いた軸(合成変数)になっているとわかります。両端については特徴がよくわかりますが、中間についてはあまり識別ができない感じの軸であるとうかがえます。

 第2主成分は、▼KY軒が誇る1,080円の「弁当B」ならびに1,280円の「弁当I」と、▼KY軒が誇る510円の「弁当E」ならびに630円の「弁当F」「ピラフ類C」を両端に置いた軸になっているとわかりつつ、だいたいそのような軸であるので▼われらがKY軒のホープこと830円「弁当A」もつられて「弁当E」などの方向(符号)に振られるのだとうかがえます。ただし、▼630円の「丼A」と680円の「丼B」については価格ではなく何らかの合成によって、1,000円を超える弁当と同じ方向(符号)に振られているとうかがえます。いかにも合成っぽくなってきて、主成分らしい主成分(=言語的には考察を述べにくい)であるといえましょう。

※(あまり『よく考察』しないで、なかば自動的に)第1主成分とペアにして平面でプロットしようといって、なるほど。第2主成分がいかに第1主成分では見えない方向を見ようとする合成変数であるかということが実感されてまいりましょう。ですから、「第r主成分は『○○らしさ』を表している」などとは述べることができない(しにくい)ということがわかってきます。

 第3主成分は、▼KY軒が誇る1,280円の「弁当I」…それに「弁当G」「弁当H」と、▼「弁当A」「丼B」「丼A」を両端に置いた軸になっているとわかり…いえ、わかったとはいえない気がしてくるとわかります。

 (小さいほうから見ていく)「MCA」という見かたも踏まえれば、第1主成分と第7主成分が最も何か(特徴)を要約していて(※データ全体に対する寄与率の大小とは異なります=「MCA」のほうは「少数派の特徴」を最も大きく反映(要約)しているのだろうという見かたですよね)、7つの場合、中間となる第4主成分が最もよくわからん(つじつまあわせみたいな)軸になっているのだろうというイメージがわいてまいりましょう。…本当でしょうか。

※ここでいう「少数派」とは、KY軒「商品ラインナップ」上での少数派ということであり、実際の販売数の大小とは関係がないことに注意してください。実際には「弁当A」が圧倒的に多いんですよね。だって売店の売り子さんの奥にもどっさり積み上げてあるじゃないですかぁ。…その発想はなかった!(棒読み)

 第7主成分は、▼どこにでもあるふつうの「弁当C」「弁当D」(※)と、▼KY軒の力作(≒準新作)「季節弁当A」「弁当B」を両端に置いた軸になっているとわかります。この第7主成分が『よく説明』する範囲(商品)はとっても狭いんですけど、両端の違いは確かによくわかるのだと、こういうわけです。

※隣の部屋でこっそり…幕の内(まーくーのーうーちーっ)とお赤飯(おーせーきーはーんーっ)ですってばよ!! まあまあ!!(ゆっくり大きな声ではっきりと棒読みしてみせるとGOOD!!)

・Google ストリートビュー 一般化「緊張してるんじゃなくて、照明が暑いということですよね」のイメージです
 https://goo.gl/maps/WHCu1P3sYQJ2
 https://goo.gl/maps/ZdfJ7SV3WLS2

・同 「稲荷神社」付近(※推定)
 https://goo.gl/maps/yhNv4E7CTEt

・キッコーマン国際食文化研究センターの見解です
 http://www.kikkoman.co.jp/kiifc/tenji/tenji09/edo_life12.html

 > 2月最初の午の日で稲荷神社の祭りである。
 > 稲荷の総本社は京都伏見の稲荷大社で、江戸の王子稲荷は関東の総本社で、稲荷の使姫である狐に小豆飯と油揚げを供えるが、油揚げが供物になったのは江戸後期の頃らしい。稲荷鮨の創製は名古屋で、天保(1830〜1844年)頃といわれ、江戸では弘化(1844年〜)の初めに流行し、「木耳」「干瓢」等を刻み混ぜた飯を詰め、当初は山葵醤油をつけて食べていたらしい。

※木耳:キクラゲ。干瓢:かんぴょう。山葵醤油:すりおろしたワサビを加えた醤油。…いえ、漢字で書いてあるだけなんですけど、いまとなってはちょっと読みづらいですよね、わかります。

 しょうゆを見れば考えもせずにワサビをどかどか入れちゃうのが江戸っ子でぃ。(※…偏見ですっ!!)

 第6主成分は、▼「ピラフ類B」と、▼「ピラフ類C」を両端に置いた軸になっているとわかります。なんと、第6主成分は、▼「ピラフ類B」と、▼「ピラフ類C」を両端に置いた軸になっているとわかり…わからないよっ!!(棒読み)

 (材料と製造工程でいって)「ピラフ類」なんですけど、「ピラフ類B」は「中華風」で、「ピラフ類C」は「洋風」なんですよ。なるほどねぇ。…実になるほどねぇ。同じく▼「中華風」のほうに「丼B」が振られ、▼「洋風」のほうに「丼A」が振られているとうかがえます。…もっとわからないよっ。(棒読み)なるほど「丼A」は『中華風じゃない!』という意味で「和風っぽい」ようです。「ピラフ類C」も「洋風」ではなく『中華風じゃない!』と見ればいいんですね、わかります。なお、「ピラフ類C」と「ピラフ類B」は同じ価格ですが、「丼B」は「丼A」より50円ほど高くなっております。

 第5主成分は、▼KY軒が誇る1,200円の「季節弁当B」と、▼1,080円の「弁当B」を両端に置いた軸になっているとわかります。…注目すべきは価格ではなさそうですよね。この第5主成分の主成分得点(符号つき)で見て、▼「季節弁当B」に続くのは「弁当E」「弁当D」、▼「弁当B」に続くのは「弁当G」「季節弁当C」でございます。なんと第5主成分(略)…どんどんわからなくなってくるとわかります。

 1,200円の「季節弁当B」は容器(天面)が正方形で品数は14品もあり、他方、「弁当B」は1,080円ながら、縦横比0.77(※横長の容器として上から2番目の水準です)、品数は9でございます。なお、「シウマイ」はいずれも2個入りです。

 この2つの弁当の間で最も差がついている変量は「1品あたりエネルギー(シウマイを除く)」であり、前者は44kcalであるのに対し、後者は93kcalと、2倍を超える差がございます。第5主成分は、このような「カロリーの少ないおかずで品数が多い」と「ジャナイ」を表す軸(合成変数)になっていると読み解かれましょう。

 「弁当E」は縦横比が2.13、「弁当D」は正方形であることから、(正方形である)「季節弁当B」の方向に振られたとみられますが、わたしたち稲荷神社のほうなど思い浮かべながら「弁当E」の「1品あたりエネルギー(シウマイを除く)」は178kcalであり、ちょっと(第5主成分で説明するには)外れ値のように見えてきます。

 「弁当G」の縦横比は1.35(縦長)ですが7品で1品あたり87kcal、「季節弁当C」は縦横比0.78(横長)で9品の1品あたり59kcalとのことで、第5主成分としては片方向にしか見分けがついていないといいましょうか、「ジャナイ」のほうはぐちゃっと混ざっている感じがうかがえます。

 表0.10を見ると、第5主成分は「容器の面積(喫食時)」との関係があるということではあるのですが、うーん。いえいえいえ、「シウマイ」(「V6」「V7」)との関係があまりなく、それ以外はポヤンと関係があるというのが第5主成分だということであってですね(中略)「1品あたりエネルギー(シウマイを除く)」そのものの大小を直に反映しないけれども「容器の面積(の小ささ)」と「品数の多さ」を合わせて見て「カロリーの少ないおかずで品数が多い」ということは反映するのだと、こういうわけです。べろんと面積の広い(=「浅い」かもしれない)容器の、さらに半分をチャーハンが占めているような「弁当B」はアレだと、第5主成分でいう「ジャナイ」なんだと、たぶんこういうわけです。

・「弁当B」相当品のイメージです(※画像はNREならびに横浜スタジアムです)
 http://www.nre.co.jp/Portals/0/ekiben/img-e008.jpg
 http://www.yokohama-stadium.co.jp/wp-content/uploads/1e4f463eda3d240dff3cc80d22c48963.jpg

・「弁当G」相当品のイメージです(※おかずおよびごはんの盛り付けは異なります)
 http://www.nre.co.jp/Portals/0/ekiben/171011karaageZANMAI.jpg

 KY軒の「弁当G」は、ごはんが「俵型」であり、(主に面積に着目する)第5主成分でいって「弁当B」と似ているとみなすのは適当ではないともわかります。しかし、ここではごはんが「俵型」かどうかは変量として採用していないので見分けがつかないのだと、こういうわけです。(※恐縮です。)

 第4主成分は、▼こーん!「弁当E」と、▼めでたい「弁当H」を両端に置いた軸になっているとわかります。それぞれ▼はらぺこ「弁当B」「弁当G」、▼さっぱりさっぱり!「季節弁当C」「季節弁当A」が続きます。「縦横比」「面積」との関連がある一方、「シウマイ(個数)」とはあまり関係がないとの表0.10にございました。しかし、「シウマイ率(エネルギー比)」は「容器の容積」と同じくらい関係があるとのことでもございました。シウマイに関しては「0」という値もあるのでアレですが、なるほど▼「弁当E」「弁当G」は「0」で、▼「弁当H」は「1」で、▼「弁当B」「季節弁当C」は「2」、▼「季節弁当A」は「3」でございます。「0」と「ジャナイ」という意味では効いてくるのかもしれませんね。本当でしょうか。「シウマイ(個数)」が「5」である「弁当A」における第4主成分の得点は「-0.43」との…うーん。「シウマイ(個数)」が「0」である弁当はほかに「弁当I」「丼A」「丼B」がありますが、「弁当I」の第4主成分の得点は「-0.09」との(大巾に中略)一応、なるほどねぇ。(…『一応』なんですかっ!!)

 これで第1主成分から第7主成分まで、ぜんぶ見たことになるでしょうか。あなたはそこに座っているだけでいいのよ。ええ。「全鴨席」とはにわについて[3566]を参照したりなんてしなくていいのよ@ちっともね。(※表現は演出です。)

 主成分分析についてレクチャーするには、主成分分析『しないといけない』という「切迫感」(⇒「いわば切実なかたちで」[3125])のあるデータ(※模擬でも人工でもいいんですけど)を使いたいものだと思われてまいりましょう。

・「切実感」と「切迫感」の違いとはにわ付近で31キロ
 https://ejje.weblio.jp/content/%E5%88%87%E5%AE%9F%E6%84%9F
 https://ejje.weblio.jp/content/%E5%88%87%E8%BF%AB%E6%84%9F

 > serious feeling
 > a sense of urgency

・「さしせまる」
 https://thesaurus.weblio.jp/content/%E3%81%95%E3%81%97%E3%81%9B%E3%81%BE%E3%82%8B

※「切実なかたちで」といえば「他人事とは思わず真剣に」という心構え的ですが、「いわば」とおっしゃる。そのときいいたかったのは「切迫感」のほうではないかなぁ。本当でしょうか。『しないといけない』というのは「切迫」(=わたし材木座海岸! どこにでもあるふつーの材木座海岸! 何らかのシルエットみたいなのがわたしとの距離を切り詰めながら迫ってきてもうたいへん!)ですね、わかります。

・日経ビッグデータ「サイコロの目や壺の中の赤い玉と白い玉」の用例です(2015年6月24日)
 http://business.nikkeibp.co.jp/atclbdt/15/258677/062100001/?P=2

 > 私も当初、統計学は積み重ねの学問なので基礎から学ぶべきだと考えていたが、今は考えが変わった。実務で使うのは5つの手法で十分なのに、それらにたどり着く前に統計学の勉強で挫折してしまうのでは意味がない。ツールと5つの手法を身につけて、直ちにビジネスの問題に取りかかろう。

 > 本物のデータで練習しよう

 > サイコロの目や壺の中の赤い玉と白い玉
 > サイコロの目や壺の中の赤い玉と白い玉

 …ギクッ。

 > 練習のつもりで始めた分析であっても興味深い結果が得られれば、それを施策にして生かすことができる。これが練習に取り組むモチベーションを自然と高めてくれる。

 ごもっともごもっとも。

 > 私の経験から言って会社のビジネス課題を解決するのに必要な手法は、5つで十分だ。その5つとは、「クロス集計」「ロジスティック回帰分析」「決定木分析」「アソシエーション分析」「クラスター分析(k-平均法)」だ。

 …うそーん。(※見解です。)

[3100]
 > もっとも、「前年度を参考に」を繰り返すと、機械学習でいう「過学習」に陥ります。教員が目を配り、前年度に取り組んだ児童がいないテーマやジャンルについては、見本のようなものを作って、並べて示す(混ぜて示す:センセイお墨付きとは受け止められないように、の意)ことが求められましょう。

[3530]
 > このような心配もあるということは、あらかじめ承知しておきましょう。

[3142]
 > ここでいう「データをよごす」とは、分布が不自然なものになることや、予測不可能あるいは予測ミスを誘発するような突発的なピークを頻出させる、という意味であります。データそのものをよごすという、名寄せどころのソレではない一種「深刻な事態」だと受け止めていただきたくあります。

 > なるほど、いまや「発売時期」すらもデータドリブンで一種「最適化」する時代なんですね、とうならされます。鉄道の需要追随([3139])とも似た話で、目先の製品の発売時期を決めるあなた、目先の輸送計画をたてるあなただけが、データの世界の外側にいる(自分だけが外側からデータを見て施策を決めている)というのは、錯覚です。あなたの施策もまた、即座にデータの一部になるのです。

 > これがどういうことかというと、あなた以外は誰も「最適化」をしない、一種「自然」な状態のデータ(平たくは正規分布に従いそうなソレ、の意)を仮定して「最適化」を行なう(そういうアルゴリズムを使う、の意)、しかし実態としては、あらゆるプレーヤー(他のメーカーや、過去や未来のあなた)が各々に「最適化」して、結果としてはノイズだらけの一種「汚いデータ(不自然なデータ)」になってしまっているとなれば、そこに対して「最適化」をしようとしても、トンチンカンな『解』が出されかねない、そのことをわかっていますか? と、シビアに問われましょう。

 > BCNランキングが「最適化」に使えますといって売り出すことは、めぐりめぐって、BCNランキングのデータがぐっちゃぐちゃになっていくことを加速するんだという心配を、もっとされたほうがよいのではないでしょうか。(あくまで見解は個人です。)


 後編([3575])に続きます。


この記事のURL https://neorail.jp/forum/?3574


この記事を参照している記事


[3080]

Re:[3079] 「施策パッケージ」とは

2015/7/14

[3573]

研究ホワイトボックス(27) 多変量データの全域を考察するには〜駅弁の商品構成を例に(前編)

2017/12/3

[3575]

研究ホワイトボックス(29) 多変量データの全域を考察するには〜駅弁の商品構成を例に(後編)

2017/12/3

[3580]

いま問う「ハイフンの木」のココロ(談)

2017/12/3

[3582]

10年後に読む「よりよい環境創造のための環境心理調査手法入門」(2000年5月)

2017/12/7

[3583]

JR西日本「データ分析コンテストの開催」を遠目に眺める(談)

2017/12/7

[3584]

研究ホワイトボックス(30) ハイパー・ゼロ:「主成分分析」FAQ

2017/12/19

[3589]

「ドップラーレーダーの鉄道への応用に関する研究」(2011年5月)を読み解く

2017/12/31

[3601]

【カムロちゃん】『京成うすい駅』とその周辺【山の神バス停あり】

2018/2/15

[3623]

〔フレッシュおはよう東日本〕10号:仙石線『青葉城恋唄』(1988年11月)を営団『7号ビジョン』(1991年11月)で読み解く(仮)

2018/3/24

[3625]

大磯町「大磯駅前広場の利用等に関するアンケート調査の結果」(2017年11月)を読み解く

2018/3/29

[3636]

Re:[3583] 或るナポリタンと停電のハフソク(則)

2018/4/10

[3640]

研究ホワイトボックス(32) 「単元」と「難易度」を示した「総合的な教材」をつくるには

2018/4/30

[3647]

市原市「市原市都市計画マスタープラン」(2018年3月)を読み解く

2018/5/25

[3651]

【自由研究】ゆるシミュ(7)

2018/6/10

[3653]

【北見北上】「もんじゃストリート」は続くよ(網走編)【網走アポロ石油あり】

2018/6/10

[3654]

【浦安停車の】「A列車 架線 電力」もりもりもり【黄色い線路あり】

2018/6/16

[3660]

【自由研究】いま問う「科学工夫作品いわゆる工作」のココロ(談)

2018/7/16

[3661]

「弥彦色」と「長野色」 / 「ブルー・トレーン」 / 「京都高速鉄道株式会社」 / 「出逢えたらラッキー Peach×ラピート ハッピーライナー」 / ほか

2018/7/21

[3662]

「映像表現」入門(CG編&インタラクション編)

2018/7/21

[3669]

【自由研究】ゆるシミュ(9)

2018/8/16

[3670]

【自由研究】ふわコレ(9)

2018/8/16

[3672]

【葛西20乙】こちら葛飾駅前(談)【西葛飾駅北口駐輪場あり】

2018/8/31

[3675]

研究ホワイトボックス(34) 行列と行列の差を検定するには

2018/9/1

[3688]

【G4A】試しにA7「巡航速度」からのA9「巡航速度(後退)」を斬ってみる(再)【ろじたんフォークあり】

2019/1/1

[3698]

いま問う「(お好きな地形)EX(30倍)」(2010年3月・2013年2月)のココロ(貨物編)

2019/3/1

[3701]

【A10】『シリアス路線』への招待

2019/4/1

[3714]

Re:[3701] 「箱庭」とは何か / ほか

2019/6/4

[3727]

【A9V2】「星のみえる丘」を「生田緑地」で読み解く(後編)

2019/7/1

[3896]

研究ホワイトボックス(41) とにかく「R」を使うには

2020/1/27

[3962]

「初音ミクのベクトル」とは(仮)

2020/2/29

[3982]

【水道水】いま問う「根岸線の地形再現に苦労した」のココロ(再)【合法ユッケあり】

2020/3/29

[4013]

きょうは固定ディスクでブロッコリー。

2020/4/1

[4035]

きょうは平田で樹里庵。

2020/4/1

[4074]

「照焼大橋」不滅なれ(AA横横編)

2020/5/21

[4078]

「照焼大橋」不滅なれ(ばりばり編)

2020/5/21

[4093]

いま問う「なんと倍」のココロ(談)

2020/6/5

[4101]

『競技A列車』へのいざない(誘)

2020/6/5


関連する記事


[3639]

【自由研究】ふわコレ(6) tht - 2018/4/30


[3649]

【お知らせ】ストリートビューの表示を休止します tht - 2018/5/31


[3708]

研究ホワイトボックス(36) 複雑なデータと「対話」するには〜郵便番号データを例に(MySQL編) tht - 2019/5/24


[3676]

【正宗の名刀で速射砲と立合をするような奇観を呈出】発生学から出立するディープラーニング(仮)【社会調査工房オンラインあり】 tht - 2018/9/13


[3707]

研究ホワイトボックス(35) 複雑なデータと「対話」するには〜郵便番号データを例に(R編) tht - 2019/5/24


[3868]

まだ見ぬ「ドリームかまち」を探して(インサイト編) tht - 2019/12/30


[3576]

縦書きディープなラーニング(一汁三菜編) tht - 2017/12/3


[3587]

研究ホワイトボックス(31) ハイパー・ゼロ:「主成分分析」FAQ(補遺編)〜ふれねる「スクリープロット」の崖<がい> tht - 2017/12/19






neorail.jp/は、個人が運営する非営利のウェブサイトです。広告ではありません。 All Rights Reserved. ©1999-2020, tht.