・KY軒「商品ラインナップ」を数字だけで眺める(数) ・消費者庁「加工食品品質表示基準Q&A(弁当、惣菜関係)」を遠目に眺める(談) ・多変量解析のツボは『前処理』にあり(仮) ・いかなる分析をすべきか ・きわめて便宜的に「とりあえずk-means」してみてカワサキっ(仮) ・表0.1 KY軒の弁当(2017年9月1日〜2017年11月30日) ・表0.2 (無題) ・「R with Excel」(※Excelでの操作については省略) ・表0.3 相関行列 ・表0.4 「BCSS / TSS」の挙動(k=2...8) ・表0.3(改) 相関行列(丼を除く) ・表0.5 k-meansによるクラスタリングの結果(各弁当が割り当てられたクラスターの番号)
(約21000字)
あくまでドラフト(草稿)ですので、あしからず。
・[3571]
> > 「ポテトの長さを分析しよう」
> わあぃモグモグ(M)&ワクワク(W)…じゃなくて、ナマルクドド(N)みたいなのキターっ。…もすはどうしたもすはっ。(※マークはイメージです。)
> 増税のたびに値上がりしながらテリヤキチキンが小さくなっていくなどの(げふ)次の増税で1000円の『大台にのる!』のか、テリヤキチキンが添えられなくなるか、はたまた(略)
神奈川の県立高校の数学科の先生が大手ハンバーガーチェーン3社を名指しして「調べました!」といっていいんかい…結果を伏せればいいんだというのでなく、むしろ会社名や商品名のほうは伏せて、数字はお見せしたいのだという、たぶんそっちですよ。何を伏せるのかという判断が逆だと思いました。(※見解です。)
それはそれとしまして、いま数学から続けて統計(学)を学ぼうというときの最大のモチベーションは、多変量解析に進むことであろうとの認識にございます。そのためには初歩の例題としても、まずもって(…『まずもって』!)じゅうぶんに多変量でないといけないなぁ、との思いにございます。(※あくまで思いです。)
そこで関東地方のとある巨大ターミナル…の隣の駅で駅長が奥さんの名義で営業許可を得てから後に社長になったという「KY軒」でございます。(※あくまで『KY軒』でございます。実在の弁当業者とは無関係です。)
※「大船軒」([3397])も参照いただきつつ、もともと町がなかったところを通った鉄道としては、名物と呼ばれる駅弁も(少し離れた既成の町の名物からの一種『借用』であろうとも)じぶんたちでつくらないといけない(と考えられた)ということですね。汽車が立ち往生したら、当地で3日間くらい、乗客の食事を手配できなければいけないのだよ。…そっちですかっ。北海道新幹線からの三厩観光開発「ホテル竜飛」については[3378]を参照。(※想定のイメージです。)
・JTB「ホテル竜飛」のイメージです
https://dom.jtb.co.jp/yado/photo2/XL/2/2112002/21120021100001202.jpg
・Google ストリートビュー 「青函トンネル記念館駅」付近(※推定)ほか
https://goo.gl/maps/7T2nSKvwym32
https://goo.gl/maps/Qiog9PVw8AF2
https://goo.gl/maps/R5F9S3KtL152
https://4travel.jp/travelogue/10829094
(「出発地に引き返し」的な意味で)三厩駅までバスで運んでもらえるようですよ。えー、どれどれ?(略)
・第5912440号「「シウマイ」と書かれた赤い紙」は楽陽食品株式会社の登録商標(しゅうまい,しゅうまい入りのべんとう)です(2017年1月13日)
https://www.j-platpat.inpit.go.jp/web/all/top/BTmTopSearchPage.action
※検索語「シウマイ」を入力して検索してください。
商標登録の有無にかかわらず商品名やブランド名には著作権が発生しておりましょう。しかし、弁当業者がみずからインターネットで公表している、弁当の価格、内容(品数)、容器の寸法、エネルギー(カロリー)などの情報は、単なる事実の羅列であります。わたしたち、じぶんの勉強のためには使おうではありませんか。
この記事としては会社名と商品名を伏せた状態で展開しますけれども(=弁当の内容に関する論評ではない、の意)、データとしての出典は示さなければいけないといって以下にURLを示します。
・「データとしての出典は示さなければいけない」といって示すURLです
http://www.kiyoken.com/products/obento/index.html
・ウィキペディア「駅弁調製業者の現況」「Category:駅弁製造業者」
https://ja.wikipedia.org/wiki/%E9%A7%85%E5%BC%81#.E9.A7.85.E5.BC.81.E8.AA.BF.E8.A3.BD.E6.A5.AD.E8.80.85.E3.81.AE.E7.8F.BE.E6.B3.81
https://ja.wikipedia.org/wiki/Category:%E9%A7%85%E5%BC%81%E8%A3%BD%E9%80%A0%E6%A5%AD%E8%80%85
※ウィキペディア内でも用語が揃っていないなどの…なんだかなぁ。
「KY軒」以外の、同等の規模(※大きすぎたり広域すぎたりしては商品構成の特徴が異なると考えられるのでNREさんやジェイアール東海パッセンジャーズさんは考えません=まっさきに「AJ屋」と「ID屋」は見たんですよ&「MY軒」は見なかったのですよ&それ以外は弁当もしくは駅名だけ知っていて屋号は知らないなどと…げふ)の業者との比較ができればとも思ったのですが、データを細かくインターネットで公表(※HTMLでもいいんです!)しているのは(関東地方以外では=「KY軒」と比較したいと思ったのでそういう見かたをしたんですけど)「KY軒」だけであった(※30分以内には見つけられなかった…30分しか調べないといいました!)と申し添えます。いえ、同じ関東地方では「TKS弁当」(※仮名)はKY軒よりも詳しく「たんぱく質 15.4g|脂質 6.0g|食塩相当量 3.0g」みたいな「成分」や、「7大アレルギー」も載っているんですよ。
※ま、電話で問い合わせてFAXしてもらうとかいうセカイかもですぞ。…えーっ。
・東京都消費生活総合センター「わたしは消費者」
https://www.shouhiseikatu.metro.tokyo.jp/manabitai/shouhisha/125/no125.pdf
> 単なるデータや事実、アイデアや学説等の考え方は、それを得るために多大な労力や経費を要したり学術的価値の高いものであったりしても、それ自体は著作物ではありません。ただし、データや事実を素材として作成した文章や図表、考え方を説明する文章はその表現に創作性があれば著作物になり得ます。
> 無断で人を撮影したり描写する行為は認められないことや、アニメのキャラクタを無断で宣伝に利用することはできないことなどの理解を求めます。
> 著作権が及ばない著作物に関しても、著作者人格権は残されていることや、たとえば(略)
> 著作権が及ばない著作物
> 著作権が及ばない著作物
> 著作物ではありません
> 著作物ではありません
えーっ…。
・「我が国の著作権法によって保護を受ける著作物」文化庁の見解です
http://www.bunka.go.jp/chosakuken/naruhodo/outline/4.1.html
> なお、次のような著作物については、著作権は及ばないこととされています(第13条)。
著作物を管理する団体や著作権教育を目的とする団体の説明だけではよくわからないのがここでしょう。
> 「原稿なしの講演」や「即興の歌」なども保護の対象となります。
> 「創作的な組合せ」によって創られる「編集著作物」と「データベースの著作物」
> 詩集、百科事典、新聞、雑誌のような「編集物」は、そこに「部品」として収録されている個々の著作物などとは別に、「全体」としても「編集著作物」として保護されます(第12条)。
> 収録されているもの(部品)は「著作物」である必要はなく、データや英語の単語のようなものでもかまいません。
> 「全体」をコピーするような場合
> 編集物が著作物として保護されるためには、そこにどのようなものを収録するか、または、その順序をどのようにするかということ(「選択」又は「配列」)について、「創作性」がなければなりません。
> 「ある作家が、生まれてから死ぬまでに書いた全ての小説」を「書かれた順」に収録したような全集は、「選択」についても「配列」についても何らの工夫・創作も行っていないため、「編集著作物」にはなりません(個々の部品(作品)は著作物です)。
> このような編集物のうち、コンピュータで検索できるものを「データベースの著作物」といい(第2条第1項第10号の3、第12条の2)、できないもの(紙に書かれたものなど)を「編集著作物」といいます。
…オウケイ?(イラッ)話を整理しよう。(中略)KY軒の「商品ラインナップ」は、商品名はポエムみたいなものだといってばっちり(商品名だけで)著作物であるほか、レシピとしては(個々にも、「商品ラインナップ」全体としても)「選択」の工夫・創作があり、ホームページでの掲載順序という「配列」に工夫・創作があるともないともいえない(※わからない=HTML上、横に3つずつ並んでいるので横に並んでいるのか縦に並んでいるのかわからず「配列」が一意には読み取れない! …うわぁ「強弁」って、こうですね)ので、(HTMLではあるが)コンピュータで検索できる「データベースの著作物」にはあたらないと考えます。(※PDFでもHTMLでも、表(HTMLのTABLEタグ)または数字付きのリストになっていて「配列」が明らかになっていれば、わずか18件とはいえども「データベースの著作物」にあたると考えられます。)
※各弁当のURLを見ても「配列」は…わかりません!! 一部の弁当だけに「16」とか「17」とか書いてあるので、なおさらわかりません!!(※当社の見解です! …うちはカイシャじゃないんですけど。)
※「縦横比」(=後述)は、これ単独では「(d)「文芸、学術、美術又は音楽の範囲」に属するもの」にあたらないと考えます!! 「作品の重量」みたいなものです。…えーっ。もちろん、「キリのいい数字!」にしましたというのは創作性が出てくるので「正方形」や「円形」なのは特別だと考えられますが、そのようすを「縦横比」という指標で客観的に述べたものは単なるデータです。
★KY軒「商品ラインナップ」を数字だけで眺める(数)
以下、あくまで『KY軒』として扱ってまいります。データをありがたく使いながらも、実在のKY軒のことはちょっと忘れていただいて、あくまでデータだと(しかし模擬データや人工データではなく、現実のデータであるのだと)思ってください。
■表0.1 KY軒の弁当(2017年9月1日〜2017年11月30日)商品名 (仮名) | 価格 (税込) | エネルギー (kcal) | 縦 (cm) | 横 (cm) | 高 (cm) | 内容 | シウマイ (個) | | | | | | | | | 弁当A | 830 | 732 | 20.0 | 14.5 | 3.5 | 9 | 5 | 弁当B | 1080 | 809 | 18.0 | 23.4 | 4.0 | 9 | 2 | 弁当C | 1050 | 932 | 19.0 | 19.0 | 4.5 | 11 | 3 | 弁当D | 960 | 789 | 17.0 | 17.0 | 4.3 | 12 | 3 | 弁当E | 510 | 534 | 19.4 | 9.1 | 4.0 | 3 | 0 | 弁当F | 630 | 505 | 17.5 | 12.7 | 3.2 | 7 | 1 | 弁当G | 750 | 610 | 20.0 | 14.8 | 3.0 | 7 | 0 | 弁当H | 710 | 451 | 11.3 | 19.3 | 3.5 | 10 | 1 | 弁当I | 1280 | 662 | 9.0 | 17.0 | 8.3 | 13 | 0 | 季節弁当A | 930 | 612 | 15.5 | 17.7 | 4.1 | 13 | 3 | 季節弁当B | 1200 | 635 | 17.6 | 17.6 | 4.5 | 14 | 2 | 季節弁当C | 700 | 536 | 14.0 | 18.0 | 3.5 | 9 | 2 | ピラフ類A | 860 | 792 | 20.0 | 14.5 | 4.0 | 7 | 3 | ピラフ類B | 630 | 723 | 16.5 | 13.2 | 4.0 | 5 | 2 | ピラフ類C | 630 | 590 | 16.5 | 13.2 | 4.0 | 6 | 2 | ピラフ類D | 860 | 718 | 20.0 | 14.5 | 4.0 | 8 | 3 | 丼A | 630 | 420 | - | 14.3 | 7.8 | 2 | 0 | 丼B | 680 | 473 | - | 14.3 | 7.8 | 2 | 0 |
表にしながらも、その多様性と呼ばれるバリアシオンに圧倒されます。…表をつくってみながら、表のつくりなおしを迫られるとはこのことだよ。(棒読み)
・商品名は伏せています
・丼の容器は円形です。便宜的に「縦」を「0」とし、「直径」を「横」の欄に入れています(⇒あとで使います!)
・KY軒が誇る1,280円「弁当I」(※仮名)は、なんと容器が2段重ねです。…これは豪華だぞう(ゴクリ)
・「内容」は、一般にいう「おかずの品数」です(※ごはんも1品と数えます=後述)
・シウマイの入数は「内容」のテキストまたは商品画像を見て調べました
シウマイの入数をヒストグラムに…わざわざ描くほどでもない&特定の変量にだけ『変な肩入れ!』してはいけないと思いつつ、ヒストグラムみたいなのを平たく書きますと、「0」が5、「1」が2、「2」が5、「3」が5、「4」がなくて「5」が1、というようなヒストグラムになってございます。なんと、ヒストグラムみたいなのを平たく書きますと、「0」が5、「1」が2、「2」が5、「3」が5、「4」がなくて「5」が1、というようなヒストグラムに…なぜに2回いうし!(※メッソウでした。)どう見ても「弁当には入っていなくてもいいよ@最初から15個入りのやつを買うからね」みたいなお客さまっ。…ありがとうございましたっ!!(※ありがとうございましたはどう見てもイメージです。)
★消費者庁「加工食品品質表示基準Q&A(弁当、惣菜関係)」を遠目に眺める(談)
・朝日新聞です(2007年11月28日)
http://www.asahi.com/special/071031/TKY200711280340.html
> JAS法は原材料名を重量順に表示するよう定めているが、同社は乾燥したホタテ貝柱を豚肉の次に多い2番目の原材料と表記。実際にはタマネギや、でんぷん、小麦粉の方が多かった。また、「干しホタテ貝柱」と乾燥品であることを記すべきところ「ホタテ貝柱」とだけ記していた。同社は「水やだし汁に浸した際の重量で計算していた」と釈明した。
「干しホタテ貝柱」は「乾燥品」ですっ!! …いえ、学習の本筋からは逸れますが、KY軒のホームページで「内容」と書かれているソレのさらに中身を数えたときのソレを何と呼べばいいのかというのは、まったくわかりませんでしたとしょーじきに申し上げます。(※定まっているのかいないのかも簡単にはわからない、の意。)
※全国の駅弁業者は国鉄(や、その前身)の(工学博士がじきじきに計算したみたいな)指導のもと(げふ)特に製造数の多い業者については、ある時代までは民間の弁当業者より圧倒的に近代化された「官営模範○○!」([3197],[3507])みたいなのだと思われてきたのであって、(工場の衛生面について)厚生省のほうからは特に何もいうことはございませんみたいな…本当でしょうか。農林水産省が云々というのは、(『旧運輸省な案件!』となる)駅構内だけでなく市中で、まったくふつうに食品として販売されるようになってきたので(旧運輸省とは関係なく)厳しく見ますよと、…もっと本当でしょうか。
・[3291]
> > レストランTD(2階)では(略)現時点でも『お子さまカレー』は卵、小麦、乳製品不使用とのことでした。
> > 日本食堂(1階)では、卵、小麦、乳製品不使用のメニューは『枝豆』のみとのことです。
> > ポテトフライは、カキフライなどと同じフライヤーの油で揚げているとのこと
> > ドリンクバーはこの画像の形状のためカルピスと同じ注ぎ口なので、乳アレルギーの場合は少し捨ててからコップに入れた方がいいかもです。
> 大混雑(そのうち小さなお子さまが多数)でもさばけるメニューといって、とっても『大きな知見!』がありそうです。わあいキロカロリー。([3285])レッツ前の人がカルピスを選ばないよう祈りながら行列だっ。…うーん。
こう、あくまで「JRな理屈」とでもいいましょうか(カロリーやアレルギー物質について表示しようというソレがはたらかないといいましょうか)、市中とは異なる流儀で営業されている感があって、素朴にはかなり戸惑いがあります。
・「学生の献立作成能力における調理用語と調理法についての検討」(2007年)
https://www.jstage.jst.go.jp/article/kasei/59/0/59_0_58/_article/-char/ja/
> 管理栄養士・栄養士は、教育課程の中でそれらを盛り込んだ教育を受けるが、献立ができないとの指摘を受けることが多い。
> 言葉のイメージの自由記述では、「献立作成」:難しい51%、「料理」:好き55%、「食事」:楽しい62%等である。χ2検定で「居住」と「食品価格」「油通し」「食事作りの機会」「食事の買い物の機会」「家族と食事をする機会」等にやや強い相関がみられ、「切り方名称の正解数」によるグループの母平均の差による検定では、それらの項目のほか、「面取り」「ねる」「砕く」などに差がみられた。
お隣さんからネギをもらったよ。わあぃ…庭のニワトリをひねり、とりがらをくだき…えーっ。ひねるのはこんにゃく、くだくのは豆類くらいにしておこうかな。うん。(※カリキュラムがかなり古いんでしょ、の意。)
・「献立構成要素」の用例です
https://www.jstage.jst.go.jp/article/eiyogakuzashi1941/53/2/53_2_119/_pdf
ま、確かに「献立構成要素」ではあるんですけど、組合せ最適化みたいなのをコンピューターがピコピコいいながらドットインパクトプリンタみたいなのでカタカナで出力されてきそうだよね。(※あくまでイメージです。)
・「商品構成の検討」の用例です
https://www.mizuho-ir.co.jp/solution/research/telecom/datamining/shien/index.html
> CF(Collaborative Filtering、協調フィルタリング)、カーネル法等を用いたデータマイニング・ソリューションも提供しています。
> 商品構成の検討や販売戦略の立案
> キーワード
> ベイズ統計、データマイニング、ドメイン知識、事象モデル化、グラフィカルモデリング、CF(協調フィルタリング)、カーネル法
おおー! …じゃなくて、「商品構成」といってしまうと、KY軒でいう「商品ラインナップ」のほうを指してしまいます。
・「加工食品品質表示基準Q&A(弁当、惣菜関係)」消費者庁の見解です
http://www.caa.go.jp/foods/qa/kakou02_qa.html
ここでいう原材料名というわけではないですが、KY軒のホームページで書かれている弁当の「内容」から、読点(「、」)で区切って抽出される文字列を数えています。(※抽出といっても、じぶんの目で見てですけど。)一般にいう「おかずの品数」の「品数」にあたる数え方で、ごはんも1つと数えています(※味付けや具の異なるごはんは別々に数えます)。一方、括弧書きで「トッピング」や、煮物の中身などが書かれているものは数えません(煮物として1つとのみ数えます)。「別添:タルタルソース」も数えません。なお、あんかけの丼(どんぶり)は、ごはんとあんで2つと数えます。
★多変量解析のツボは『前処理』にあり(仮)
※あくまでドラフトです。そのまま教材になさらぬよう。(教材はじぶんでつくりましょう。もっとよいデータセットを探してください。)
円形やら2段重ねやらという弁当もある中で、より本質的な変量として扱うにはどうしたらよいでしょうか。その答えはこちらっ!!(…はやっ!!)
■表0.2 (無題)容器の縦横比 (販売時) | 容器の容積 (cm3) | 容器の面積 (喫食時) (cm2) | 内容 (品数) | 1品あたり エネルギー (シウマイを除く) (kcal) | シウマイ (個) | シウマイ率 (エネルギー比) | | | | | | | | 1.379 | 1015 | 290 | 9 | 70 | 5 | 0.23 | 0.769 | 1685 | 421 | 9 | 93 | 2 | 0.08 | 1 | 1625 | 361 | 11 | 83 | 3 | 0.11 | 1 | 1243 | 289 | 12 | 62 | 3 | 0.13 | 2.132 | 706 | 177 | 3 | 178 | 0 | 0 | 1.378 | 711 | 222 | 7 | 79 | 1 | 0.07 | 1.351 | 888 | 296 | 7 | 87 | 0 | 0 | 0.585 | 763 | 219 | 10 | 46 | 1 | 0.08 | 0.529 | 1270 | 306 | 13 | 51 | 0 | 0 | 0.876 | 1125 | 274 | 13 | 43 | 3 | 0.17 | 1 | 1394 | 310 | 14 | 44 | 2 | 0.11 | 0.778 | 882 | 252 | 9 | 59 | 2 | 0.13 | 1.379 | 1160 | 290 | 7 | 115 | 3 | 0.13 | 1.250 | 871 | 218 | 5 | 164 | 2 | 0.09 | 1.250 | 871 | 218 | 6 | 104 | 2 | 0.12 | 1.379 | 1160 | 290 | 8 | 88 | 3 | 0.14 | 0 | 1253 | 161 | 2 | 210 | 0 | 0 | 0 | 1253 | 161 | 2 | 237 | 0 | 0 |
「(無題)」っ!! …表のキャプションは、このあとつけます。
45分から120分くらい、あーでもこーでも…ゴクリ…といいながら考えてみた結果のほうになります!(※表現は演出であり、実際とは異なる場合がありますのでご注意ください。)
この表0.2をきわめて外形的にのみ眺めてわたしたち「わずか7列18行でしょ@かんたんかんたん!」などと(略)まったくもって簡単ではないということが、この一連の記事でわかってきますよ。本当でしょうか。その答えはぜひ、この一連の記事を繰り返し、何度も関連箇所に立ち戻りながらお読みいただいて確かめていっていただければと思います。(棒読み)
・「シウマイ」1個のエネルギーは「34kcal」とされています。弁当以外を含め、KY軒の「商品ラインナップ」において「シウマイ」は看板商品として扱われていますので、それに沿った扱いをここでもします
・「容器の面積」にすれば円形でも同じように扱えますが、キャラクターの形とか新幹線の形とかになっちゃうと困ってしまいます(※KY軒にはありません)
・ある弁当に対するポヤンとしたイメージの形成にあっては、販売時の包装紙のデザインが大きくかかわっていそうです。というわけで「縦横比」にしてみます(※「1」は正方形、1より大きいと縦長、小さいと横長で、便宜的に円形は「0」としています:容器そのものとしては「短辺」「長辺」ですが、包装紙のデザインによって弁当としての「縦」「横」が決まるわけです:これまた「喫食時」には包装紙のデザイン上の向きを無視して食べる人もいましょう)
・2段重ねの弁当については、面積は喫食時、縦横比は販売時のソレとします。丼については、喫食時に内蓋は使わないものとしています
KY軒が誇る「シウマイ率23%!」の『弁当A』(仮名)っ。カロリーでいって、実に4分の1近くを「シウマイ」が占めるんですよ。さすが『弁当A』(仮名)ですね、わかります。
(KY軒にはありませんが)容器がキャラクターの形といって、その実、顔が円形ですとか、楕円に「耳」が生えたくらいならいいんですけどね。(※恐縮です!)フタだけに「耳」が生えているなら、(あくまで「喫食時」に目に入るという意味で)内側の直径だけに着目すればいいのかなぁ。(棒読み)
・「容器の形状は複雑でない」のイメージです
http://www.hottomotto.com/files/menu_img/mob_1573.jpg
http://www.jr-eki.com/aptrain/event/food/img/bento_02.jpg
※(記載がない場合)測るのがたいへんというだけで、「面積」として扱えば、扱えない容器はないとの理解でございます。しかし、極端に複雑な形状の容器はないはずだという暗黙の前提でもあり、「縦横比」として捉えられる形状の違い以外は無視するということになるわけでもございます。
ここで「価格」は無視していいのでしょうか。
逆にいえば、「価格」は「内容」と「販売見込み数(≒製造数)」が決まれば、かなり自動的に決まってくるものであり、先に「価格」を決めて「内容」を調節するということもなくはないでしょうが、あまりそれが先行すると本末転倒ともいえ、つまり、「価格」は弁当そのものの特徴を表す指標(※特徴量ともいう)とはいいがたいと思えてきます。(※あくまで私見です!)
こうして、表0.2のキャプションは「弁当の外観および内容に関する変量」だということになるとわかってきます。
商品としての弁当そのものが持つ物理的な特徴量ともいえましょうか。「味」や「彩り」「食感」などはまったく扱いませんが、きっと「内容(品数)」と相関があろうということは漠然と想像されましょう。仮には、そういう「献立の細やかさ(仮)」みたいなのが「内容(品数)」に反映されているとみなせば、もはや「内容(品数)」という指標だけを取り上げればよいのだという早合点です。…早合点ここにきわまれりとはこのことだよ。(棒読み)
※だからといって品数さえ多ければいいみたいなカスタマーレビューや『星の数!』みたいなのがあふれる現代社会というのはいかがなものかね的な…ゲフンゲフン。(※私見です。)
★いかなる分析をすべきか
7変量(列)×18サンプル(行)の行列をにぎりしめて我々、行列のできる…えーと、どこに並べばよかったんでしたっけ&そこからですかっ。(違)
ハレでも(ざーざー)アメでも(ごろごろ)アラシでも(ぴよぴよぴよ)うぃーあーざあーるういずえくせらー…ズ(ぱらぼーら)「R with Excel」、で、ございます。
※みなさま、ただいまの「で、ございます」は『阪急用語!』([3332])で、ございます。(※実在のいかなる阪急とも無関係です。)
■「R with Excel」(※Excelでの操作については省略)Excelからコピーしたデータを Rに取り込み | mydata30=read.table("clipboard",h=0) | | | 相関行列をつくる | round(cor(mydata30),3) # 正しくできたことを確かめます | RからExcelに 相関行列の表をコピーする | write.table(round(cor(mydata30),3), file="clipboard", sep="\t") | | | k-means(k=5)を500回実行して ベストな解を出す | mykm305 <- kmeans(mydata30, 5, nstart=500) # 同様にk=2...8くらいまでバババババ | 散布図を描く | library(mclust) clPairs(mydata30, cl=mykm305$cluster) # プロットされた図を右クリックしてコピーや保存をします | RからExcelに クラスタリングの結果をコピーする | write.table(cbind(mykm302$cluster, mykm303$cluster, mykm304$cluster, mykm305$cluster, mykm306$cluster, mykm307$cluster, mykm308$cluster), file="clipboard", sep="\t", row.names=FALSE) # 横にk=2,3,...,8、縦にサンプル(n=18) | | | 主成分分析を実行する | mycmp30 <- prcomp(mydata30, scale=TRUE) | 主成分分析の結果のサマリーを表示する | summary(mycmp30) # 各主成分の累積寄与率が表示されます | RからExcelに 主成分得点の表をコピーする | write.table(mycmp30$x, file="clipboard", sep="\t") | RからExcelに 構造ベクトル(主成分と元の変数との相関係数) の表をコピーする | write.table(mycmp30$rotation, file="clipboard", sep="\t") |
※データフレーム名「mycmp」:まい・こんぽ! まい・こんぽ! セパレートされたコンポーネント、の意。prcomp関数の出力を受けるとはいいながら「MCA」などというケッタイなソレ(=後述)も視野に入れますので「PCA」とも「myprin」(…まい・ぷりん!)とも決めつけません。…その発想はなかった!
・…ゆあ・えるむ!
https://goo.gl/maps/crGNLXxXZMH2
https://goo.gl/maps/XjiRjjMRcm32
https://goo.gl/maps/X8quHGCcCY42
https://goo.gl/maps/g96FhuFvyRo
https://goo.gl/maps/kkxHHaNFde12
https://goo.gl/maps/fPDNffV3afz
https://goo.gl/maps/kABLuXpcYqr
https://goo.gl/maps/MnxpHnDsQ622
https://goo.gl/maps/HQqFhMXqH4M2
同じクラスにえるむさんとか3人ずつくらいいたりしませんかねぇ。(違)
・[3528]
> あえて「読みかた」を示せば、「まい・でーた」「まい・べりー」「まい・けーえむ・さん」「まい・ひえ」(「まい・はいあー」)「まい・かっと・なな」でしょうか。「まい」の部分を「あい」「えりん」「けん」「まこ」など、じぶんの名前(短い愛称)にしてもいいのです。▼ここには何をつけてもいいんだよ、ということと、▼じぶんがつけたデータフレーム名だよ、ということが(ほかの人にも)わかるようになっていればよいということです。
> 「Verification」に供するデータなのだから「べりー」と呼べばいいのではないかといって、データフレーム名としても「まい・べりー」と呼んでみようというわけでした。
> 名前はなるべく直感的に、という話でございました。「「Verification」に供するデータ」を「べりー」と呼べれば、どれだけ直感的になることでしょう。
・清く正しい「コンポーネントとは」のイメージです
http://picavr.uunyan.com/video_signal.jpg
ケーブルのつなぎかたみたいなのだけ大きな声ではっきりゆっくり繰り返し説明しても…ねぇ。映像信号の説明をすれば一目瞭然。これだね。(※見解です。)
・「セパレートされたコンポーネント」のイメージです
http://nojima-audiosquare.blogspot.jp/2014/10/luxmanc-700u.html
ことばとしての意味は違うけど、まさにコンポーネントとはこのことだよ。(※特徴や役割ごとに別々に分けるということだよ、の意。)まい・こんぽ! ちょっとコンポをとっておいてくれるかなぁスタビンズくぅん。(※スタビンズ君はイメージです。)
■表0.3 相関行列 | V1 | V2 | V3 | V4 | V5 | V6 | V7 | V1 | 1 | | | | | | | V2 | -0.430 | 1 | | | | | | V3 | 0.123 | 0.653 | 1 | | | | | V4 | 0.003 | 0.347 | 0.679 | 1 | | | | V5 | -0.194 | -0.044 | -0.616 | -0.905 | 1 | | |
---|
V6 | 0.298 | 0.220 | 0.475 | 0.441 | -0.452 | 1 | |
---|
V7 | 0.281 | 0.071 | 0.378 | 0.465 | -0.527 | 0.970 | 1 |
---|
ま、Excelに貼り付けてから右上半分を消しますかねぇ。1行目は1マスずれちゃうんだよね。うん。(マウスと呼ばれる高度な入力デバイスをふるふる動かしながら無表情で言うとGOOD!!)
相関係数の絶対値が0.95を超える(=ナントカ統計量とかいうやつが10を超える)などの…ゾッとするね。相関係数(の絶対値)が大きくなってあたりまえな変量のペアは別として、▼「V3」と「V5」、▼「V5」と「V7」、▼「V3」と「V6」、▼「V4」と「V7」、それに▼「V4」と「V6」の相関係数(の絶対値)がそれなりに大きいようすがわかります。
※いいですか、ここでは変量の名前を伏せて、相関係数だけ見るのですよ、いいですね? …という意味で、ヘッダーはこういうことになっているというタテマエにございます。
※ナントカ統計量などと仰々しく呼んで…絶対値で見たいし対数っぽいといいなといって二乗してから逆数みたいにするんでしょ。そういう理屈が忘れられて既にナントカ統計量とのみ呼ばれて「10を超える!」などという1点のみが絶対的な基準として使われるなら、かえって「相関係数の絶対値が0.95を超える」といったほうがどれだけ『わかりいい!』ことでしょう。(※私見です。)
・(相関係数からの)「ナントカ統計量」日経ビッグデータの用例です
http://business.nikkeibp.co.jp/atclbdt/15/recipe/120400037/
※(ExcelやRで)素朴には散布図を描けない(巨大な)データ件数だということはお察ししつつ、だからといって…ねぇ。「1000個ごとに1つ!」みたいなサンプリングをしてデータ件数を絞って(=それ以外の操作はしないで)、あくまで散布図を描くべきですよねぇ。(※見解です。)
・「SPSSのヘルプに従う」はセイギ!(2005年4月22日)
https://www.ec.kagawa-u.ac.jp/~hori/spss/tokidoki21.html#211
http://www.tokyo-tosho.co.jp/books/ISBN4-489-00710-8.html
http://www.tokyo-tosho.co.jp/img/00710.JPG
> SPSS ときど記(211)
> 小塩真司『SPSSとAmosによる心理・調査データ解析』東京書籍 (2004)の重回帰分析の章でちょっと気づいたことが.
せんせい「素」でお間違えになってますけど『東京図書』ですぜ★なんてこったい!!
> spssの条件指標の用語ヘルプを参照のこと。
> 固有値の条件指標から次元4と次元5に問題があり、それぞれ、変数x1,x2,x3 と変数x1,x3が多重共線性の問題を起こしている。こんれらのうち2変数を削除すればとりあえず多重共線性による推定値の不安定さは回避できるが、その変数が重要変数である場合は問題が残る。x4を削除しても多重共線性は残る。
> Fox(1997)はきちんと書いてませんが、 sqrt(vif)>2 で要チェックと考えているようです。そうするとVIF>4で要チェックの水準にあります。この水準だとだいたい重相関係数が0.9以上になるということです。
「0.867」では4を超えるとわかります。おおー(略)「15%くらい」については[3483]を参照。そして、底を10にするなどの(大巾に中略)われわれ2つの変量の関係というペアワイズなものを見ているんですから、「10」というところに意味は無くて、「2のn乗」というnみたいなのに意味があるはずですよね。2、4、8、16といって区切りながら何かの判断の目安にすることには意味があっても、「10」には明らかに意味がないですよね。…本当でしょうか。
> 行動科学では10以上になることはまずないという指摘もあるので、論理的ミスをしないかぎりあまり心配することないことかもしれない。
じぶんの分野(=というものがはっきりしていて)の定番のデータをヘルプどおりに判断する限り、困る(迷う)ことはないだろう、しかし、それより前の段階でポヤンと「勉強したいなぁ」くらいのとき、大いに困る(どうしていいのかまったくわからない!)のだというわけです。
・カタカナ3つでエー・リー・ンーっ「ペアワイズな(の)」は形容詞です
https://ejje.weblio.jp/content/pairwise
※…エリン! どこから出てきたしエリン。なぜにエリンだし。「英語で数学」について[3571]からの流れをどことなく引きずっています。ひらがなみっつでちはなちゃん(字余り)…うわぁじぶんでちゃん付けしていいのはしゃべらないキャラクターだけだよね&敬称を取っても名前っぽい名前がいいよね([3403])。
・(相関係数からの)ナントカ統計量なんていってないで「何らかの極限関数が解析性を失う」の用例です
http://www.math.sci.hokudai.ac.jp/sympo/mcyr/2015/pdf/00100_chino_yuki.pdf
> (平衡)統計力学では,臨界現象を何らかの極限関数が解析性を失うことで特徴付ける.ここで言う極限とは無限体積極限のことであり,今回はn → ∞ のことである.
ところで、Rのcor関数で何も指定せずに、すなわちピアソンの(いちばんふつーの)相関係数を出したわけですけれど、これでよかったのでしょうか。
・おしえて! ティップスせんせい「第67節」
http://cse.naro.affrc.go.jp/takezawa/r-tips/r/67.html
> , method="spearman"
> , method="kendall"
わずか18行しかないデータでケンドールせんせい…関係性を過小評価しますよね。ゼッタイ、過小評価ですよねっ。じゃあ(※)スピアマンせんせい…うーん。職員室でお茶をすすりながらスピアマンせんせい(違)わずか18行しかない中でもさらに同値(同じ順位)が散見されるので、ここでは何もいわずにピアソンせんせいの机に直行するのがよいとわかります。…あのっ!!(以下略)
・呼ばれましては「ピアソンせんせい」ご近影のイメージです
https://upload.wikimedia.org/wikipedia/commons/7/7f/Karl_Pearson.jpg
・われわれピアソンせんせいの机に直行しながら…「見なかったことにしようみたいな机」のイメージです
https://images-na.ssl-images-amazon.com/images/I/71vSPmXs2AL.jpg
わずか18行しかないので、ここで相関係数(相関行列)を見ようというのは、きわめて便宜的なことであります。「相関係数がいくつだから○○と考えられる」などとは、いっさい述べてはいけません、いいですね?(棒読み)
★きわめて便宜的に「とりあえずk-means」してみてカワサキっ(仮)
(基準は何でもいいから)18個のデータを適当に色分けして(色付きで)散布図を眺めたいといって、けーまえっ! kmeans関数([3528])にほうり込んでみようと、こういうわけです。「とりあえずビール」については[3343]ほかを参照。いや〜、お客さん、うちには確かにビールもあるけど、うちでわざわざビールを頼むということはどういうことかわかってる? …えーっ。(※気難しいたいしょーはイメージです。)「閉館時間まぎわの『てっぱく』でビール!」については[3553]を参照。
※ほうり込む:「投げる」(他人任せにする)とか「放り出す」(すべきことをやらない)というニュアンスはありませんよ、といって「ほうり」とひらがなで書いてみます。いまとなっては「ほうり」は副詞みたいなものですよね。
・…赤いカワサキがいっぱい。カワサキっ、カワサキっ!
https://goo.gl/maps/4zx89zcehtq
https://goo.gl/maps/gWLHfTPaLKL2
https://goo.gl/maps/K4KunmrZ58G2
https://goo.gl/maps/ywSUwJ3NkDL2
https://goo.gl/maps/x5A62koh1zj
https://goo.gl/maps/Bkrbmfy8eDG2
https://goo.gl/maps/Kc6L8op8hq82
https://goo.gl/maps/TcDWaW3gFDF2
https://goo.gl/maps/GncBq5xJ3HC2
https://goo.gl/maps/xWoc35arEvR2
※何をどう覚え間違えたのやら(字足らず)「赤い電車」を「カワサキ」と呼び。…「赤い電車」を「カワサキ」と呼びぃ〜…ハイ!(「赤い電車」が描かれた絵札をすたぱーんしてみせながら元気よくいうとGOOD!!)
・京浜急行電鉄「関東大手私鉄のステンレス車としては初の試み 約11年ぶりに新造車を全面塗装!(略)」(2017年11月29日)
http://www.keikyu.co.jp/company/news/2017/20171129HP_17148MT.html
http://www.gm-store.co.jp/blog/gmstore-staff/archives/13032
http://www.tamiya.com/japan/products/list.html?genre_item=501070
> 塗装にすることで、光が当たった時の艶も強調されます。
> 塗装にすることで、光が当たった時の艶も強調されます。
> 全面エナメル塗装
> 全面エナメル塗装
…いっけなーい! エナメル塗料(赤)買ってこなくちゃ!!(違)
■表0.4 「BCSS / TSS」の挙動(k=2...8)k | BCSS / TSS | | | 2 | 0.655 | 3 | 0.855 | 4 | 0.897 | 5 | 0.937 | 6 | 0.963 | 7 | 0.972 | 8 | 0.980 |
k=3とk=4とk=5の「散布図行列!(※散布図だけの多変量連関図)」をポヤンと眺めつつ、「V1は縦横比だったよね=0のが丼だよね」との知識を有する我々むにゃーっと「k=3では丼がほかの商品と区別されないよね」といって、少なくともk=4以上がよさそうだと決めつけるわけです。(あくまで決めつけです。)
k=4とk=5のソレ(同)をポヤンと凝視しつつわたしたち、「V2は容積だったよね@たっぷりたっぷり!」…じゃなくて、「丼を除き、k=4では容積を3水準、k=5では4水準に分けていることになるね」といって、しかし「容積を4水準に分けちゃうと『ハラキリ!(そこでデータを区切っちゃだめっ)』みたいになっちゃうよね(分けかたは奇数にして「中くらい!」との水準が欲しいよね)」などと決めつけるわけです。(あくまで決めつけです。)
・「k=4」の「散布図行列!」のイメージです
https://neorail.jp/forum/uploads/k4mae_n18p7_bento.png
![https://neorail.jp/forum/uploads/k4mae_n18p7_bento.png]()
相関行列(表0.3)で「0.003」などということになっていた「V1」「V4」を散布図で見ますと、「V1」が0、「V4」が2でいずれも最小値である「丼A」「丼B」(いずれも仮名)が「外れ値」になっており、この2つを除けば相関がはっきりするとわかります。ここだけExcelでむにゃーっと(中略)「-0.747」ということです。たまたま今回は18行のうち末尾の2行が外れ値だというデータであるので、Rでは「round(cor(head(mydata30,16)),3)」してもいいんですよ。うん。
■表0.3(改) 相関行列(丼を除く) | V1 | V2 | V3 | V4 | V5 | V6 | V7 | V1 | 1 | | | | | | | V2 | -0.426 | 1 | | | | | | V3 | -0.442 | 0.923 | 1 | | | | | V4 | -0.747 | 0.591 | 0.519 | 1 | | | |
---|
V5 | 0.742 | -0.296 | -0.363 | -0.865 | 1 | | |
---|
V6 | -0.027 | 0.346 | 0.304 | 0.235 | -0.19 | 1 | | V7 | -0.086 | 0.186 | 0.155 | 0.25 | -0.287 | 0.962 | 1 |
しかし、このデータは7列×18行の多変量データなのです。特定の変量のペアだけを見て「外れ値」だのと決めつけていくことはしにくい(※)ことがわかります。相関係数(相関行列)を見ながらあーだこーだ…それは無理だといって、最もそのままデータのありようを見せてくれる散布図行列をこそ、じっくり見ようではないかと、こういうわけです。
※ここまでわたしたち、「KY軒」だということすら忘れてデータだけを見ようとしてきましたが、やはり「KY軒」なんですよ。現に「商品ラインナップ」に並んでいるということをもって、1つたりともかかすことのできない「KY軒」の「商品ラインナップ」なのですよ。古そうに見えて実は新しい「新しい最新式!」の「丼A」「丼B」(いずれも仮名)が「商品ラインナップ」にあるという、それが「KY軒」なのですよ。(※恐縮でした。)
「丼A」「丼B」(いずれも仮名)がきわめて特徴的だという知識を得ながらも、▼そのことは分析の中で(アルゴリズムや指標によって)浮かび上がってこないといけない(わたしたちが「外れ値」だと決めつけて先に除外してよいとはいえない)、また、▼まっとうな分析手法であれば「丼A」「丼B」(いずれも仮名)の特徴をきちんと識別できるはずだ(⇔できていなければ分析がおかしい)と、ここでは考えることにしておきます。
そういうわけで改めて散布図行列を見ます。510円の「弁当E」(仮名)なる、駅弁としては全国共通どこにでもあるふつーの「弁当E」(仮名)なのだけれど、これをKY軒で見ると異質に思えるわみたいな知識を持つ我々、k-meansでは510円の「弁当E」(仮名)をうまく分離できていない(※できようがない)ことがわかるというものです。
・Google ストリートビュー 「510円の「弁当E」(仮名)のイメージはこちらでよろしかったでしょうか」付近のイメージになります
https://goo.gl/maps/ZxJ3EdmyYZr
■表0.5 k-meansによるクラスタリングの結果(各弁当が割り当てられたクラスターの番号)商品名 (仮名) | k=2 | k=3 | k=4 | k=5 | k=6 | k=7 | k=8 | | | | | | | | | 弁当A | 2 | 3 | 1 | 5 | 3 | 7 | 6 |
---|
弁当B | 1 | 2 | 2 | 2 | 2 | 3 | 5 | 弁当C | 1 | 2 | 2 | 2 | 2 | 3 | 5 | 弁当D | 1 | 1 | 1 | 3 | 6 | 4 | 7 | 弁当E | 2 | 3 | 3 | 1 | 1 | 1 | 4 | 弁当F | 2 | 3 | 3 | 1 | 1 | 1 | 4 | 弁当G | 2 | 3 | 3 | 5 | 4 | 2 | 8 | 弁当H | 2 | 3 | 3 | 1 | 1 | 1 | 4 | 弁当I | 1 | 1 | 1 | 3 | 6 | 4 | 7 | 季節弁当A | 1 | 1 | 1 | 3 | 3 | 6 | 3 | 季節弁当B | 1 | 1 | 1 | 3 | 6 | 4 | 1 | 季節弁当C | 2 | 3 | 3 | 5 | 4 | 2 | 8 | ピラフ類A | 1 | 1 | 1 | 3 | 3 | 6 | 3 | ピラフ類B | 2 | 3 | 3 | 5 | 4 | 2 | 8 | ピラフ類C | 2 | 3 | 3 | 5 | 4 | 2 | 8 | ピラフ類D | 1 | 1 | 1 | 3 | 3 | 6 | 3 | 丼A | 1 | 1 | 4 | 4 | 5 | 5 | 2 |
---|
丼B | 1 | 1 | 4 | 4 | 5 | 5 | 2 |
---|
※表中の各マスの数字は、その弁当が割り当てられたクラスターの番号です。クラスターの番号の数字の大小に意味はありません。数字は実行のたびに変わります。
「弁当E」(仮名)を特徴的だとみなすことができない(表0.2で用意した7変量をそのままかけた)k-means(※)では考察のしようがないとはわかりつつも、この多変量データのありようが部分的にでもわかればいいやといって勝手に納得しながら、もう少しだけk-meansの結果を見てみましょう。
※「弁当E」(仮名)がいずれかのクラスターの中心になっているのではないかなどと疑いながらクラスタリングの結果を詳しく見ていくとk-means(というアルゴリズム)についての理解が深められそうですが、ここでは割愛します。
k=4以上で「丼A」「丼B」(いずれも仮名)が分離されたとわかるほか、k=7以上ではシウマイ「5個」を誇る「弁当A」(仮名)が分離されたとわかります。k=9以上は見なくてよいのかといって、うーん。23=8ですし、仮に木構造で分類したときに3段もあれば&わたしたち、KY軒の売店の『ショーウインドー』の前で「4段以上の決定木!」を使いますかねぇ&そっちですよっ。(※あくまで私見です。)
・(参考)NRE「駅弁屋(新宿5号売店)」のイメージです
http://www.nre.co.jp/Portals/0/ekiben/ekibenyashinjukueki/shop/%E6%96%B0%E5%AE%BF%EF%BC%95%E5%8F%B7%E5%A3%B2%E5%BA%97%E3%83%BB%E5%A4%96%E8%A6%B3%E3%81%9D%E3%81%AE%EF%BC%91_9787.JPG
https://goo.gl/maps/QMDB4r9FkU62
https://goo.gl/maps/epvkUEu3PhJ2
https://goo.gl/maps/119Hjr4ZxV72
(KY軒にはありませんが)お客さまの『スムゥズな意思決定』を「サポート!」すべく、「ショーウインドー」そのものが「弁当類」と「サンドイッチ類」とに『大きく2分!(にふんじゃないよにぶんだよそのせつなにぶん)』されているではありませんか! これにはさすがの駅弁博士もびっくりです。(棒読み)
・Google ストリートビュー 新宿駅24時34分!「新宿6号売店」付近
https://goo.gl/maps/dogPYka3ikn
むしろ「おにぎり類」と「サンドイッチ類」だけの売店として切り分けられて…いえ、それ以前に「乗り場」そのものが(列車の距離ごとに)分けられているんですよぉ。…その発想はなかった!(棒読み)
中編([3574])に続きます。
|