・「弁護士試験のような難易度の高い試験」とはにわが知りたい(仮) ・【シャキシャキレタスハムサンド】「小林秀雄」かく語らずを語りき(仮) ・【PRISMの30年】日経リサーチかく語りき ・さらに日経リサーチ「決定木」からの「ランダムフォレスト」
(約31000字)
[3564]の続きです。
・[3564]
> 明治大学「5つの評価項目」くらいが(決定木みたいなのですたぱーんできる)限度だと思われましょう。じぶんが(じぶんの責任で)意思決定するのに使う(※どんなにややこしくて未確認でも進行形で意思決定しないといけない、の意)ならともかく、他人の行動や志向を分析しようという複雑な目的を掲げながら決定木などと(略)あまり多段・多分岐のソレをうのみにするのもいけないことだとは思われましょう。
本当でしょうか。たわし残念なわたし、調べながら少しずつわかっていこうと思いました。
※たわしは残念賞です。景品の色やサイズは選べませんのでご注意ください。キャリッジリターンでお願いします。
★「弁護士試験のような難易度の高い試験」とはにわが知りたい(仮)
・「2012年末に全ての判別関数の問題が解決」SASのコラムです(2016年3月11日)
https://www.sas.com/ja_jp/industry/higher-education/fieldvoice/colum-shinmura/colum-shinmura-05.html
> SAS,JMPの入門の解説書に用いていた「学生(の合否判定)データ」を分析することにした.このデータは研究には適していないと思っていたが,一般位置にないデータでありIP-OLDF(と判別分析)のとんでもない瑕疵が分かった.
> (略)私は従来の統計的判別関数は「MNM=0のデータを認識できないばかりか,変数選択法に問題があり,判別分析の鬼門である」と確信するようになった.
※ここでいう「関数」:統計ソフトに実装された一連の処理を利用者が呼び出して使うという意味での「関数」ですね、わかります。
…SAS! SAS!(略)みなさま「R」に移られてまいりますと、パッケージの実装が適切なのか心配になりながらわたしたち、できる範囲でホワイトボックスとして(実装された「関数」の処理内容を)理解しようというモチベーションが出てくるわけです。(「R」な界隈は)実に教育的だなぁ。(※あくまで私見です。)
> 「判別スコアがf(x)=0になるケースをどちらに判別してよいかは未解決の問題」の説明に適している.
そこで内申点の重みを定員の30%に対しては変えるなどして、なんとか合否を判定しよう、しかも受験生の不利益にならないようにしようとされてきたわけです。(それでも残る微妙な者については校長の責任のもと『インテリジェントエイヤ!』[3542]…ぐふっ。「補欠」もあれば「辞退」もありますからね&そっちですよっ。)
> スイス1000フラン紙幣の真札と偽札各100枚の6個の計測値データである.散布図でみると容易に2変数で判別できることが分かるが,なぜ誰もMNM=0にきずかなかったか不思議である.
> 従来の線形判別関数は「線形分離可能なデータを認識できないばかりか,判別分析の研究者もその困難さを理解していない」ことが分かる.
変量(変数)が6つあるといえばわたしたち、なかば自動的に6変量(6次元)の多変量解析が必要と思いこむわけですが、その実、6個のうち2個の変量(2次元つまり平面あまつさえ散布図1枚)だけ見れば偽札の判別ができるのだと、残りの4変量は紙幣を紙幣らしくみせる特徴量ではある(=だから計測された=)けれども、偽札の見分けにはまったく寄与しないのだと、このような理解でよろしかったでしょうかみたいなのから始めましょうか&そこからですかっ。(※恐縮です。)
※きわめてメッソウながら、こう、なんといいましょうか、(6列の)変量の取り上げかたとしてもそこに入る(100行の)データとしても、『おもちゃ銀行券!』ならびに『B国の造幣局が造ったA国の偽札!』みたいなの(上と下の外れ値みたいなの)は想定していないということですね、わかります。統計の授業で例題として使われる「妙に都合のいいデータ!」って、こうですね。(棒読み)
> この研究の過程で,MNM=0のデータを容易に作ることを思いついた.アイリスデータやCPDデータといったMNM=0でない2群の平均値間の距離を拡大することでMNM=0のデータに作り替えることができる.しかし,各種変数選択法の検定統計量は元のデータと同じ判別モデルを選ぶことが分かった.すなわち,変数選択法はMNM=0か否かを考慮していないことになる.
きわめて比ゆ的には、画像認識のプログラムに野球のボールをエスプレッソコーヒーだと思わせることができてしまう([3569])というプログラム上の「すき間みたいなの(盲点ともいう)」と同じようなことをおっしゃっているのだろうと想像してみます。あくまでそういうのは「すき間みたいなの(盲点ともいう)」であって、各手法がこれまで想定してきた主流の利用法においては大きな問題は起きないと理解していてよいのでしょうか&もっと本当でしょうか。
※ここでいう「盲点」:プログラム(やセンサーデバイスなど)による処理上、まったく使われないデータ(や画像)の領域がある、の意。
> ハードマージン最大化SVMは,線形分離可能な判別問題に対して,パターン認識で研究されてきたマージン概念を用い2つのサポートベクタ(SV)を考える.
> 現実の問題は線形分離可能なことは少ないので,SVの反対側に幾つかのケースがくること許す式(4)のソフトマージン最大化SVM(S-SVM)が提案された.多くの才能ある研究者がこれを見て何も思わないのが不思議である.数理計画法という最適化手法使いながら,重みcの決め方が恣意的である.またSVMの研究者は,不思議なことにMNM=0のデータの判別を取り上げていない.
> 重みcの決め方が恣意的である
> 重みcの決め方が恣意的である
ソフトマージン最大化(=という工学的なテクニック!)そのものを気持ち悪いと思へとおっしゃいますかっ。おぬし数学マニアじゃのう@このこのぅ!(※数学と工学が別の専門分野であるという理解が先決ですぞ、の意。)
> 多くのデータは正規分布しないのに正規分布と仮定して求めたLDFは,評価データで良いことを期待するのが間違いであることが分かる.ロジスティック回帰が医学や経済で使われているのは,実務家はデータに合わせたロジスティック曲線で判別する方が良いことを知っているためである.
※LDF:フィッシャーの線形判別関数。⇒線形判別分析(LDA:Linear Discriminant Analysis)。
いや、ま、その、あたりまえすぎませんでしょうか&本当でしょうか。
> 結局,MNM基準は評価データで誤分類確率をOverestimateしないことが分かった.
それはそれとしまして(※恐縮です)、このセンセイならではの持ち味(※)は、やはりここからですね。
※私立大学に所属する数学・統計のセンセイとして、最大のエフォートを割かれておられるのはなんといっても入試業務であろう、の意。
> 100問の設問を大学入試センター試験にならい4個の大問に分類し,得点分布の10%点,50%点,90%点の3水準で検討する.10%点は実際の合否判定基準であり,50%点は判別超平面近辺に多くの学生がくる試験,90%点は弁護士試験のような難易度の高い試験を想定している.
いわゆる(私大の)「センター試験方式」での受験者数がある学部で2000人いるとき、下位の200人(10%)は問答無用で不合格と判定するというのが「実際の合否判定基準」ということですね、念のため。
> 今年のセンター試験の国語は小林秀雄の大問が平均点を押し下げて話題になった.改定IP-OLDFで合否判定を行えば,多分10%や50%で合否判定に不要で,90%では変数増加法で最初に選ばれる可能性が高い.万が一90%でも合否判定に必要なければ,受験生のどの水準の合否判定にも役立たないことが分かる.
ぐふっ(以下略)。「弁護士試験のような難易度の高い試験」と例示されておられる「90%点の水準」では、きちんと活用されたのではないか(=後述)と期待します。(※あくまで勝手な期待です。)
※ここでいう「難易度」とは、個々の問題のソレではなく、試験(の枠組み)としてどの水準で合格者を採る(合格とする)かという、そこの基準の甘い厳しいというソレでございます。
「多分10%や50%で合否判定に不要」とは「ほとんどの者は正答しないので小林秀雄が出たからといって不利にはなっていない」ということで、「90%では変数増加法で最初に選ばれる可能性が高い」とは、まったくそうだと思われましょう。しかし、IRT的な発想になっていけば、「得点が低いのに小林秀雄は正答した者」みたいなの(…ギクッ)はこれまた低く評価されてくるのだろうと、たぶんこういうわけです。ふつーのひとであるかないかという2値の判別としては、「得点が低いのに小林秀雄は正答した者」は「ふつーじゃない」ほうに分類できないといけないわけです。…ギクッ!!(棒読み)
> 合否判定を判別分析してもそれを将来別の試験に適用できないという指摘もあるが,入試やセンター試験の大問では出題するジャンルは決まっている.少なくとも大問で,合否判定に必要な設問と不要な設問を学習データで継続的に検討すれば,試験の質保証に役立つ.
> 2群のある計測値の値が全て等しい場合は,LDF,QDF,平均の差の検定はこの変数を正しく省いている.2群のある計測値が別々の一定値の場合,この変数だけで判別でき判別に重要であるが省いている.この場合はこの変数は判別に役立つ旨をメッセージで出力すべきであろう.
> 今回のように一方の計測値が一定で,他方がばらつく場合,LDFも平均の差の検定も判別に重要として計算するがQDFは誤判別する.
> 多くの統計ソフトは全ての場合で,分散共分散行列はランク落ちするので,これらの変数を省いているが,利用者はこのことに留意して判別に役立つか否かを別途検討する必要がある.
SASのUI(メッセージの表示)の改良に貢献する内容はこのあたりでございました。
> 医学診断などは,判別超平面上に異常群に属する患者さんが一番多くくる試験のデータと同じ構造をもっている.品質管理やパターン認識でも同じことが言える.LDFやQDFで誤分類確率が例えば0.3であってもMNM=0であることを否定できない.またゲノム判別で,少ないケース数から多くの説明変数を用いた分散共分散行列の推定が行われているが,その信頼性に対して懸念する.
実務上はどんなにどろどろしていようとも、アレをソレしてナニかねキミぃ(略)ゲフンゲフン。実効的な対策が既に打たれているであろうと思いたいわけですけれども、…本当でしょうか。
・「盲点」とは
https://kotobank.jp/word/%E7%9B%B2%E7%82%B9-142119
・IBM「変数増加法(条件付き)」「変数増加法(尤度比)」「変数増加法(Wald)」のイメージです
https://www.ibm.com/support/knowledgecenter/ja/SSLVMB_24.0.0/spss/regression/logistic_regression_methods.html
> ステップワイズ選択法の1つ。スコア統計量の有意性に基づいて投入をテストし、
> 条件付きパラメーター推定値に基づく尤度比統計量の確率
> 最大偏尤度推定値に基づく尤度比統計量の確率
> Wald統計量の確率
> に基づいて除去をテストします。
…あのっ! Waldさんには申し訳ないんですけど、読めませーん。
・外国人名「Wald」どう読む?
https://www.weblio.jp/content/Wald
> ワルド
> ルーマニア生まれのアメリカの数理統計学者。
あくまで『統計学用語!』として対訳された人名のカナ表記であるとの印象が拭えません。本当でしょうか。
> ウォールド; ウォルド; ワールド; ワルト; ワルド
> ヴァルト (Wald) はドイツ語で「森」を意味する語。
ご本人のじきじきの発音が唯一いちばん(?)『正しい』んですよ。(※あくまで想像です。同じ理屈で、人名の漢字や読みはいくらでも『殖える!』んですよ。情報処理と通信のための文字コードはあるけれども、それはそれ、あくまで本人が書いたりしゃべったりしたものが『正しい』んですよ。)
・ウィキペディア日本語版の見解です
https://ja.wikipedia.org/wiki/%E3%82%A8%E3%82%A4%E3%83%96%E3%83%A9%E3%83%8F%E3%83%A0%E3%83%BB%E3%82%A6%E3%82%A9%E3%83%BC%E3%83%AB%E3%83%89
https://ja.wikipedia.org/wiki/%E3%83%AB%E3%83%BC%E3%83%9E%E3%83%8B%E3%82%A2%E8%AA%9E
> エイブラハム・ウォールド
> またはアーブラハム・ヴァルト
> ハンガリー表記ではWald Ábrahám (ヴァルド・アーブラハーム)。
> 1902年にクルージュ=ナポカで生まれる。1927年にウィーン大学の数学科に入学、1931年に博士号を取得。1938年の渡米後は、コロンビア大学に在籍した。
> カール・メンガーの弟子
「メンガーのスポンジ」については[3460]を参照。
> モルドバ語はルーマニア語とほぼ同じ言語である。アルーマニア語は、ルーマニア語の方言とされる事もあるが、意思疎通が困難である。
> 現在のルーマニア語諸方言は、7世紀から10世紀のある時点までは、ひとつの言語だったと考えられている。
> 語彙にスラヴ語の影響が多く20%がスラヴ語からの借用である。ただし、200語程度の基礎語彙に限れば90%以上がラテン語に由来する。また、マジャル語やトルコ語の影響も受けている。
「7世紀から10世紀のある時点」に何が起きたのかといって(略)同じことが『平成時代!』にも起きたんですよ。「RST」([3568])といって、標準語([3399],[3403],[3441],[3469])とも呼ばれる「国語」できっちりかっちり書かれた教科書や事典、新聞記事などを題材にして「リーディングスキル」を調べたときに正答率が低い代わりに、じぶんたちにとっての母語らしきもの(地理的平面でなく時間方向でいう方言みたいなの)は必ずちゃんとあるんですよ(なければ困りますからね)。パークなのだ新井センセイっ…じゃなくて、「国語の危機なのだ!」ではあっても「母語獲得の危機なのだ!」ではないんですよ。まったく別の方言空間で社会がつくられていくなら、この先、(いまの若者が将来)必ず困るとは決まっていないかもなのですよ。標準語ができなくても方言で生活できる、それも保障できてこその(豊かな=多様性があって粘り強い=矢が3本あるみたいな)国というものですぞ。生活様式が大きく異なる先住民などの言語運用能力を語彙数だけで決めつけるような失礼さが、特別に認められた(≒ユネスコが認めた)先住民だけでなく、いたってふつうの若者に対してもまた、あってはいけないのですよ。(※あくまで現時点での私見です。)
・NHK「過酷な大地が生んだ アボリジニ天文学」(2017年9月14日放送)
https://www.nhk.or.jp/docudocu/program/1861/2120198/index.html
> 面白かった 1
> 泣けた 0
> 癒やされた 0
> 発見があった 1
> 考えさせられた 0
> (感想スタンプの募集は終了しました。)
…えーっ。ここは1つ「考えさせられた」を選んでおくことにいたしましょうか。(※もっとえーっ。)
・(公財)毛利報公会 毛利博物館/国指定名勝 毛利氏庭園「三子教訓状」のイメージです
http://www.c-able.ne.jp/~mouri-m/ha_gaiyou/index.html?n=10
http://cs3.c-able.ne.jp/cgi-bin/mouri-m/cgi-bin/syuzouhin_image/ha_gaiyou_s_10.jpg
・[3540] そっちは八丈島ですよぅ
> レッツおじゃれハチジョー! 「明日葉の天ぷら付きたぬきうどん」…じゃなくて、資源エネルギー庁ほか「地熱発電所」については「ふわコレ(4)」([3533])をぺっけぇ参照。(※そのような方言等は実在してございません。)
…コレジャナイ。
・[3441]
> > 現代オランダ標準語での発音は[zɔndɑx]でゾンダッハに近い。
・[3469] 「SD法」
> がーっといってあーっといってちゅどーん! 大阪のヒトはもとよりそうであったとかなんとか。大阪ではまともな調査ができていなかったとか、調査の時だけ標準語(「標準語は敬語!」[3399],[3403]も参照)でタテマエ的な回答をなさっていたとか、ありません? …ギクッ。「日常日本語会話」については[3103],[3132]も参照。
・[3218]
> > 欧米では、「Flesch-Kincaid readability tests(フレッシュ・キンケイド式可読性テスト)」として学術的に知られているテストです。
わあぃ新鮮金鶏印!(違)外国の人名を無理にカタカナで表記しようなどと(略)「左R右L」(ひだりあーる・みぎえる)については[3062]を参照いただきながらですね(大巾に中略)やーい新鮮金鶏印っ。
・「キンケイ」のイメージです
https://ja.wikipedia.org/wiki/%E3%82%AD%E3%83%B3%E3%82%B1%E3%82%A4
https://upload.wikimedia.org/wikipedia/commons/5/50/ChrysolophusPictus3.jpg
> 飼育が容易であるため、1740年頃から海外に愛玩目的で輸出されていた。原産地では古くから知られ、装飾品や絵画の題材にされていたが、西欧の学者間ではあまりにも豪奢な体色から実在が信じられず、長らく想像上の鳥と思われていた。
・沖縄科学技術大学院大学学園法に基づく沖縄科学技術大学院大学 生物多様性・複雑性研究ユニット(エヴァン・エコノモ)「鳥の羽色を科学する」
https://www.oist.jp/ja/news-center/news/2016/11/2/27571
※…いえ、ま、その、なんといいましょうか、アレですよ。「放送大学学園法に基づく放送大学」の応用編ですよね、わかります。…その発想はなかった!(棒読み)「放送大学学園様」(2007年)のイメージについては[3406]を参照。
> 主な2系統の合計137種のツグミ科の鳥類を仔細に調べました。ツグミは3000万年近くも前からオーストラリアを起源として存在しています。本研究では、これらのツグミが、世界の他の地域に移動する前に多様化していったことが示唆されています。
「殖える!」ために多様化し、かなり殖えたので多様化し、さらに殖えたので移動したというような(以下略)でしょうか&本当でしょうか。
> 鳥類はヒトよりも幅広い色帯を認識することができる上、鳥類の多くが「人間が識別できる」スペクトラムに加え、紫外線のスペクトラムにおける色を識別することができるため、ヒトに比べ、鳥類のほうが色のパターンの違いがより明白に見ることができるのです。
われわれ高いところを飛びながら遠い目で(中略)紫外線が見えれば天気予報ができそうですよね。…その発想はなかった!(違)
・レファレンス協同データベース「鳥の羽根の色がどのような構造になっているかについて書かれた論文がないか。」(2012年2月14日)
http://crd.ndl.go.jp/reference/detail?page=ref_view&id=1000101565
> 「昆虫や鳥など多くの生物が輝きのある鮮やかな色を持っている。これらの色は構造色と呼ばれ、自然界のフォトニック材料とでも呼ぶべき微細な構造体にその起源がある(以下略)」とあったことから、「構造色」もキーワードにインターネット検索。
色素がないと発色できないのと違って、いくらでも、ちょっとプリズムと鏡の角度を変えるような進化(もしくは退化)をしていただくだけで、(鳥の羽を構成する物質の構造としては)簡単に無数の色に見せることができるとわかります。色の違いは(比ゆ的には)バーコードくらいのそれではあろうかとの(※じぶんが知っているバーコードと1ビットでも違っていればまったく反応しないなどの=鳥のセカイではまったく紛らわしさはないのだろうという)早合点ですよね、わかります。我々(ヒト)が鳥類のカラフルな羽を愛でる(あまつさえ蒐集したり分類したりしてほくそ笑む)ような見方を、鳥はまったくぜんぜんちっともしていないはずだと…本当でしょうか。(※あくまで素人です。)
・[3460]
> へい! こちら「講談社学術文庫」でよろしかったでしょうか付近お1つになりまァす!(どんぶりに指を入れながら運ぶとGOOD!!)
…コレジャナイ。
> 「なんでいまさら水の構造研究なのか?」SPring-8 News(2011年1月)
> 超光沢!「ガブリエルのラッパ」のイメージです
> 超細密感!「メンガーのスポンジ」のイメージです
> ぬるぬる動く!「シェルピンスキーのギャスケット」のイメージです
> 「偽色とはにわを知りたい」付近
> 科学技術館「ガブリエルのラッパ」のイメージです
> 「バスタブ渦の起源」(2012年7月)
> 「梨地とはにわを知りたい」付近
> ゆんゆん!「scale invariance」のイメージです
> ゆんゆん!「GREEN」(1990年)のイメージです
> ゆんゆん!「FM STATION」のイメージです
こう、なんといいましょうか、行き場のない話題というものは無理にでも行き場をつくってお収めしてみせる(中略)ですよね。山手線と八高線の話題に数学の話題を無理やり挟むというのも…なんだかなぁ。
★【シャキシャキレタスハムサンド】「小林秀雄」かく語らずを語りき(仮)
といいながら、国語です。
・朝日新聞「小林秀雄のせい? センター試験国語平均点が大幅ダウン」(2013年1月24日)
http://www.asahi.com/edu/center-exam/TKY201301240041.html
> 大手予備校の自主集計によると、1問目の正答率が軒並み、例年に比べて低かった。
それでも1問目を正答した者あらば、スバラシイ。得点の高い領域での分解能があがるとはこのことだよ。(棒読み)国語が圧倒的に得意であるにもかかわらず過小評価されてきたような一部の受験生にとって(本来、適正な評価を受けたかったという意味ではまったく正当に)有利になることはあっても、多くの受験生にとって(不当に)不利になることはなかったと読み解けそうですよ。えー、どれどれ?(略)
> 小林秀雄(1902〜83)は戦前から活躍した批評家で、「近代批評の神様」とも言われた。代表作「無常といふ事」のなかの一文「美しい『花』がある 『花』の美しさという様なものはない」のように、意表をつく言い回しが多いために文意をとりにくく、昔から受験生を苦しめてきた。
何が出てもどんとこい! 平均点よりちょっと上さえ取れればいいんですよ&満点を目指す必要なんてないんですよ。何が出るか、むしろ楽しみですらあるんですよ。
> 代ゼミの**さんは「センターは公平性を重視し、教科書や過去問とのダブりを気にすると言われてきた。出題されなくなり、今の受験生の知らない小林の出題は公平性に配慮した結果かもしれない」と話す。
・林先生と称するペルソナいわく付近
https://ameblo.jp/itsuyaruka/entry-11456135226.html
> 4問―80分という、極めて厳しい「パッケージ」を構成する問題としての妥当性は議論の余地の残る、「思いやりに欠ける」問題だっという認識も抱いています。
そんなセッショウなっ…(教科)国語に関しては予備校のお世話になる必要がまったくない水準にある受験生にとっては、きわめて正当に(国語の学力が)評価されうる出題であったと、予備校の及ばない領域において認められましょう。
> 問5の答えにくさの本当の理由がわかりますか? まず、心情が生じた理由が問われているからと言って、勝手に「想像」で解くようなことはやめましょう。
そのようなことを、予備校で教わる『文法用語!』『長文読解用語!』あまつさえ『センター試験用語!』みたいなのを駆使しながら(用語を援用しながら、受験生が頭の中できわめて言語的=表層的に)理解しているレヴェルでは、その程度だということなんですよ。そのことは正しく検出できなければ、国語の試験として適格性を欠くとすらいえるのですよ。んだんだ!(※あくまで私見です。)すらっと読んで一瞬でわかったり、あるいは「わからないところがあった(それはこことここと、そこよ)⇒わからないとわかったところを結びつけるだけでなんかわかってきたみたいな…気がする!」ということ自体が1パスの通読でポヤンと把握でき、必要な箇所だけ辞書・事典や別の文献を読みに行く、あなたが大学で学ぶうちにやがてあたりまえとなってゆく(と期待される)そのような精緻な読みかたが、「21個もの注」を使って(「持ち込み不可」のセンター試験の中で模擬的に)体験できるのだと、こういうわけです。
> 注が21個もあって、読む「リズム」がずたずたに引き裂かれる
いや〜、注があればおいしいヒントだからぜんぶ読むようになどと指導するほうがいかんですばい。(※うまい指導ではないと思いますけど、一般的な想像です。)
★【PRISMの30年】日経リサーチかく語りき
こう、にわか調べで業務に当たらねばならぬといって、参照される可能性が高いのは(※ウィキペディアは私的にこっそり見るとしまして…げふ)「かみつたセンセイのサイト!」と「日経リサーチの解説ページ!」ではなかろうかと、こういうわけです。(※恐縮です。)
※この2者は、さまざまな手法を体系的に取り上げ、参考文献(少なくとも主要な人名や発表年)を示しているので勉強に使ってもよろしいのだと、こういうわけです。そういう意味ではウィキペディアが挙げる参考文献(※査読を受けた論文に限る)を追っていくのもよいことです。参考文献や見出し語間の関連を追うために使う限りウィキペディアは参考図書そのものであり、とりたてて使用禁止になどする必要がない&むしろ禁止すると不当に情報探索が不便になることがわかります。
このうち、実務上の注意点が一見、親切そうに書かれてあるのが日経リサーチさんであると、このような認識にございます。本当でしょうか。
・「MDS(多次元尺度構成法)は得られる情報が少ない」日経リサーチの見解です
https://www.nikkei-r.co.jp/glossary/id=1605
> 実際の企業におけるマーケティング調査の分析では、MDSはあまり利用されていない。それはデータ収集方法に難点があるということと、得られる情報が少ないためである。
※ここでいう「MDS」:数量化理論とも見境がなく、(質的)データの集めかたから(質的データの)コーディングのしかた、それに(3次元以上の多変量データを)平面にプロットするための「主成分分析」(=後述)に相当する計算のしかたまで混然一体と指して「MDS」と呼ばれています。
> 一対比較法。商品のペアを提示して、似ている程度を評点で回答してもらう。ペアは、n(n-1)/2 だけあるので、一般に20個くらいの商品を調査する場合を考えると、190ものペアを提示しなければならない。学術研究用にMDSだけの実験をするのなら可能だが、実際の市場調査に組み込むことはできない。
でっかい我々、日当たりのよい塔の上で『パラボラアンテナみたいな顔!』をキメてみせながら(中略)ぱらぼーら!(※表現は演出です。)
できるビジネスマンの期待のホープこと日経リサーチいわく「学術研究」は無駄なことをしている! …とんでもない。企業でも、「今までにない!」商品開発や「向こう15年!」みたいな分析のために、特別に費用を計上して1回限りの詳細な検討を行なうとあらば、出番があるのではないでしょうか。むしろ日経リサーチの筆者が指摘したい注意点はそちらであって、「同じ項目で定期的に調査して推移を見る目的」には使いにくい(=費用がバクハツしますぞ)ということですよね。んだんだ。
・超サイバー!「ぱらぼーら!(きらーん)」のイメージです(※模型は岡本太郎記念現代芸術振興財団公認商品です)
https://upload.wikimedia.org/wikipedia/ja/3/30/%E7%9B%AE%E3%81%8C%E5%85%89%E3%82%8B%E5%A4%AA%E9%99%BD%E3%81%AE%E5%A1%94.JPG
https://goo.gl/maps/bpYXBEt9BEm
https://images-na.ssl-images-amazon.com/images/I/71fYe1z9ckL._SL1500_.jpg
一対比較の限界(ならびに「数量化V類」「数量化VI類」)については[3401],[3469]も参照。組合せって、素朴に想像されるよりははるかに簡単にバクハツするんですよ([3532])。一方、単に組合せの総数が多くなるから(時間がかかって)たいへんだということではない「総当たり4すくみ」について[3312]も参照。現実にはかなり簡単なことしか聞けない(少数の、表面的で回答がぶれにくい内容しか調査項目に入れられない)ということについては「K市交・K重工」([3420])も参照。
> 因子分析などのようにイメージ項目など別の質問がなく、直接に類似(非類似)の程度を質問しているだけなので、平面(座標)の意味を解釈する手がかりが間接的・主観的になる。因子負荷行列のような手掛かりとなる情報がないのが欠点である。
・[3532]
> nstart=500
> 「『本質的に』17種類ほどの点がある中から、『本質的に』3つの初期中心をとる組合せ」などと考えると「680」などと…本当でしょうか。点が37個あるから二乗して1369だっ…いやいやいや、37個から10個をとる組合せで348,330,136(約3.5億!)だっ…えーっ。(棒読み)
(なぜか手元にある既に計量された多変量データの特徴が)よくわからないからとりあえず可視化できればいいやといいながらMDSを使おうとするわたしたちを何気にいきなり『奈落の底!』に突き落とすのが日経リサーチさんの説明なんです。それでは何を使いさえすればよいと早合点すればいいんでしょうか。そんな都合のいい早合点は可能なのでしょうか。…ギクッ。
・日経リサーチ「共分散構造分析(構造方程式モデル:SEM)」
https://www.nikkei-r.co.jp/glossary/id=1620
> 初期の発想は下図のように因子分析とパス解析を統合したモデルであるが、理論的な研究が進み、モデルはより一般化されている。
> 重回帰分析は目的変数が1個の統計モデルである。パス解析はそれを発展させた、複数の目的変数を含む統計モデルである。モデルが複雑になるため、方程式ではなくパス図で表現するため、パス解析という名前がついている。
> SEMは1970年代にアカデミアで理論的研究が進んだ。1980年代には実用的なソフトウエアが開発され、応用の時代に入った。日本では1990年代に参考書の出版が始まり、普及した。産業界での応用は、日本経済新聞社の企業評価モデルであるPRISMが発表されたことで、定性的な構成概念を含む評価モデルに適用され、応用的な広がりにつながった。
> 日本経済が1989年末に「バブル崩壊」したことを受けて、日本経済新聞社は新しい企業評価モデルを模索し、日経リサーチとPRISMを共同開発。1994年に第1回の企業ランキングを発表した。CASMAとの相違は、財務データによる収益性や成長力を評価するだけでなく、永続的な成長のための社会性や環境適合性など財務面だけではない定性的側面を評価に盛り込んだモデルにしたことで、そのため潜在変数を導入したSEMが採用されたのである。
この説明を日経リサーチのページでコンパクトに読むことができるというのは意義深いような気がしてきます。(※詳しければいいというものでもなく、まったく知らないのもアレだという、そういう中でちょうどいい、の意。)
なお、『平成時代!』をいかに分析していくべきかについては[3521],[3563]なども参照。1972年と1989年を境に、つまり2回の(経済でいう※)ショックみたいなのを経て、まったくすっかり(経済に限らず社会の)様相が変わったのだという早合点にございました。(テレビ、自動車、エアコンの複数台保有ひいては週末だけ過ごす場所での住民税などという)この30年を分析していくということが、2019年度からしばらくの間のホットなテーマになろうかという話題でございました。(※きわめてメッソウではございました。)
※通時的には1972年と1989年を経ての1992年ごろのほうが、阪神大震災(を挟んでの変化)より大きいのではないか、東日本大震災は最近すぎるので、まだよくわからないと、このような早合点でよろしかったでしょうかみたいな状態で恐縮です。(※あくまで素人です。)
> 日経リサーチのブランド戦略サーベイは、企業ブランド価値を調査データから構成しており、総合PQ(Perception Quotient:知覚指数)をSEMの検証的因子分析モデルで算出している。
> 企業価値は時価総額などの貨幣価値で表現もされるが、ブランド価値を無形価値・資産と考え潜在変数で表現するという観点からSEMを適用した。
> 指数は、5つの調査項目の第1主成分得点である。
「5つの調査項目」から「SEMの検証的因子分析モデルで算出」した「第1主成分得点」が「総合PQ」と呼ぶ指数であるという説明でございました。
※主成分分析とはどう違うのか、あるいは主成分分析と等価なのかというところを、「共分散構造分析」を見出し語としたページだからといって端折らないでほしいかもですよ。本当でしょうか&結局のところわたしたち、(「第1主成分得点」を求めている部分の計算は)主成分分析(そのもの)だと思っていいんでしょうか。
…いえ、その、ま、アレですよ! 『御社!』(=会社としての日経リサーチ)を主語にした文では『わかりわるい!』ので(※恐縮です!)、「日経リサーチのブランド戦略サーベイ」そのものはとりあえずどうでもよいと考える勉強中のわたしたち、逆向きに言い換えて理解しようと、こういうわけです。
「5つの調査項目」(が既に合成された合成変数であるとみなしながら)において企業間の差を際立たせている潜在変数(の1つ)としての「第1主成分」(と呼ばれる相関行列の固有値=厚紙で隠した磁石の上に砂鉄をまいてみせるようなもの※)1つに代表させて、きわめて単純に順位付けしたり、あまつさえ「第1主成分得点」をそのまま得点とみなして「ブランド価値」の高い低いを云々するなどという(略)…なんだかなぁ。「ブランド価値」って、そんなに薄っぺらい「薄皮一枚」([3037])みたいなものなのでしょうか。あんこの先までしっぽがいっぱい…じゃなくて、積分として(データの全域を)ぜんぶ考慮しなくてよかったんでしょうか。
※形や配置のわからない磁石みたいなのが5つあるのに、厚紙で隠されてからの砂鉄しか見ないんですよ、の意。
・「宇宙ロウソク」からの「宇宙砂鉄」のイメージです
http://www.isas.jaxa.jp/ISASnews/No.252/mspace.html
http://iss.jaxa.jp/iss/jaxa_exp/onishi/diary/09/diary_160928.html
> 「宇宙でろうそくに火を灯しても,30秒も経たずに消えてしまう」
> 燃焼に必要な酸素ガスは常磁性で磁石に引付けられる性質がある。この磁気力を利用すると無重力環境でも対流を発生させることが可能である。
> この研究発表をきいた毛利衛氏は「宇宙でろうそくを灯し誕生パーテイを開けますね。」と冗談を言われたが,磁気力は対流を誘起するばかりでなく,浮力で気泡を制御するなど,その他にも今後,宇宙における利用価値は大きいのではないかと思われる。
※「誕生パーテイ」は原文ママですが毛利氏の実際の発音とは異なる可能性があります。宇宙ステーションは「燃焼実験チャンバ(CCE)」を除き火気厳禁です。ロウソクについては[3563]も参照。
・[3037]
> ユーザーインターフェースとは、本当にオモテのオモテ「薄皮一枚」のようなものですが、そこが操作性や視認性を大きく左右します。
・「全鴨席」のイメージです
https://ja.wikipedia.org/wiki/%E5%8C%97%E4%BA%AC%E3%83%80%E3%83%83%E3%82%AF
> 皮だけを薄く削ぐ店と、ある程度肉も付けて切る店がある。
> 無駄なくアヒルの様々な部位を使用した料理のフルコースを「全鴨席」(チュアンヤーシー、quányāxí)という。
> 詰め込み教育の事を「填鴨式教育」と呼ぶ。
> 闇爐とインドでナンやタンドリーチキンを焼くタンドールという炉との類似点が指摘されている。
うーん! これだけどコレジャナイみたいな「もどかしいメタファー!」って、こうですね。(棒読み)
・[3432]
> 『ガワ!』([3106])としての「でっかいまんまるボタン!(キートップ)」のほうなどかぶせて西へ東へ…おっと、落とし穴だっ。
・[3106]
> 「ガワ」(外側、あるいは「皮」)とも呼ばれる、ロボットの外装をいかにして「工作」すればいいでしょうか。
> カッコイイ=キラーン
> 「そのほうがカッコイイから!」というのも、官能評価の一つとして正しく合理的といえます。(欲をいえば、それを1人で決めず、「たくさんの人が『そのほうがカッコイイから!』といいました」といえると、もっとよいですね。)
・[3523]
> カッコイイ「ガワ」があるなら、もっとカッコよく使えばいいじゃない!(※効果音「きらーん」入りまーす…いただきましたっ。)
積極的に(…『積極的に!』みたいなのキターっ!)「ブランド価値」を『ガワ』だといいきるというのは、それはそれでカッコイイことではあるかもですが、(調査対象の企業)ぜんぶがぜんぶ、そのような「ブランド」ばかりではない(あるいは「調査対象にしない」などの恣意性が出てくる)とも思えてこないでしょうか&本当でしょうか。
あるいは、「第1主成分得点」の(企業間での)差の符号の意味が実は逆かもしれないとか、「見栄えが良くて多くの人に気に入られている八方美人みたいな企業である度合い!」が測れているだけなんだとか…ゲフンゲフン。それなら「5つの調査項目」という詳細化すら不要で、好き嫌いだけ聞いたらいいじゃないですか&「5つの調査項目」に詳細化したことが(分析上)活きているとはいえないのではないかなぁ。(わずか「5つ」の調査項目しかないのですから)実は「第1主成分得点」を求めるまでもなく、「ある1つ」の調査項目だけでおおかたの順位は既に決まっていたりしないんですかねぇ。(※きわめてげふんですけど見解です。)
・日経リサーチ「総合PQ」のイメージです
https://www.nikkei-r.co.jp/files/user/201612151923_1.png
消費者を対象とした調査項目では、「必要度」「独自性」「愛着度」「価格」「推奨意向」の「5つの調査項目」があって、ここから第1主成分だということです。仮に「主成分」と呼ばれる「潜在変数」に頼らずに読み解こうとする場合は、どんな感じに見ていくことになるでしょうか。
まずは▼「推奨意向」だけでほとんど説明できそう、次に▼景気しだいで「価格」優位なとき(なにぶん不景気ですから「安くても高級感のあるもの」が喜ばれるみたいな&色ならブラウンとかグリーンとか)と「独自性」優位なとき(かつてない好景気ですから「購買意欲をそそられる目新しいもの」が喜ばれるみたいな&色ならブラック)とにはっきり分かれそう、そして▼「必要度」「愛着度」が合成されて「推奨意向」を構成していそう、また▼このような決定木みたいな構造に「従う度合い」みたいなのも、何らかの『ありきたりな確率分布(よくある形状の分布)』に(自然に=調査がまっとうであれば自然に⇒「ベンフォードの法則」[3081]による「不正発見」[3400])従っていそうかなぁ…などと想像できそうです。(※あくまで生活実感に基づく個人の想像です。他人のことはわかりません。)
仮にそのような決定木みたいな構造(離散的な相関)が先にあるのだとしたら、そういうデータを無条件に主成分分析(のルーチン)にかけて第1主成分だけを採る(考察に使う)という分析(方法)に、きちんとした意味があるのでしょうか。みなさんで推理してみてください!(棒読み)
・「「離散的な相関」などといういいかたが実際にあるかは知らないのだけれど、ちょうどその逆みたいな用例はあったわ」みたいなの付近(※知らないのになんで見つかるんですかっ)
http://d.hatena.ne.jp/m-a-o/touch/20130623/p1
> 相関係数が0でも“高次の相互モーメント”(という呼び方があるのか知らないけど)が残ってる可能性はあるけど、相互情報量が0であれば、高次のモーメントが全部消えてることが保証される
> 相関がないけど、相互情報量が0にならない例
> 相関は0になるけど、何らかの形で関連しあっていることを疑うはず。人工的に作ったわけでない現実のデータで、相関係数を見ても相関はないけど、相互情報量を見ると、関連性が見える場合があるのかは知らない
> 最近は、赤池情報量基準とか使って決めると、それっぽいかもしれない(本当に実用的かどうかは知らないけど)。
> 一応日経225採用銘柄ばっかだし、合ってはいそうな気がする。
※「後にも先にも225つ!」([3125])も参照。
> やり方としては、相互情報量と同じで、ヒストグラムに分割して計算する。分割数は面倒なのでスタージェスの公式で決めた
ま、どーでもいいけど感(仮)みたいなのが濃厚に漂うアンニュイな記事ながらまったく律儀に計算されているので驚きだよ。(※表現は演出です。)「離散的な相関」なんて、たぶんきっとゼッタイめいびーいわないけど(…ぎゃふん)、いいたかったのは「ヒストグラムが正規分布になっていない調査項目が混じっていたら、そっちをなんとかするのが先だよね『前処理』だよね」みたいな(以下略)。
・ぱーっざつぇん!「もっちりのびーるトルコ風アイスきなこ餅味」(2006年2月)の原型とされる菓子(1997年3月)のイメージです
https://ja.wikipedia.org/wiki/%E3%81%AD%E3%82%8B%E3%81%98%E3%81%87%E3%82%89
https://kotobank.jp/word/%E5%96%84%E5%93%89-88278
http://www.jftc.go.jp/dk/soudanjirei/ryutsutorihiki/dakiawase/index.html
※ぱーっざつぇん:こちらもあわせてどうぞ(よきかなよきかな)、の意。(違)
・(意訳)「雰囲気のある雰囲気」とはにわが知りたい。これはもう、モーレツに知りたいっ。
https://thesaurus.weblio.jp/content/%E3%82%A2%E3%83%B3%E3%83%8B%E3%83%A5%E3%82%A4%E3%81%AA
https://thesaurus.weblio.jp/content/%E6%8A%97%E3%81%97%E3%81%8C%E3%81%9F%E3%81%84
・(前略)「たいていのひとは「ヒストグラム」といっただけで、もはや正規分布かそうでないかなど気にしなくなってしまうと思うわ」みたいなの付近からの「ノンパラメトリックな方法」(※キャプションはあくまで演出です)
http://home.hiroshima-u.ac.jp/tkurita/lecture/prnn/node9.html
https://thesaurus.weblio.jp/content/%E5%BA%A6%E3%81%97%E3%81%8C%E3%81%9F%E3%81%84
> この場合、ノンパラメトリックという用語は、推定したい確率密度関数の形がデータに依存して決まり、予め指定されないという意味で用いる。その意味で、ヒストグラムは、最も簡単なノンパラメトリックな手法のひとつである。しかし、ヒストグラムによって推定された密度関数は、滑らかではない。また、高次元への拡張が難しい等の問題がある。ここでは、もう少し凝った手法として、核関数に基づく方法(kernel-based methods)およびK-NN法(K-nearest-neighours methods)について紹介する。
> ただし、Parzenの窓関数を用いた推定法では推定された密度分布は滑らかでは無い。これを滑らかにするためには、核関数として滑らかなものを利用する必要がある。滑らかな核関数として、一般に、多変量正規分布に基づく核関数が良く用いられる。
その段階で正規分布じゃないかどうかというのも考えなくてよいとは決まっていないような気がしないでもないなどと(以下略)。
> Kullback-Leiblerの距離尺度を用いることが多い。
・「光子と光子の間の周波数自由度の量子相関(周波数量子もつれ)は存在しない無相関な光子群の振る舞い」の用例です
http://rs.pc.uec.ac.jp/research.html
> 光を電磁波として扱う波動光学は、光子と光子の間の周波数自由度の量子相関(周波数量子もつれ)は存在しない無相関な光子群の振る舞いを扱うことと等価とみなせます。一方で、周波数量子もつれ光子は光子−光子間に強い周波数相関を持つため、その振る舞いは従来の波動光学では説明できません。
> 例えば、物質の内部状態を量子論で扱う一方で、光を古典的な電磁波として扱う半古典近似は、多くの光と物質との相互作用を非常に良く説明してきました。一方で、量子光学的な観点から考えた場合、従来の分光計測技術で観測される時間−周波数スペクトルは、光子統計性や量子相関といった非古典光特有の性質がかき消され、平均化された光の情報しか含んでいません。半古典近似が大きな成功を収めてきたことの背景には、従来の分光計測技術では光の古典的波動としての性質しかとらえることは出来ないため、半古典近似に従う現象しか観測できなかったことも一因であると考えています。そこで、「周波数量子もつれ光子」の概念に基づいた分光計測手法を確立することにより、従来は観測することの出来なかった光と物質との新たな関わり方が見えるようになることを期待し、研究を進めています。
> やさしい解説はこちらを参照して下さい。
「やさしい解説」で同じことを述べている箇所を見つけるのが難しいって、こうですね!(棒読み)
> 光子を受け取る方法にも、大きく2種類あります。ひとつは「ホモダイン検出」という、来た光をまるごと受けてしまうアナログ的な検出方法で、スクイーズド光の測定などに使われています。一方、光子の数を数える「フォトンカウンター」はデジタル的な測り方で、私の実験室で「周波数量子もつれ光子」を測るのに使っています。このような道具立てで、まずは粒のばらつきをコントロールしようというわけですね。そして次に重要なことは、このような扱い方をすると、光の粒と粒がお互いどういう関係性を持っているのかを論じられるようになってくるということです。光を統計的に取り扱う電磁波としての見方では、取り扱うことができなかった光子の関係性−−つまり「量子もつれ」を、いよいよコントロールしていこうと思っています。
※ここでいう「統計的に取り扱う」:粒々ではなく「束」を単位とし、「密度」とも呼ばれる確率で扱う、の意。わたしたち、「瞬間の速さ」が測れないといって「はじき!」してから(積分量としての速度から)「平均の速さ」を求めようというのと同じですね、わかります。
> 光科学の伝統的な一分野で、光と物質の相互作用を扱う「分光計測」という研究分野があります。この分野は光をプローブとして使って、知りたい対象を調べようというもので、特に半導体のような物質の内部の電子状態を知るのに役立ってきました。対象を見るために光をあてるということは、光と物質の相互作用であり、これを量子力学的に見れば、光だって量子情報的だということになります。ところが従来の分光学では、見たい物質のほうは量子的に、見るためのツールである光は古典的に扱ってきたんですね。この手法を半古典理論と呼びますが、これからは光のほうも量子的に扱うことで、分光の手法がずいぶん変わってくるように思うのです。
> 現在広く行われている分光計測では、光を色ごと、時間ごと、というふうにいろんな物理量で分けながら、スペクトルの情報を得るといった実験が広く行われています。一方量子光学では、まず光子1個1個をきちんと分けて計測することが、最初の課題でした。この「光を数で分解する」ということは、言い換えれば光の強度で分光するということでもあります。このように考えてみると、分光学においては、今まで光のいろんな要素が分解されてきたのに、光の強度だけは分光の対象にされなかった。そこを測ってあげれば、いままで見過ごしてきたような光と物質の相互作用が見える可能性があるんじゃないか、と思っているんです。
とってもおいしそうでした! …じゃなくて、「やさしい解説」でした。「食味計とはにわ」については[3519]を参照してあげれば、いままで見過ごしてきたような何かが見える可能性があるんじゃないか、と思っているんです。
・[3363]
> > 6年生の「波うつ水の不思議〜ねじれる水から波うつ水へ〜」という科学研究作品が金賞を受賞しました。おめでとうございます。
> おめでとうございます。おめでとうございます。
> > 興味のある方はぜひ会場に足を運んでいただき,今後の参考にしていただければと思います。
> 今後の参考にしていただければと思います。今後の参考にしていただければと思います。
> これではまるで、「なかみはわからないけど(苦笑)、目指せ全国ぜんこくっ」といっているようなニュアンスが出てしまっていて
「ゼロフィルなフィラー!」については[3178]を参照。「いままで見過ごしてきたような何かが見える可能性があるんじゃないか、と思っているんです。」と思っていなかったら(このかた)大学でなんて研究していないでテキタウなメーカーにお勤めであっただろうと、たぶんこういうわけです。(メッソウではございますが、そのあたりの興味が大きな分かれ目なのですよ、の意。)
・[3543]
> > 研究としては、興味深いものがありますが、実用にはならないような気がします。
・[3512]
> > JA御殿場では食味計で測定できない旨み成分を加えるために米ぬかによる土作りを行っています。
実は「食味計で測定できない旨み成分を加える」ノウハウがあるということなんです&いきましょーいきましょー。(違)『食味値』って、だれのためになにを測っている指標なんですかねぇ。…ギクッ。
・「因子分析」とはにわ
https://ja.wikipedia.org/wiki/%E5%9B%A0%E5%AD%90%E5%88%86%E6%9E%90
> モデル式の形状などから主成分分析と混同されることもあるが、主成分分析は観測データから合成スコアを構築することが目的であるのに対し、因子分析は観測データが合成量であると仮定し、個々の構成要素を得ようとすることが目的であり、両者は因果関係を異にする。
> 因子分析では、因子数を事前に与える必要があるなど、数学的見地から理論的に疑義をはさむ意見もある一方、主成分分析が測定誤差を考慮要素に含めずに合成変量としている点を批判するなど(略)
心理学の論文として認めるか認めないかという話であるので、計算の方法や目的を学びたいだけのわたしたち、とりあえず後回しにしてよいとの早合点にございます。(※きわめて早合点であります!)じぶん、心理学専攻でもないのに心理学のセカイでの話に首を突っ込むなどの(略)…なんだかなぁ。翻って、「因子分析と主成分分析」を並べて説明するということ自体が心理学の文脈を借りてきて据え付けたかのような…ギクッ。より工学的には独立成分分析などを先に見たほうが、きっと『わかりいい!』んですよね。本当でしょうか。
・「独立成分分析」
https://ja.wikipedia.org/wiki/%E7%8B%AC%E7%AB%8B%E6%88%90%E5%88%86%E5%88%86%E6%9E%90
・「射影追跡回帰」
https://ja.wikipedia.org/wiki/%E5%B0%84%E5%BD%B1%E8%BF%BD%E8%B7%A1%E5%9B%9E%E5%B8%B0
・Google ストリートビュー 万博記念公園(大阪市)「広島から岡山までございます」付近(2012年4月)
https://goo.gl/maps/eAkubd1GBVL2
https://goo.gl/maps/mPjJd2HrMHr
https://goo.gl/maps/wEg5atPcx1A2
> 無料休憩所
> 無料休憩所
> 万博おもしろ自転車広場
> 超大型ローラーすべり台「やったねの木」
うーん(略)。
・万博記念公園「やったねの木」
http://www.expo70-park.jp/facility/nature/nature-08/nature-08-03/
https://goo.gl/maps/PCghDuHjd7F2
木立の向こうにあってよく見えない「やったねの木」よりGoogleのほうが気になるよね。うんうん。(※推定です。)
・日経リサーチ「固有値分解」
https://www.nikkei-r.co.jp/glossary/id=1605
> 実は、一連の次元縮小法は、ほとんど同じ解析法なのである。それは特異値分解、その特殊な場合の固有値分解である。つまり、
> (1)相関行列の固有値分解 ==> 主成分分析(因子分析)
> (2)頻度行列の特異値分解 ==> コレスポンデンス分析(数量化3類)
> (3)分散比行列の固有値分解 ==> 判別分析
> (4)距離行列の固有値分解 ==> MDS
> というように、入力データが違うだけで、データの解析法は同じである。
「それを先に言ってよ!!」の筆頭格ですよね、わかります!!(棒読み)逆にいえば、このような一般化した理解さえうのみにすれば、たいていのことはこれでいいんだというのが工学的な立場ではあろうと、これまたたぶんこういうわけです。同じ並びで「(5)隣接行列の固有値分解 ==> HITS(PageRank)」との早合点をすれば、『現代の水準!』で新規わたしたち、金型から勢いよく「いっきまーす!」のほうなどできそうですよ。えー、どれどれ?(※安心して卒業いただける、の意。)HITSについては[3483]を参照。しかし、HITSでいいのかというのが難問ではあると思いました。
・「HITSでいいのか」の1例です(2006年)
http://www.ieice.org/~de/DEWS/DEWS2006/doc/3A-o3.pdf
> Kleinbergは,HITSの権威度ベクトル(※…ざっくりざっくり!)がそれぞれ,共引用行列(※…ざっくりざっくり!)の最大固有値に対応する固有ベクトル(最大固有ベクトル)に一致することを示した.
※このフォーラムで一部の上付き・下付き文字が正しく表示できないのをいいことに、ざっくり省略しちゃいます。…ざっくりざっくり!(違)
(なまのグラフの)隣接行列そのまま放り込んでも解釈に困るといって、解釈しやすそうな行列に変えてですよ(大巾に中略)行列を2種類つかって、それぞれ固有ベクトルを求めるという説明が、最も数学的な理解でありつつ、HITSの理解のしかたとしては最も『わかりいい!』と思えてきそうですよ。本当でしょうか。(※理解の早さには個人差があります! あきらめず理解を試みましょう。うん。)
※グラフ(ネットワーク)という複雑な構造に対して、行列をn種類つかうという意味での『行列次元!』みたいなのが2次元であるところに、行列ごとに第1主成分みたいなのが出てくる、第1主成分みたいなのを2種類だしてくるのがHITSだと、こういうヘンテコな理解も可能ではあろうかとの…えーっ。(※きわめて曲解です。どんなにヘンテコでも等価ならいいんだとするかしないかは分野によりますので、あしからず。)そういう理解に立つと、第2主成分みたいなの以下をまったく捨てちゃう(見ない)のがHITSなんだと…えーっ。(いやいやいやいや、だからこそ行列を2種類つかうんですよね。しかし、それでいいのかというところまでは理解が及ばず恐縮です&くわしいひとオネガイシマス。)
・この詳しさで勉強させられても「ふにおちる!」とはとても思えないっぽいでした付近(推定)
http://www.kyoritsu-pub.co.jp/app/file/goods_contents/1073.pdf
先に主成分分析を(じぶんのPCで「R」で)(じぶんで行なった調査や実験のデータを分析するなど「いわば切実なかたちで」)使ってみて納得した上でなら、「(5)隣接行列の固有値分解 ==> HITS(PageRank)」との『直観』が得られるのだと、たぶんこういうわけです。勉強には「守るべき順序」があるということが改めてすとーんとすとすとまいる、いただけましたでしょうか。…ガッテン!!(違)
・[3125]
> 「判例」とはいっても、「具体的事実から離れた一般的な原則を定立しようとするべきではない11)」というのが末弘の批判だということで、「いわば切実なかたちで、具体的事実に直面して」、その場で判断(判決)が作られる(略)
・日経リサーチ「主成分分析」
https://www.nikkei-r.co.jp/glossary/id=1632
なんと本文は読まずに注だけを先に読もうという受験テクニックに長けた予備校生もびっくりの(略)わー。(棒読み)
> 主成分分析が代表的手法である、という意味はデータ行列の固有値分解(特異値分解)という代数的方法を利用する一連の多変量解析法の基礎となっているからである。
> 多変量解析の一連の手法は、数理的には特異値分解をしているだけである。
> これらを次元縮小の多変量解析という。
> この観点からすると、因子分析は主成分分析とはまったく異なる。主成分分析などは単なるデータ変換に過ぎないが、因子分析は誤差項を仮定して母数推定する「ガチガチの」統計モデルである。主成分分析を適用(計算)できないデータはないが、因子分析モデルに適合しない(解を得られない)データは多い。モデルの制約条件が厳しいからである。
「より平易な(解が得られる)計算をしなはれよキミたち」とかいわれちゃったりしないんでしょうか&本当でしょうか。
> Screeとは崖下に岩屑が堆積する様子を意味するのだが、スクリープロットの形がしばしばスクリーに似ているので、この名前が比喩として使われている。固有値は最初に大きな値が集中し、最後の方は小さくなるので、このような形のプロットになる。また、最後のほうの小さな固有値は誤差とみなして無視するので、誤差≒岩屑という意味にも通じる。ただし、日本の自然界には、screeのような風にさらされた岩山は少ないので、日本人には身近な比喩ではないかも知れない。
縦軸(固有値)を対数でプロットしてから同じことをいいますか。さいですか。(棒読み)
> スクリープロットは下図のように第1固有値から(つまり大きい)順に、折線グラフを描くだけである。
https://www.nikkei-r.co.jp/files/user/201701062055_1.png
> 仮に、25変数の本質的な次元数が5であるとすれば、第6固有値以降は平行になる。
うそーん。…うそーん!!(※個人の感想です。)
縦軸(固有値)を対数でプロット(※既に固有値ではあるんですけど、あえてさらに対数に=比ゆ的には『自乗!』するような感じですけど=)してからいいたまへよ。んだんだ。(※見解です。)多分にデータによるところが大きいですが、あるデータでは、縦軸を対数にしてなお、(第1からちゅどーんとすべり落ちながら)第4〜7くらいまでが曲線になり、そこに「崖下」みたいな“変化点”が見えながら、そのあとは無限に(対数軸上で)まっすぐ小さくなっていくという分布(の形状)が見えてくるかもですよ。「崖下」では、「岩屑(がんせつ)」から「砂」そして「沈泥」まで(「崖下」からの距離ごとに最大の粒の大きさを調べるなどすれば)連続的にむにゃーっと小さくなっていくんですよ。…その発想はなかった!(棒読み)
・「自乗」とはにわ(再)
https://ja.wikipedia.org/wiki/%E8%87%AA%E4%B9%97
> 比例関数を積分すると自乗の比例となることから、積分を暗黙に含む物理現象の公式には自乗が現れる。
> 関数としての自乗は(…ざっくりざっくり!)あらゆる点で無限回微分可能、という性質を持ち、これらは偏差や誤差を扱うのに便利な性質である。分散、最小二乗法などは自乗を使っているが、仮に自乗以外の関数を使った場合、算出や応用がはるかに困難になる。
・「固有値」とはにわ
https://ja.wikipedia.org/wiki/%E5%9B%BA%E6%9C%89%E5%80%A4
> 20世紀初頭、ヒルベルトは(…ざっくりざっくり!)固有値や固有ベクトルを表すために ドイツ語の eigen を冠した最初の人であり、それは1904年のことである。ドイツ語 "eigen" は「独特の」「特有の」「特徴的な」「個性的な」といったような意味があり(…ざっくりざっくり!)印象的な "eigenvalue" のほうが今日では標準的に用いられる。
・「砂」とはにわが知りたい
https://ja.wikipedia.org/wiki/%E7%A0%82
https://www.gsj.jp/geology/geomap/images/clasticsJ.jpg
https://www.gsj.jp/geology/geomap/r-classification/
> 堆積岩のもととなる砕屑物は、粒径で分類されています。
> 砕屑物のうち、礫とシルトの中間(粒径が2〜1/16mm (62.5μm) の粒子)のものをいう。
> 岩石は天然の生成物ですので、分類基準の規格に必ずあてはまるわけではありません。中間的な種類や例外が存在することもご理解ください。
ぬおー!!(略)
翻って、主成分分析でいくつ目の主成分(…「第1」より下を「主」というのもアレではありますけど=『第35主成分!!』とか…ゲフンゲフン)までに着目して考察すればよいかの判断のしかたとしては結局、同じことになるわけですけれども、対数軸にせずにプロットしてみせて『平行!』といいきるのは、ちょっとアレではないかなぁ。(※あくまで現時点での感想です。)
・「工事中です。」…『工事中です。』!!
https://oku.edu.mie-u.ac.jp/~okumura/stat/pca.html
> やさしくするために,非標準的な説明をしていますが,どうでしょうか。
> PCは主成分(principal component)のことである。
我々たへんりょーの海に浮かぶ氷山の(中略)水面から上を指して「principal」といいたい気持ちはわかりますけど、水面の下の氷山の全体があっての氷山ではあるのだという(小略)とくに水面なんてぷかぷかと(大略)ばーん!!(※途中で面倒になって説明を端折るひとをイメージしています。…ギクッ。)
我々セカイの英語ワールドみたいなのをなるほどマッチのほうなどしながら(違)「元本、元金」「依頼人(代理人ではない本人)」との用語でもある(そういうニュアンスがついてくる語である)との理解のもと、かなりの意訳を試みるとしますと、「本来の要素」「本来の成分」みたいな訳にしたかったのだと、たぶんこういうわけです。一方で、やはり「主債権者(関係者のうち筆頭の者)」「支配者(支配的な項)」という意味もまた、強いわけでございます。その両方を同時に同じ語で言える英語って、いいですねぇ…。英語で「principal component」と呼んだとき、大きいほうは「主」、そこまで大きくないものは「本来の」、きわめて小さいほうは「頼んでないのに出てきた(仮)」みたいな、そういう対数正規分布みたいなニュアンスを1語で言いきっているのですよ。…本当でしょうか。(※あくまで勝手な推定です。)
★さらに日経リサーチ「決定木」からの「ランダムフォレスト」
・日経リサーチ「決定木」の読みかた
https://www.nikkei-r.co.jp/glossary/id=1599
> 決定木はdecision treeの邦訳として定着しているが「けっていぎ」と重箱読みする人と、「けっていぼく」が正しいと主張する人がおり、国内での発音は曖昧に使われている。
ぬふっ(略)。書くけど読まない。これだね。自称「スローフード」を『標ぼう』する小難しいファストフード店のカウンターに置かれたラミネート加工のメニューに書いてあるPOP体みたいなフォントの文字列を『指で指して』「これください」みたいなの。これだね。(※私見です。)
…じゃなくてですね。
> たくさんの( n 個の)木を育て、それらの木々を集めた結果が森林になる−−というイメージから、ランダムフォレストと命名したのであろう。
> ランダムフォレスト(random forests)は機械学習のアルゴリズムのひとつで、決定木による複数の弱学習器を統合させて汎化能力を向上させる、アンサンブル学習アルゴリズムである。
> 学習方法は単純だが、一般的な決定木より性能のよい識別・予測ができる
> 非線形関係も分析できることで、線形回帰・判別の限界を超える余地がある
かなりデータによるという印象がないでしょうか&(具体的なデータが手元にあるわけでもないのに)恐縮ではございました。ものぐさでアンニュイなわたしたち(違)、1つ勉強するだけで「つぶしがきく!」という意味では『機械学習=イコール=SVM!』。これだね。(※あくまで一般的な印象を述べるものです。)
・ものぐさでアンニュイとはこのことだよ(※キャプションはイメージです)
https://internet.watch.impress.co.jp/docs/yajiuma/1089747.html
> プログラマが最も嫌うプログラミング言語に関する調査が行われ、かつてウェブ上で高いシェアを誇ったあの言語が堂々の1位に輝いた。
> 次いで二番手グループが「Delphi」「VBA」、三番手グループが「PHP」「Objective-C」「Coffeescript」「Ruby」という結果になっている。調査方法はやや特殊で、同サイトのDeveloper Storyという求職ページに登録しているプログラマが「扱いたい」と回答している言語に加点、「扱いたくない」と回答している言語を減点するという方式によるもので、投票などによる選出よりもある意味で信頼できる結果と言える。
これはこれは…ゲフンゲフン。我々「宇宙図書館」の無限とも思える書架を前にぼーぜんとしながら「ねんれい」でAND検索…じゃなくて、「年齢」と「主要顧客の業種」(どの業界でプログラムを書くのか)との「分割表」で見ないと、何もわかりませんよね。ひいては「分割表」を書かずとも、どの言語がどのくらいというのを見ただけで、御社サービス利用者の属性の比率がそのままほとんどあらわになってきそうですよね。…えーっ。(棒読み)▼オレンジ色の目印が表紙で走れ店頭っ(違)「***を256倍使うための本」…いえ、▼東京電機大学出版局(字余り)「学生のための構造化BASIC」(1995年12月)については[3564]、▼「エンジニアの夢「オライリーの技術書すべてを本棚に」、かなえます スマホゲーム「オライリー・コレクション」」(2014年4月2日)については[3299]、それに▼「「鉛筆でノコギリの歯の形をなぞりました」的な何か」については[3097]を参照。
・ついにおとずれたきゃくだよおきゃくさまだよおねーちゃん(仮)「走れ店頭っ「「オレンジ」とはにわが知りたいとはこのことだよみたいなのはこちらでよろしかったでしょうか」ございます」からの「以上1点でお買い上げ1,458円になります」付近で14キロ(…長っ)
http://www.kawade.co.jp/np/isbn/9784309278285/
http://web.kawade.co.jp/wp-content/uploads/2017/03/senshaA.jpg
※はにわ:どこから出てきたのかぜんぜんわからないような、お探しの商品や図書とはまったく無関係の、しかも単体ではまったく意味をなさない(意味不明な)キーワードがなぜかくっついて質問(検索)される、の意。
> 全国学校図書館協議会選定図書
> 全国学校図書館協議会選定図書
…えーっ。(以下略)我々どんなぶっとんだクエリー(検索要求)に対しても必ず何かを…何かであればこそ何か的なものを…お出ししてみせるのが「デキる○○!」というものですぞみたいな顔でどやぁ。(※どやぁはイメージです。)しかしいたってふつーのまじめなお客さまお客さまぶっとんだ作者名をちらりと見やって不満げときたもんだ…いや〜、全国学校図書館協議会選定図書、全国学校図書館協議会選定図書なのデスよ&ですでーすみたいなのーっ。(もっと以下略)「三ヶ日みかん少年純情派オレンジソース」については[3404]を参照。…そっちは河合塾ですよぅ。
・[3394]
> わあぃ住宅供給公社じゅうたくきょうきゅうこうしゃっ。次回も住宅供給公社じゅうたくきょうきゅうこうしゃぁ。住宅供給公社<じゅーたくきょーきゅーこーしゃ>といいさえすれば東京・銀座の鳩居堂許可局前バス停付近を先頭に14キロっ!! そのくらい耳と口先がともにヨロコブかのような錯覚(「いまの小町的にPsychoacoustics高〜い」[3310])とともにですね、一種『真の専門家!』(第1種専門家っ!)はもっと略すか(「駅広」[3159])、かえって一般化した呼びかた(「公的主体」!)で呼ぶのですよ。わあぃ「○○県住」バス停で汽車のカイシャのバスから降車する汽車に詳しい貴社の記者っ。(※そのような早口言葉等は実在してございません。)
・Google ストリートビュー 万博記念公園のイメージです
https://goo.gl/maps/Q6sqia5j7Cz
・[3561]
> 「早く到着しても文句言われ...」物流産業新聞社とはにわ付近で14キロ(※推定)
こう、いかにも「特別に探してもらって」「特別に見つけてもらった」みたいな『特別感(仮)』が得たいというのが『真のニーズ(※推定値)』なのかもですよ。「あー、それはこれですねー1,458円っす」みたいにあっけないと、かえっていけないんですよ。(※あらゆるニーズは観測値ですのでご注意ください。実際に満たされてみるまでニーズなんてどこにもなかったのですよ。…その発想はなかった!)
・お探しのお探し物はお探し済みです「ですでーす」みたいなのございます付近(※独自に推定)
https://images-na.ssl-images-amazon.com/images/I/41PAg7-A2vL._SX356_BO1,204,203,200_.jpg
https://www.amazon.co.jp/dp/4062765055
> そら
> すかん
何がどうなってどうなったのかは知らないのだけれど本書が「「ですでーす」みたいなの」といって検索されても確実にヒットしないといけないむしろヒットしないなんてことがあってはゼッタイならない101回目の100年目とはこのことだよ。…それをいただくことにするわアリガトウ。(違)
「RST試行調査」については[3568]に続きます。
|