フォーラム - neorail.jp R16

【自由研究】の話題

 → 茨城県内で必要な「主論文・野帳・掲示物」とは? 【詳細】(2017/10/19) NEW!
 → 【自由研究】の記事一覧(新着順)


【研究ホワイトボックス】

研究を楽しく「追体験」! 真っ白のキャンバスに虹色の未来を描く方法、教えます。
R with Excel prcomp | kmeans・hclust | rpart | ggvoronoi | spantree | lm NEW!


いま問うA9のココロ
信号機のG現示の色がこんなにメロンソーダなわけがない
ATC・ATSの「Aの字」も出さずに効果音と動作を実装するには
「場内信号機 作り方」「信号機に名前をつける機能」とは


発行:2017/11/19
更新:2018/5/22

[3566]

「決定木」を1度忘れて再び「ランダムフォレスト」に至る(談)


「弁護士試験のような難易度の高い試験」とはにわが知りたい(仮)
【シャキシャキレタスハムサンド】「小林秀雄」かく語らずを語りき(仮)
【PRISMの30年】日経リサーチかく語りき
さらに日経リサーチ「決定木」からの「ランダムフォレスト」

(約31000字)

 [3564]の続きです。

[3564]
 > 明治大学「5つの評価項目」くらいが(決定木みたいなのですたぱーんできる)限度だと思われましょう。じぶんが(じぶんの責任で)意思決定するのに使う(※どんなにややこしくて未確認でも進行形で意思決定しないといけない、の意)ならともかく、他人の行動や志向を分析しようという複雑な目的を掲げながら決定木などと(略)あまり多段・多分岐のソレをうのみにするのもいけないことだとは思われましょう。

 本当でしょうか。たわし残念なわたし、調べながら少しずつわかっていこうと思いました。

※たわしは残念賞です。景品の色やサイズは選べませんのでご注意ください。キャリッジリターンでお願いします。


★「弁護士試験のような難易度の高い試験」とはにわが知りたい(仮)


・「2012年末に全ての判別関数の問題が解決」SASのコラムです(2016年3月11日)
 https://www.sas.com/ja_jp/industry/higher-education/fieldvoice/colum-shinmura/colum-shinmura-05.html

 > SAS,JMPの入門の解説書に用いていた「学生(の合否判定)データ」を分析することにした.このデータは研究には適していないと思っていたが,一般位置にないデータでありIP-OLDF(と判別分析)のとんでもない瑕疵が分かった.
 > (略)私は従来の統計的判別関数は「MNM=0のデータを認識できないばかりか,変数選択法に問題があり,判別分析の鬼門である」と確信するようになった.

※ここでいう「関数」:統計ソフトに実装された一連の処理を利用者が呼び出して使うという意味での「関数」ですね、わかります。

 …SAS! SAS!(略)みなさま「R」に移られてまいりますと、パッケージの実装が適切なのか心配になりながらわたしたち、できる範囲でホワイトボックスとして(実装された「関数」の処理内容を)理解しようというモチベーションが出てくるわけです。(「R」な界隈は)実に教育的だなぁ。(※あくまで私見です。)

 > 「判別スコアがf(x)=0になるケースをどちらに判別してよいかは未解決の問題」の説明に適している.

 そこで内申点の重みを定員の30%に対しては変えるなどして、なんとか合否を判定しよう、しかも受験生の不利益にならないようにしようとされてきたわけです。(それでも残る微妙な者については校長の責任のもと『インテリジェントエイヤ!』[3542]…ぐふっ。「補欠」もあれば「辞退」もありますからね&そっちですよっ。)

 > スイス1000フラン紙幣の真札と偽札各100枚の6個の計測値データである.散布図でみると容易に2変数で判別できることが分かるが,なぜ誰もMNM=0にきずかなかったか不思議である.
 > 従来の線形判別関数は「線形分離可能なデータを認識できないばかりか,判別分析の研究者もその困難さを理解していない」ことが分かる.

 変量(変数)が6つあるといえばわたしたち、なかば自動的に6変量(6次元)の多変量解析が必要と思いこむわけですが、その実、6個のうち2個の変量(2次元つまり平面あまつさえ散布図1枚)だけ見れば偽札の判別ができるのだと、残りの4変量は紙幣を紙幣らしくみせる特徴量ではある(=だから計測された=)けれども、偽札の見分けにはまったく寄与しないのだと、このような理解でよろしかったでしょうかみたいなのから始めましょうか&そこからですかっ。(※恐縮です。)

※きわめてメッソウながら、こう、なんといいましょうか、(6列の)変量の取り上げかたとしてもそこに入る(100行の)データとしても、『おもちゃ銀行券!』ならびに『B国の造幣局が造ったA国の偽札!』みたいなの(上と下の外れ値みたいなの)は想定していないということですね、わかります。統計の授業で例題として使われる「妙に都合のいいデータ!」って、こうですね。(棒読み)

 > この研究の過程で,MNM=0のデータを容易に作ることを思いついた.アイリスデータやCPDデータといったMNM=0でない2群の平均値間の距離を拡大することでMNM=0のデータに作り替えることができる.しかし,各種変数選択法の検定統計量は元のデータと同じ判別モデルを選ぶことが分かった.すなわち,変数選択法はMNM=0か否かを考慮していないことになる.

 きわめて比ゆ的には、画像認識のプログラムに野球のボールをエスプレッソコーヒーだと思わせることができてしまう([3569])というプログラム上の「すき間みたいなの(盲点ともいう)」と同じようなことをおっしゃっているのだろうと想像してみます。あくまでそういうのは「すき間みたいなの(盲点ともいう)」であって、各手法がこれまで想定してきた主流の利用法においては大きな問題は起きないと理解していてよいのでしょうか&もっと本当でしょうか。

※ここでいう「盲点」:プログラム(やセンサーデバイスなど)による処理上、まったく使われないデータ(や画像)の領域がある、の意。

 > ハードマージン最大化SVMは,線形分離可能な判別問題に対して,パターン認識で研究されてきたマージン概念を用い2つのサポートベクタ(SV)を考える.
 > 現実の問題は線形分離可能なことは少ないので,SVの反対側に幾つかのケースがくること許す式(4)のソフトマージン最大化SVM(S-SVM)が提案された.多くの才能ある研究者がこれを見て何も思わないのが不思議である.数理計画法という最適化手法使いながら,重みcの決め方が恣意的である.またSVMの研究者は,不思議なことにMNM=0のデータの判別を取り上げていない.

 > 重みcの決め方が恣意的である
 > 重みcの決め方が恣意的である

 ソフトマージン最大化(=という工学的なテクニック!)そのものを気持ち悪いと思へとおっしゃいますかっ。おぬし数学マニアじゃのう@このこのぅ!(※数学と工学が別の専門分野であるという理解が先決ですぞ、の意。)

 > 多くのデータは正規分布しないのに正規分布と仮定して求めたLDFは,評価データで良いことを期待するのが間違いであることが分かる.ロジスティック回帰が医学や経済で使われているのは,実務家はデータに合わせたロジスティック曲線で判別する方が良いことを知っているためである.

※LDF:フィッシャーの線形判別関数。⇒線形判別分析(LDA:Linear Discriminant Analysis)。

 いや、ま、その、あたりまえすぎませんでしょうか&本当でしょうか。

 > 結局,MNM基準は評価データで誤分類確率をOverestimateしないことが分かった.

 それはそれとしまして(※恐縮です)、このセンセイならではの持ち味(※)は、やはりここからですね。

※私立大学に所属する数学・統計のセンセイとして、最大のエフォートを割かれておられるのはなんといっても入試業務であろう、の意。

 > 100問の設問を大学入試センター試験にならい4個の大問に分類し,得点分布の10%点,50%点,90%点の3水準で検討する.10%点は実際の合否判定基準であり,50%点は判別超平面近辺に多くの学生がくる試験,90%点は弁護士試験のような難易度の高い試験を想定している.

 いわゆる(私大の)「センター試験方式」での受験者数がある学部で2000人いるとき、下位の200人(10%)は問答無用で不合格と判定するというのが「実際の合否判定基準」ということですね、念のため。

 > 今年のセンター試験の国語は小林秀雄の大問が平均点を押し下げて話題になった.改定IP-OLDFで合否判定を行えば,多分10%や50%で合否判定に不要で,90%では変数増加法で最初に選ばれる可能性が高い.万が一90%でも合否判定に必要なければ,受験生のどの水準の合否判定にも役立たないことが分かる.

 ぐふっ(以下略)。「弁護士試験のような難易度の高い試験」と例示されておられる「90%点の水準」では、きちんと活用されたのではないか(=後述)と期待します。(※あくまで勝手な期待です。)

※ここでいう「難易度」とは、個々の問題のソレではなく、試験(の枠組み)としてどの水準で合格者を採る(合格とする)かという、そこの基準の甘い厳しいというソレでございます。

 「多分10%や50%で合否判定に不要」とは「ほとんどの者は正答しないので小林秀雄が出たからといって不利にはなっていない」ということで、「90%では変数増加法で最初に選ばれる可能性が高い」とは、まったくそうだと思われましょう。しかし、IRT的な発想になっていけば、「得点が低いのに小林秀雄は正答した者」みたいなの(…ギクッ)はこれまた低く評価されてくるのだろうと、たぶんこういうわけです。ふつーのひとであるかないかという2値の判別としては、「得点が低いのに小林秀雄は正答した者」は「ふつーじゃない」ほうに分類できないといけないわけです。…ギクッ!!(棒読み)

 > 合否判定を判別分析してもそれを将来別の試験に適用できないという指摘もあるが,入試やセンター試験の大問では出題するジャンルは決まっている.少なくとも大問で,合否判定に必要な設問と不要な設問を学習データで継続的に検討すれば,試験の質保証に役立つ.

 > 2群のある計測値の値が全て等しい場合は,LDF,QDF,平均の差の検定はこの変数を正しく省いている.2群のある計測値が別々の一定値の場合,この変数だけで判別でき判別に重要であるが省いている.この場合はこの変数は判別に役立つ旨をメッセージで出力すべきであろう.
 > 今回のように一方の計測値が一定で,他方がばらつく場合,LDFも平均の差の検定も判別に重要として計算するがQDFは誤判別する.
 > 多くの統計ソフトは全ての場合で,分散共分散行列はランク落ちするので,これらの変数を省いているが,利用者はこのことに留意して判別に役立つか否かを別途検討する必要がある.

 SASのUI(メッセージの表示)の改良に貢献する内容はこのあたりでございました。

 > 医学診断などは,判別超平面上に異常群に属する患者さんが一番多くくる試験のデータと同じ構造をもっている.品質管理やパターン認識でも同じことが言える.LDFやQDFで誤分類確率が例えば0.3であってもMNM=0であることを否定できない.またゲノム判別で,少ないケース数から多くの説明変数を用いた分散共分散行列の推定が行われているが,その信頼性に対して懸念する.

 実務上はどんなにどろどろしていようとも、アレをソレしてナニかねキミぃ(略)ゲフンゲフン。実効的な対策が既に打たれているであろうと思いたいわけですけれども、…本当でしょうか。

・「盲点」とは
 https://kotobank.jp/word/%E7%9B%B2%E7%82%B9-142119

・IBM「変数増加法(条件付き)」「変数増加法(尤度比)」「変数増加法(Wald)」のイメージです
 https://www.ibm.com/support/knowledgecenter/ja/SSLVMB_24.0.0/spss/regression/logistic_regression_methods.html

 > ステップワイズ選択法の1つ。スコア統計量の有意性に基づいて投入をテストし、

 >  条件付きパラメーター推定値に基づく尤度比統計量の確率
 >  最大偏尤度推定値に基づく尤度比統計量の確率
 >  Wald統計量の確率

 > に基づいて除去をテストします。

 …あのっ! Waldさんには申し訳ないんですけど、読めませーん。

・外国人名「Wald」どう読む?
 https://www.weblio.jp/content/Wald

 > ワルド
 > ルーマニア生まれのアメリカの数理統計学者。

 あくまで『統計学用語!』として対訳された人名のカナ表記であるとの印象が拭えません。本当でしょうか。

 > ウォールド; ウォルド; ワールド; ワルト; ワルド

 > ヴァルト (Wald) はドイツ語で「森」を意味する語。

 ご本人のじきじきの発音が唯一いちばん(?)『正しい』んですよ。(※あくまで想像です。同じ理屈で、人名の漢字や読みはいくらでも『殖える!』んですよ。情報処理と通信のための文字コードはあるけれども、それはそれ、あくまで本人が書いたりしゃべったりしたものが『正しい』んですよ。)

・ウィキペディア日本語版の見解です
 https://ja.wikipedia.org/wiki/%E3%82%A8%E3%82%A4%E3%83%96%E3%83%A9%E3%83%8F%E3%83%A0%E3%83%BB%E3%82%A6%E3%82%A9%E3%83%BC%E3%83%AB%E3%83%89
 https://ja.wikipedia.org/wiki/%E3%83%AB%E3%83%BC%E3%83%9E%E3%83%8B%E3%82%A2%E8%AA%9E

 > エイブラハム・ウォールド
 > またはアーブラハム・ヴァルト
 > ハンガリー表記ではWald Ábrahám (ヴァルド・アーブラハーム)。
 > 1902年にクルージュ=ナポカで生まれる。1927年にウィーン大学の数学科に入学、1931年に博士号を取得。1938年の渡米後は、コロンビア大学に在籍した。
 > カール・メンガーの弟子

 「メンガーのスポンジ」については[3460]を参照。

 > モルドバ語はルーマニア語とほぼ同じ言語である。アルーマニア語は、ルーマニア語の方言とされる事もあるが、意思疎通が困難である。

 > 現在のルーマニア語諸方言は、7世紀から10世紀のある時点までは、ひとつの言語だったと考えられている。

 > 語彙にスラヴ語の影響が多く20%がスラヴ語からの借用である。ただし、200語程度の基礎語彙に限れば90%以上がラテン語に由来する。また、マジャル語やトルコ語の影響も受けている。

 「7世紀から10世紀のある時点」に何が起きたのかといって(略)同じことが『平成時代!』にも起きたんですよ。「RST」([3568])といって、標準語([3399],[3403],[3441],[3469])とも呼ばれる「国語」できっちりかっちり書かれた教科書や事典、新聞記事などを題材にして「リーディングスキル」を調べたときに正答率が低い代わりに、じぶんたちにとっての母語らしきもの(地理的平面でなく時間方向でいう方言みたいなの)は必ずちゃんとあるんですよ(なければ困りますからね)。パークなのだ新井センセイっ…じゃなくて、「国語の危機なのだ!」ではあっても「母語獲得の危機なのだ!」ではないんですよ。まったく別の方言空間で社会がつくられていくなら、この先、(いまの若者が将来)必ず困るとは決まっていないかもなのですよ。標準語ができなくても方言で生活できる、それも保障できてこその(豊かな=多様性があって粘り強い=矢が3本あるみたいな)国というものですぞ。生活様式が大きく異なる先住民などの言語運用能力を語彙数だけで決めつけるような失礼さが、特別に認められた(≒ユネスコが認めた)先住民だけでなく、いたってふつうの若者に対してもまた、あってはいけないのですよ。(※あくまで現時点での私見です。)

・NHK「過酷な大地が生んだ アボリジニ天文学」(2017年9月14日放送)
 https://www.nhk.or.jp/docudocu/program/1861/2120198/index.html

 > 面白かった 1
 > 泣けた 0
 > 癒やされた 0
 > 発見があった 1
 > 考えさせられた 0

 > (感想スタンプの募集は終了しました。)

 …えーっ。ここは1つ「考えさせられた」を選んでおくことにいたしましょうか。(※もっとえーっ。)

・(公財)毛利報公会 毛利博物館/国指定名勝 毛利氏庭園「三子教訓状」のイメージです
 http://www.c-able.ne.jp/~mouri-m/ha_gaiyou/index.html?n=10
 http://cs3.c-able.ne.jp/cgi-bin/mouri-m/cgi-bin/syuzouhin_image/ha_gaiyou_s_10.jpg