【研究ホワイトボックス】

研究ホワイトボックス（34）行列と行列の差を検定するには

・「QAP検定」「CUG検定」「ピー・スター」「ERGM」（仮）

（約19000字）

　[3674]の続きです。

　「研究ホワイトボックス」としては[3469]に続き「グラフ理論」の話題でございます。

・わあぃ電卓。＊＊＊電卓だいすき。（※本当です）
　https://gendai.ismedia.jp/articles/-/49596

　> 「では、学校教育でレベルの高い数学はどのように教えればいいのでしょうか？」
　> 「不要ですね」

　「レベルの高い数学」とも思わないうちに道具として使ってしまへ～ということですよね。あなたがたのブラックベリーがその例ではありませんか。（棒読み）研究ホワイトボックス「自由研究総合（自由形）にクラスター分析を」については[3524]を参照。

・[3524]
　> クラスタリングは分類の手法です。コンピューターを使わなくてもクラスタリングを行なうことは可能です。しかし、コンピューターの発展あってこそ高度化しえた手法でもあります。

　> 算数の▼「長さ」（2年）、▼「立体」（4年）、▼「度数分布」（6年）、▼「二次元表」（4年）、それに▼「小数倍・分数・面積・体積」（5年）、▼「ともなって変わる量」（4年）、▼「平均・ちらばり」（6年）などの単元は、これらを学ぶ期間が5年間にもおよぶことから、総合的な知識として定着させることが課題といえます。「非階層的クラスタリング」は、これらの単元を幾何学的、手続き的の両面から総合させて理解を促す、発展的な教材に仕立てていくことが可能な題材であると考えられます。

　> 自由研究で厳密な実験が行なえないテーマに取り組む場合、「自由とはいわれるが実質、クラスター分析」というような共通認識を持っていければ、将来の文系の研究に資する「よい導入」になるのではないかという考えでございます。

　まさに電卓です。

・[3525]
　> クラスタリングを行なうにあたって、コンピューターが威力を発揮するのは、変量が多い（データの種類が多い）場合です。

　> 数学の授業やペーパーテストでは、わたしたち自身が手作業で扱える範囲の計算もしくは計算式を用いた議論しかできません

　> コンピューターの威力の一端を垣間見るには、手作業での計算が非現実的となってくる程度の、じゅうぶんに多変量なデータを例題に用いることが望まれます。

　> 6変量、625個のデータを持つデータセットがあるとします。
　> 単純には19.5万対のペア（組合せ）を1つずつ比較していくことになり、手作業での比較はじゅうぶんに非現実的といえる件数でしょう。さらに、変量は6つです。3つまでであれば、ジャングルジムのような立体のマス目を持つ収納家具にものを整理していくようなイメージをともなって考えることも可能で、4つの場合も、▼そのような部屋がもう1つある、▼マス目の中に箱が2つある、▼マス目の中で上から吊るすものと下に置くものとがある、といった、さまざまなイメージに仮託して考えることが可能ではあります。しかし、6つとなると、直感的にはどのようにイメージしてよいのか、見当もつかなくなります。

　それでも道具の使い勝手（＝『押したら手ごたえがある』、あるいは『動かない』のような＝）としてイメージすることはそれなりにできると思われないでしょうか。先に道具とその使用結果という形で多変量データというものをイメージできてから、道具のしくみ（理論）を詳しく学んでいけばよいのではないでしょうか。

・[3657]
　> …あんちょこ！！そういうものがあるのを知ってなお使わない。これだね。仕事のために勉強しないといけないひとが使うものであって、学校にいる間には使ってはならないよ（＝学校にいる意味がなくなってしまうよ）。

　そして再び電卓であります。

　> 米国の学校教育は、でこぼこの野原での運転術ばかり指導し、ハイウェイの走り方を教えないようなものだという。最大の原因は暗記重視の教育にある。本当に必要なのは、数学という道具の使い方を教えることだ。

　> 電卓を使用する学生は、そうでない学生と比べて数学に対する意識が高い。さらに、科学、技術、エンジニアリング、数学（それぞれの英語の頭文字を取って「STEM」と呼ばれる）の分野で高度な計算処理能力が求められる職業を志望する可能性も高いという。

　手計算や記憶というものがどれだけミスの温床であるかわかれば電卓だ計算機だ実験ノートはボールペンだジャーナルには訂正印だっ（違）みたいな考えかたに落ち着いていきます。うん。しかし、どこまでが誰の言ったことなのかはっきりしない記事を書いてはいけないよ。これゼッタイ。

　> 仕事の中でイノベーターとしての役割を担ううえで、深い専門知識が必要になったときに初めて高いレベルの思考法やプラットフォームの応用力が求められるのだ。

　必要もないのに勉強だけするなんて、そんなつまらないことがありますかっ。（※見解です。）

　> 「こうした道具の利用を低年齢のうちに教えないと、青年期になって必要な作業能力が身に付かない」と警告する。

　道具の使いかたというのはかなり身体的というか習慣的でもあるので、自転車やオートバイくらいのものだ（＝自動車よりも難しい⇔だからといって習得が難しいとは限らない）みたいな＆しつれいしました。

　> 小中高を問わず、修士号が教員採用基準のため、フィランドの教師は非常に権威ある職業だ。

　これだね。「フィランド」は原文ママだけどね。（棒読み）ま、「権威ある」と訳すまでに遅疑逡巡のあった感じがない薄っぺらな訳だとは思うんだがね。（※見解です。）▼「EQF」については[3387],[3386]、▼「CEFR」については[3061]、▼PISA 2015「DRAFT MATHEMATICS FRAMEWORK」（2013年3月）については[3529]を参照。

　https://lohas.nicoseiga.jp/thumb/2935145i
　https://img.animatetimes.com/news/visual/2016/1453456366_1_1_5d9662dea92a164d4ce197d0a4c7c8ce.jpg
　https://www.animate-onlineshop.jp/resize_image.php?image=07211751_5971c08810403.jpg

・[3469]
　> はっ、はーまいおにーっ[3406]

　…コレジャナイ。

　https://twitter.com/aobba246810/status/1023432033941372929

　> 心理統計法が分からなくて(苦笑)ある用語が分からなくて大学生の次男に聞いたら、分かりやすく教えてくれて大学で使っていた教科書も貸してくれた…

・[3674]
　> グラフ（ネットワーク）を作成しているのに行列計算はしないんですか。ふーん。ほー。へー…

　そのためにRがあり、MATLAB®があるのではないですか。（棒読み）使ったソフトウェアは明示しましょう。単にコマンドをたたくという以上の使いかたをしたときは疑似コードを（卒論や修論では「付録」にソースコードを）載せましょう。

　> 共立出版「ネットワーク分析第2版」（2017年5月）

　> 「ダイヤの改善」「期待待ち時間」みたいなことを、この目次にある用語だけで言い換えてからが研究だと思いました。

　> ま、そんな感じでグラフ（隣接行列）のつくりかたのほうを工夫してみせて、あとはふつーに固有ベクトル中心性を使うー（↑）みたいなことをするんじゃないんスか。

　> 「京大正門前」バス停みたいな、着目すべき経由地を見つけるために固有ベクトル中心性を使うんですね、わかります。そうして見つけたバス停をノードとしてグラフをつくりかえてから次の分析に進むんですね、わかります。

　さて（※）、わたしたちそのようにして何らかの卒論のようなものを書こうとして、…ちょっと待って。どうやって検定するのかしら。（※表現は演出です。）

　> ▼ソルバーを使おうという話にはなっておらず、▼開発環境やソフトウェアも明示されていない、▼合計と最小値くらいの計算だけしながらExcelでマクロ（という状態に相当する他の商用ソフトウェア）ではなかろうかと勝手に想像するしかない状態になっているとわかります。あえていえば、▼『合計と最小値を使うソルバーを自作しました！』ということだと見受けられます。…うーん。

　> シミュレーションで実測値を再現できるかを確かめるという話になってございます。しかし「相関係数」しか使っておられない。「「TP」「FP」「FN」「TN」のすべてを見渡しての考察」については[3283]を参照。（※恐縮です。）▼細かく場合分けして「あたり」「はずれ」を数えて比で示すか、▼実測値と推定値の散布図を描いて分布の形を把握して考察を述べるか、▼何らかのエントロピーで両者を比較（値と値のペアでなく、分布と分布のペア）するなどしませんか。…しないんですか！ふーん。ほー。へー…

　「何らかのエントロピー」とは具体的に何だ、なんなんだっ。

　> 「角谷は困惑してこのように答えたという。「角谷情報量とは何だ？」。」みたいなエピソードってないんスか。

　> （「角谷情報量」を使うかは別として）ダイバージェンスとも呼ばれるエントロピーを使ってあたりまえ

・「仮説検定」MathWorksの説明です
　https://jp.mathworks.com/help/stats/hypothesis-tests-1.html

　> クロス集計
　> カイ二乗統計量 chi2 とその p値 p も返します。これらは tbl が各次元で独立であるかどうかの検定に使用されます。

　…『p値 p』！！某有名漫画家ユニットみたいだよね。（違）

　> 拡張機能
　> tall 配列
　> メモリの許容量を超えるような多数の行を含む配列を計算します。

　わあぃ拡張機能。＊＊＊拡張機能だいすき。

・（再掲）「ジャーナルに訂正印」のイメージです
　https://towa-register.jp/subpage/nr3100advance/images/receipt-change02.png

　こういう『秘密のフタ！』を開ける気分でオネガイシマス。（違）

・「分散共分散行列の同等性の検定」のふいんきです
　https://www.weblio.jp/content/%E5%88%86%E6%95%A3%E5%85%B1%E5%88%86%E6%95%A3%E8%A1%8C%E5%88%97%E3%81%AE%E5%90%8C%E7%AD%89%E6%80%A7%E3%81%AE%E6%A4%9C%E5%AE%9A

　> 2群をプールした分散共分散行列 S* は，1変量の平均値の差の検定（t検定）で，2群をプールしたときの分散を求めるときの式を行列に拡張したものである。

　隣接行列でも同じことをしていいのかみたいな＆しつれいしました。

・[3519]
　> 鉄道総研が「t検定」について、わざわざ統数研に相談してまで解きたい問題って、いったい、どんな問題なんでしょうねぇ。

　> > 炒飯することにより

　> えっ…炒飯しちゃいます？炒飯、しちゃいますぅ！？

　サ変「炒飯する」と鉄道総研は無関係です。…たぶん。（…「たぶん」！！）

　https://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q14184219874

　> 炒飯を炒める

　> 頭痛がする、とは言いますが、炒飯する、とは言いませんよね？

　えー…。温めたフライパンにうすく油を引き、凍ったままの商品を入れます。中火で炒めてください。（棒読み）

・ニチレイフーズの見解です
　https://www.nichireifoods.co.jp/brand/honkakuitame/sugoi/img/img2.jpg

　> 調査時会場風景

　余計な刺激を受けぬよう真っ白なブースで試食させているようすがわかります。

　> 2014年秋、東京都内某所にて、一般生活者の方々に炒飯を試食していただきご意見を伺いました。※ お答えいただいたのは20代～60代の男女439名。

　…うわぁ東京都内某所。

　> 第三者機関に委託
　> 冷凍食品の購入属性に準じた性別・年代を参考に、通行人よりランダムに調査。
　> 2014年9月～11月のうちの3日間。

　わあぃ食欲の秋＆新米入荷っ。…うーん。もう食べられないよ☆（※表現は演出です。）

　https://www.nichireifoods.co.jp/brand/honkakuitame/professional/

　> 熟練の技・・・そうですね、経験を積めば積むほど上手くなるでしょうけど、若手でもセンスが良ければ２～３年ぐらいで美味しい炒飯が作れるようになりますね。うちの店でも「まかない」などをつくることで日々訓練を重ねています。

　おおー。（※恐縮です。）

　> ニチレイさんの炒飯は、大きな工場で大量に作っておられるのにちゃんとパラパラで本格的な炒飯が出来上がっている。ある意味、私にとってはそんな「技」のほうが不思議です(笑)

　…ぬふっ。

　> 季節の具材などをいれながら、色々な炒飯が作れるようになると楽しいですよね。
　> 季節の具材などをいれながら、色々な炒飯が作れるようになると楽しいですよね。

　さりげに高度なことをさらりといってのける。…そこがいいんですよっ！（※個人の感想です。）タケノコとかサクラエビとかトウモコロシとか小松菜とかですね、わかります。

・「多変量検定」JMPです
　http://www.jmp.com/japan/support/help/13/flm-multiple-response-18.shtml

　> Eは残差交差積行列、Hはモデル交差積行列です。Eの対角要素は、各変数の残差平方和です。Hの対角要素は、各変数のモデルの平方和です。

　> Wilksのλ
　> Pillaiのトレース
　> Hotelling-Lawleyのトレース
　> Royの最大根

　最大根の炒飯のトレース！！（違）

　> （略）の最大固有値

　> 多変量検定の結果表に表示される統計量は、（略）の固有値lの関数です。

　こういう気分ではあると思いました。…『気分』！（しつれいしました。）隣接行列の固有値分解をして云々、最も大ざっぱでも固有ベクトル中心性の値を使って何か検定してみせるというのが最低ラインではなかろうかと＆もっとしつれいしました。

・ちゃりんしゃりんぱららん…ドンッ！！（違）あなたにえすぷれっそ★…じゃなくて、「Rでグラフ理論。」（※再掲）
　https://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q1072588805
　https://www.youtube.com/watch?v=RdR1e6LuChg

　https://upload.wikimedia.org/wikipedia/commons/1/14/Modern_espresso_machine.jpg
　http://www.okadajp.org/RWiki/?R%20%E3%81%A7%E3%82%B0%E3%83%A9%E3%83%95%E7%90%86%E8%AB%96

　> gRbase はモデルとあてはめエンジンの実装方法を示す。これは階層対数モデルで解説している。
　> ggm グラフィカルガウシアンモデルの当てはめ

　そもそも「Rでグラフ理論」というページ名がざっくりだよ何を目的にしているのかわからないページ名だよとはこのことだよ。東京都立図書館「あくまで紹介しようとする本（物理的な冊子体！）に対してカードが付与されているという形式で、テーマの全体集合を111系統に分類してから該当する本を持ってきました（＝「同じ本が複数のカードで紹介される場合があります」の意）、ということではないんですね」（[3326]）と同じことが起きているよね。…ギクッ。（※表現は演出です。）

　> 参考書
　> ネットワーク分析 - Rで学ぶデータサイエンス

　「参考文献」ではなく『参考書』。どこを参考にしたのか明示せず、具体的に何かを引用するでもないとはなにごとかっ。（棒読み）

　> R2WinBUGS

　それは共立出版「Wonderful R」より第2巻「StanとRでベイズ統計モデリング」だほー！ …の守備範囲だよね。

・「StanとRでベイズ統計モデリング」共立出版（2016年10月）
　http://www.kyoritsu-pub.co.jp/bookdetail/9784320112421
　https://images-na.ssl-images-amazon.com/images/I/716K6%2B3lrDL.jpg

　> BUGS言語と異なる点
　> BUGS言語と異なる点

　> 本書でStanとRを介して身につけた統計モデリングの考え方は，Stanの文法が変化しても，他の統計モデリングツールを扱う場合にも，大いに役に立つと確信している。

　https://www.amazon.co.jp/dp/4320112423

　> この本の前に豊田先生の「基礎からのベイズ統計学」「はじめての統計データ分析」を読みました。
　> ここでStanの簡単な使い方(2群の平均の差の評価とか)をやってみて、ベイズ＆MCMC、R＆Stanに親しんでおくとよいかも知れません。
　> ちなみに、この本の後に久保先生の通称「緑本」を読むとGLM, GLMM、階層ベイズも理解できました(その前は挫折しました)。

　順番って、ほんっ…とうっにだいじですね。（※表現は演出です。）

・[3622]
　> > 200m打放 66打席
　> > 打放
　> > 打放

　> 川崎マリエンだほー！（違）

・まさかの東海ガス「炒飯する」の用例です
　https://www.tokaigas.co.jp/archive/05/0550GKmc01U79O.asp

　> お米をとぎ、分量の水を入れしばらくおき、カレー粉を加えて炒飯する

　…えーっ。（棒読み）

・「大根と干物の炒飯」はキッコーマンから（2003年3月4日）
　http://www.kikkoman.co.jp/homecook/search/recipe/00001603/index.html

※「x-search-last_published_date」なるMETAタグが「2003年3月4日」という日付を公称しています。

　> 意外な組み合わせで思いがけないおいしさに

　ほぅ。（以下略）

・オレンジページ（JR東日本グループ）が紹介する「小松菜と卵の炒飯」とは
　https://www.orangepage.net/recipes/detail_127587

　> JR東日本グループ

　…そっちですかっ！！（棒読み）

★「QAP検定」「CUG検定」「ピー・スター」「ERGM」（仮）

・あらかじめ「二次割当問題（quadratic assignment problem）」のふいんきです
　http://www.msi.co.jp/nuopt/docs/v19/examples/html/02-14-00.html

　> 目的関数が二次式となる割当問題です．

　> 1957年
　> 1957年

　1957年から「QAP」といえばこれやでーみたいな＆しつれいしました。行列が2つあって、目的関数が2次式で、それを最小化する整数計画問題としてソルバーじゃん？ …みたいな＆もっとしつれいしました。

・（参考）共立出版「ネットワーク分析」（2009年9月）

・本書そのものではないけれどこちらも参照。
　https://www.jstage.jst.go.jp/article/ojjams/26/2/26_421/_pdf

※以下は共立出版2009年の本書より。

　> （109ページ）
　> 頂点数や密度などの（略）確率的にネットワークデータを発生させ（略）いわゆるモンテカルロ・シミュレーションによって近似的な統計量の分布を求め（略）ノンパラメトリック検定
　> QAP検定
　> Quadratic Assignment Procedure

※さあさあ「二次割当問題」の計算法を応用して“あてはまり”を調べるプロシージャですよー＆しつれいしました。Pが1つ減ってません？（棒読み）

　なるほどねぇ。…実になるほどねぇ。スタティックなグラフでよければ『QAP検定』はRで「qaptest」関数にほうりこめば一瞬で（＝反復回数のデフォルトは1000回ということなので、場合によっては“おそろしく”長い時間をかけて＝）有意確率（p値）を出してくれるようですよ。かんたんだね。（棒読み）

　https://www.rdocumentation.org/packages/sna/versions/2.4/topics/qaptest
　https://www.sciencedirect.com/science/article/pii/0378873387900128

　> QAP partialling as a test of spuriousness
　> The test of significance is based on Hubert's QAP, a nonparametric permutation test.

　http://www.andrew.cmu.edu/user/krack/documents/pubs/1987/1987%20QAP%20Partialling.pdf

　うーん。行列があるじゃろ（大巾に中略）OLS（最小二乗法）するじゃろ＆ほれ（以下略）みたいな＆しつれいしました。

※…QAP！ QAP！「『QAP検定』でいいのか？」が難しいんですよ、の意。…いろいろな意味で！

※もともとのQAP（二次割当問題）と本当に関係あるのかわからなくなってきました。反復回数をじぶんで決めていいんですかねぇ。…ギクッ。

　> 他にp*（ピー・スター）あるいはERGM（Exponential Random Graph Model）と呼ばれている方法が知られているが，この方法にはロジット・モデルやログリニア・モデルなどの統計的知識が必要であり，本書の範囲を超えるのでここでは扱わない．snaパッケージにはp*を扱う関数pstarがあるほか，この方法を専門に扱うパッケージとしてergmパッケージがある．

　うーん。ノード数とエッジ数が同じ（⇒密度が同じ）グラフをサイコロで無数につくってみせて、わたしの手元にあるようなグラフ（ネットワーク）になるのは偶然じゃないみたいなことを検定するんだとおっしゃる。…うーん。グラフが大きくなると何でも偶然じゃないと言い出しかねないので指数的に圧縮してみました（わたしかわいい？）みたいな＆もっとなんてこったい！（※個人の感想です。）

・調べたいのはそこじゃない気がする
・さりとて「相関係数」でもだめな気がする

　恐縮です。

　> （113ページ）
　> CUG検定
　> （Conditional Uniform Graph）
　> 理論的に可能な相関係数の最大値はどれくらいだろうか．

　https://eow.alc.co.jp/search?q=uniform

　> ～を均一［同一・同型・一様・同様］にする、そろえる、等しくする
　> 〔基準や規則に〕従った、適合した

※Conditional Uniform Graph：与えた条件のもとであれこれ「つくってみた」したやつ（！）、の意。

　相関係数の最大値で正規化して“気持ちよく”みせてくれるというのがCUG検定（てへ♡）だそうですよ。…ええーっ！！（棒読み）そこに対数とか効いてないと、相関を過大評価するってことだよね。本当でしょうか。

・「耳ざわりの良い」とはにわ
　http://www.bunka.go.jp/prmagazine/rensai/kotoba/kotoba_004.html

　じゅうぶんに複雑な（≒それなりに大きな）グラフ構造に対して、全体をどかんと一律に数え上げて相関係数がー（↑）という発想そのものがケシカラン（場合がある）と思いました。それは複雑さというものを理解していない態度だとも思いました。多変量データの例題で3変量しかないみたいなのと同じくらい、初学者の理解を妨げると思えてきませんか。…思えませんか！！（※個人の感想です。）

　https://www.youtube.com/watch?v=sGyl_vpDQpM

　> Quadratic assignment is a very general problem in theoretical computer science. It includes graph matching, the traveling salesman problem, and the Gromov-Hausdorff distance between finite metric spaces as particular cases.

　> the problem can be tractable for a large subset of instances.

　> the GH distance

　…うげっ。

　https://ja.wikipedia.org/wiki/%E3%83%8F%E3%82%A6%E3%82%B9%E3%83%89%E3%83%AB%E3%83%95%E8%B7%9D%E9%9B%A2

　> グロモフ・ハウスドルフ距離
　> 背景となる空間そのものを取り替えることで、2つの図形の形状の差のみを取り出したものがグロモフ・ハウスドルフ距離である。

　（証明なしで）いきなり使っていいならぜひ使いたいと思いました。（棒読み）

　> a graph neural network can actually learn an algorithm to solve network alignment and the traveling salesman problem from solved problem instances.

　さて（※）、PDFでフォローされているように、「コア／周辺構造」というモデルは、路線網や道路網のようなグラフに対しても「相対的に密な部分（都心）」「相対的に疎な部分（郊外）」というものを、それなりに確率的なまま扱えるという柔軟さがありましょう。GISの上で簡単な図形で線引きしてエリアを分割するのでなく、ノード単位で「どのくらい都心らしいか」「どのくらい郊外らしいか」ということを表現できるデータ表現（…『表現できる表現』！！）だといえましょう。

　（卒論を念頭に）論文としては検定（回帰分析）が必須だという認識のもと、「どのくらい都心らしいか」という片側に着目する「コアネス」という値と、何か別の性質を表わす値とを用意して回帰分析するなどの展開が考えられましょう。そこで使うのが「同じ穴のムジナ」…いえ、すべて同じグラフから出てきた指標ばかりということにならぬよう、「外的基準」を用意できるとよいですね。

※以下はPDFより。

　> Borgatti and Everettはコア／周辺構造のモデルとして離散モデルと連続モデルの2種類を提出している．離散モデルはネットワークに含まれる各ノードをコアと周辺に2分割するのに対し，連続モデルではコアと周辺を連続的なものとして各ノードが「コアである程度」を求める．

　うーん。k-means（k平均法）に見えてきちゃいました。…目が赤いのかなぁ。（ゴシゴシ）隣接行列を入力として「重心」を求め、重心からの「距離」（ホップ数）というか「半径」みたいなものを求めるらしいというイメージでよろしかったでしょうか＆しつれいしました。こんなめんどいことを（大巾に中略）鈴木センセイには敬意を表しつつも、やっぱりコレジャナイみたいな気持ちが拭えません。（棒読み）

　> 遺伝的アルゴリズムを用いてデータの隣接行列との相関係数が最も高くなるパターン行列を得る方法

　ゴシゴシ。…ゴシゴシ！わあぃシルブプレ。それって「CART®」ですか。（棒読み）検定じゃなくて推定や補間に使うほうの回帰みたいなことをするのだという理解でよろしかったでしょうか＆しつれいしました。あれじゃないコレジャナイを繰り返しながらきょうの気分にいちばんぴったりなやつ（！）を選んでくれるよ☆たのしいよ。…たーのしー！（棒読み）

　> 連続モデル
　> Rの最適化関数optimを使って

　> method = "L-BFGS-B"

　ほぇ？

　https://ja.wikipedia.org/wiki/%E3%83%A9%E3%82%AF%E3%83%88%E3%83%90%E3%83%81%E3%83%AB%E3%82%B9%E3%83%BB%E3%82%AB%E3%82%BC%E3%82%A4%E3%83%BB%E3%82%B7%E3%83%AD%E3%82%BF%E6%A0%AA
　https://www.meiji.co.jp/yogurtlibrary/laboratory/report/lb81/03/

　…そっちはLB81ですよぅ。

　https://ja.wikipedia.org/wiki/BFGS%E6%B3%95

　> Octave は double-dogleg 近似を用いたBFGS法を cubic line search に用いている。
　> R言語では、BFGS法（および矩形拘束を扱えるL-BFGS-B法）が基本関数 optim() のオプションとして実装されている。
　> MATLAB Optimization Toolbox（英語版）では、fminunc 関数が問題サイズを「中程度」に指定した場合にBFGS法を利用する。

　どれでもいいよといいました。（違）

　> 複数のコア

　…『複数のコア』！！第6話で休暇を満喫した直後の第7話とかで急襲してくるやつだよね。（違）最初から「こんなこともあろうかと」しておかないとたいへんなことになるやつだよねっ。（棒読み）梅小路だけがコアなわけがない。うん。最初からそんな気がしていたんだ。（※梅小路はイメージです。）

　https://ja.wikipedia.org/wiki/%E9%81%BA%E4%BC%9D%E7%9A%84%E3%82%A2%E3%83%AB%E3%82%B4%E3%83%AA%E3%82%BA%E3%83%A0

　> 遺伝的プログラミング（genetic programming;GP）は、J.Kozaによって提案された遺伝的アルゴリズムを拡張した物の一つである。遺伝子を木構造にすることで式やプログラムなどを扱えるようにした。工学分野だけではなく、経済分野などにも広く活用されている。

　…そっちはGPですよぅ。やっぱりそれって「CART®」ですかっ。（※恐縮です。）

※再び共立出版2009年より。

　> （49ページ）
　> 固有ベクトル中心性
　> グラフが連結でない場合には，そこに含まれる最大連結成分の構造を反映している．

　京都の市バスならぜんぶ連結ですよね。回送の区間も含めればね＆それ、京都に限らんでしょ。…その発想はなかった！（棒読み）いずれかの中心性が最大になるのは車庫だよね。どの中心性で最大になるかはネットワークしだいだよね。（棒読み）

　> 有向グラフが強連結でない場合，最大固有値やその固有ベクトルが一意的に定まらないので，

　午前8時台の乗客数みたいなものを反映させて有向グラフをつくる場合ってあるんでしょうか＆しつれいしました。その場合はあらかじめ連結成分を調べておく必要があるということです。

　http://www.orsj.or.jp/~wiki/wiki/index.php/%E9%80%A3%E7%B5%90%E5%BA%A6_(%E3%82%B0%E3%83%A9%E3%83%95%E3%81%AE)

　固有ベクトル中心性というのは、ノード数が8なら8×8の、225なら225×225の隣接行列を入力とする主成分分析そのもので、第1主成分の主成分得点（※各ノードごとに値が出てくる）をそのまま中心性指標として使うという、きわめて荒っぽい方法ではございます。主成分分析と同じように、本来は累積寄与率を見ながら第いくつ主成分まで見ればよいかを慎重に検討しなくてはならないはずです。本当に第1主成分だけでいいのかは、よく検討しないといけないのではありませんか。…ギクッ。

　> パワー中心性

　うーん。…うーん！パワー中心性みたいなの1つくださいっ。…『1つ』！！（※表現は演出です。）

　> βを0から1/λの間で（略）

・きわめてエレガントであり、いま端的にうれしい
・しかしそういうことをしたかったのではない気がする

　うーん！！

　> 媒介中心性は最短経路における媒介性のみに注目し，それ以外の経路については考慮しない．
　> また，最短経路上に位置すれば，その距離に関係なく同等にカウントされる．

　うーん！！！

　> ××中心性の集中度

・これまた雑な気がする
・中心性の分布を見たいし、複数の中心性を求めたり固有ベクトル中心性の第2や第3の成分も見たい
・散布図行列の印象を述べ…ギクッ

　しつれいしました。

　> （170ページ）
　> 相関係数は，2つの変数の間の線形の関係の程度を示す．

　それを本書の最後で示しても…ねぇ。（てんてんてん）

・丹羽時彦（関西学院高等部）「相関係数(の式の由来)」
　https://www.kwansei.ac.jp/hs/z90010/sugakuc/toukei/rp7/rp7.htm

　> 多くのテキストでは，「相関係数を次のように定めます」と述べるところから始めていますが，どうしてそのように定めるのか，いつも不思議に思っていました．
　> 決定係数 R²
　> この平方根をとった値を相関係数 R と呼びます．

・[3639]
　> 「丁寧な授業」とはこのことだよ。（※見解です。）

　本書では「記述統計学」からの「共分散」を先に説明しての「相関係数は，2つの変数の間の線形の関係の程度を示す．」であります。しかも本書の最後であります。学ぶ順番として無理があるのではないかなぁ。だから『QAP検定』でよいのだろうかみたいな検討をじぶんではしないままになってしまうのではないかなぁ。（※私見です。）

・[3574]
　> > 相関行列を用いた主成分分析の場合は、固有値の値が１前後になる主成分まで用いるのが１つの目安である。

　> Rのprcomp関数で出てくる「標準偏差」が「1前後」という見かたでよかったでしょうか

　> 直感としては、固有値が最大や最小となる「はっきりした」成分から先にできていって、その残りを「その他がっさい合算でごわす！（…ごっつぁんです）」したみたいな成分がどこかにできているはずです（＝そうでなければ「回転」の前後で、情報が保存されません）。固有値で並べ替えたときに、そういうつじつま合わせみたいな成分は「第1」にも「第7」にもならないだろうと見込んで、「PCA」といって上から少数、「MCA」といって下から少数の「主成分」を採る、というわけですね。

　> Rのprcomp関数から「rotation」といって返ってくるソレをポヤンと眺めようではありませんか。

　> 第1主成分は、▼「ごはん率が高い（品数が少ない）」の「丼A」「丼B」「弁当E」と、▼「シウマイ率が高い」の「弁当A」を両端に置いた軸（合成変数）になっているとわかります。両端については特徴がよくわかりますが、中間についてはあまり識別ができない感じの軸であるとうかがえます。

　そういうのが第1主成分です。

　> 第7主成分は、▼どこにでもあるふつうの「弁当C」「弁当D」（※）と、▼KY軒の力作（≒準新作）「季節弁当A」「弁当B」を両端に置いた軸になっているとわかります。この第7主成分が『よく説明』する範囲（商品）はとっても狭いんですけど、両端の違いは確かによくわかるのだと、こういうわけです。

　> 隣の部屋でこっそり…幕の内（まーくーのーうーちーっ）とお赤飯（おーせーきーはーんーっ）ですってばよ！！

　> 幕の内（まーくーのーうーちーっ）とお赤飯（おーせーきーはーんーっ）
　> 幕の内（まーくーのーうーちーっ）とお赤飯（おーせーきーはーんーっ）

　『KY軒』なのに「幕の内（まーくーのーうーちーっ）とお赤飯（おーせーきーはーんーっ）」！！あまつさえ『KY軒の力作（≒準新作）』といって、もはやシウマイほとんど関係ないし！！ …そういうのが、固有値が最小の主成分です。…たぶんですけどね。

・Wikipedia「Exponential random graph models」
　https://en.wikipedia.org/wiki/Exponential_random_graph_models

　> （全略）the ideal probability distribution is the one which maximizes the Gibbs entropy.

　…うーん。

・わあぃ手塚センセイ（※恐縮です）
　http://www.dl.kuis.kyoto-u.ac.jp/~tezuka/blog/archives/2007/07/post_271.html

　> もともとはギブスが統計力学の問題を解くために考えたモデルを二十世紀になってジェインズ（E. T. Jaynes）という人がより一般的なアルゴリズムとして提唱したものらしい。

　> 元はギブスがボルツマンによるエントロピーの定義 klog W を再定式化したものであって、ギブスエントロピーと呼ばれたりするのだそうだ。

　とにかくそういうギブスエントロピーを最大化する最適化みたいなのをするのが「ERGM」らしいということです。（棒読み）

（10月15日に追記）

　[3514],[3521],[3542]の続きです。

・NHK「AIひろしが新たに学習したデータ」
　https://www.nhk.or.jp/special/askai/

　> JAGES（日本老年学的評価研究機構）「要介護認定を受けていない65歳以上の高齢者を対象とする健康とくらしの調査」

・[3542]
　> URLの「visualizer」がしょーじきなのでゆるしてつかはす！ハハー！！

　> 可視化されたエゴセントリックなサブグラフ（※「「注目するノード」から「2hopまで」のノードを切り出したグラフ」から、さらにエッジを減らしたとみられるグラフであり、かつ「ツリー構造」にされていて「もはやネットワークではない」）において、エッジの重みが「-1」と「1」みたいになっているっぽい（※「ほぼ-1」「ほぼ1」とみなせるような重みのエッジだけを残した上で、「簡略化」と称して重みを本当に「-1」と「1」に2値化してしまったような「ざっくり！」した可視化ですよ＠なんてこったい）ですよ。本当でしょうか。▼ノード（連動する変量）ごとに大きさの変わりかたが違うという表現はなされておらず、▼「U字型！」「V字型！」「M字型！」などの変化をする関係は扱われず、▼注目するノード以外のノード間の相互における関係は無視していることがわかりますから本当です。…たぶん！

　ネットワークを可視化にしか使っていなかった（とみられる）この時とは違って、今回は対象のデータぜんぶをネットワークにしてから、ネットワーク分析らしい分析をしているとうかがえます。

・赤と青と白：外的変数といいますか、グラフの外側で用意した正解データですね、わかります
・次数と次数中心性：「つながりの数」との字幕でした

　番組内では「ベイジアンネットワークなど複数の機械学習を組み合わせて」みたいな字幕がありました。なるほど何らかの中心性指標ごとに1つずつ『驚きの提言！？』（※「！？」に傍点）が出てくるのかと思ったら、なんとなく1つ目（「○○」）は次数中心性っぽくて2つ目（「ひとり暮らし」）は媒介中心性っぽい、そして3つ目（「××」）は中心性ではなく「時系列」でした。…おぬしやるのう！共立出版の赤い本を順番に勉強したやうだとはこのことだよ。（棒読み）

　都道府県をプロットした図は、ま、ほとんどぜんぶ平均から大きく離れてはいないでしょとしか見えなくありませんか。（棒読み）人口の移動（都会に出たり戻ったり）や（ある時点での各県の）年齢構成の違いによって見かけ上の差が出るだけで、実は全国でほとんど差がない（まったく個人によるものでしかなく、寿命そのものに地域性があるというものではない）ということはありませんか。本当でしょうか。▼（よく言われるように）日照時間が短いといけないとかってあるんでしょうか。▼大きな病院にかかるために都会に引っ越すひともおられるのではないですか（＝そういう人口動態はどう反映されますか）。そして▼30年間くらいのうちにどう変動したか、このプロットの上で点が動けばいいんではないですか。…その発想はなかった！（棒読み）

・かみつたセンセイ「ベイジアンネット」
　http://ibisforest.org/index.php?%E3%83%99%E3%82%A4%E3%82%B8%E3%82%A2%E3%83%B3%E3%83%8D%E3%83%83%E3%83%88

　> ノードが確率変数，確率変数の依存性を有向辺で表す．ただし，グラフ全体でサイクルは許さない非循環グラフでなければならない．
　> 変数の同時確率を比較的少数のパラメータで表現できるモデル．

　なるほどねぇ。…実になるほどねぇ。非循環グラフで中心性指標といってもピンと来ないんですけどねぇ。…ギクッ。だからベイジアンネットワークで一定の確率を超えたリンク（有向辺）だけを残したグラフにしてから中心性…えっ。それは結局、非循環グラフではないんですか。…ギクギクッ。

　https://ja.wikipedia.org/wiki/%E3%83%99%E3%82%A4%E3%82%B8%E3%82%A2%E3%83%B3%E3%83%8D%E3%83%83%E3%83%88%E3%83%AF%E3%83%BC%E3%82%AF

　> 人工知能の分野では、ベイジアンネットワークを確率推論アルゴリズムとして1980年頃から研究が進められ、既に長い研究と実用化の歴史がある。
　> 人工知能の分野では、ベイジアンネットワークを確率推論アルゴリズムとして1980年頃から研究が進められ、既に長い研究と実用化の歴史がある。

　ベイジアンネットワークを使っていれば、文句なしに「AI」であると言えます。（棒読み）

　> 確率的な依存関係をモデル化できる。

　> 統計的因果推論
　> 統計的因果推論

　うーん。…うーん！（※表現は演出です。）

　https://staff.aist.go.jp/y.motomura/paper/BSJ0403.pdf

　> 観測結果から原因を探る障害診断など
　> 観測した変数群から未観測の対象の確率分布を計算する確率推論
　> そのためのモデルを統計データから構築する統計的学習

　回帰モデルをつくって推定値を得るのをグラフィカル（連鎖的）にしましたというものです。

　> 音声認識やバイオインフォマティクスなど，時系列データの認識に使われる確率モデル，Hidden Markov Modelと等価なモデルをベイジアンネットとして作成することもできる(図4)．

　時系列もどんとこいとはこのことだよおねーちゃんっ。（※おねーちゃんはイメージです。）

　> どこか一つでもパスがループしている部分がある時，このベイジアンネットはmultiply connectedと呼ばれる．この場合には単純にリンクに沿って確率を伝搬していくだけでは，その計算の収束性が保証できない．しかし1990年代のはじめにjunction treeアルゴリズムと呼ばれるグラフ構造を事前に変換してから確率計算を実行する手法が開発されたことで，様々な構造にたいするベイジアンネットの有用性が高まった．

　ほぉお。

　> モデルの構築は大量の統計データと変数の定義を与え，それらを最もよく説明するようにグラフ構造と条件付確率を決定することで行われる．グラフ構造を仮定できれば，条件付確率表だけを求めれば良い．
　> 例えば簡単のため確率変数が真偽二値とすると（以下略）

　なんか簡単そうにおっしゃる。（違）

　> 現実的なアプローチの一つとしては，Bound and Collapse法やエントロピー最大化に基づく方法が提案されている．

　やっぱり何がしかのエントロピーを最大化するようですよ。えー、どれどれ？（以下略）

この記事のURL　https://neorail.jp/forum/3675/

この記事を参照している記事

[3584]	研究ホワイトボックス（30）ハイパー・ゼロ：「主成分分析」FAQ	2017/12/19
[3674]	研究ホワイトボックス（33）なるべく「一般的」といわれる方法に則るには	2018/9/1
[3676]	【正宗の名刀で速射砲と立合をするような奇観を呈出】発生学から出立するディープラーニング（仮）【社会調査工房オンラインあり】	2018/9/13
[3680]	【PON】試しに「攻略情報」ほかを斬ってみる（横コツVer.）【自治医大グリーンタウン光高速ネットあり】	2018/9/13
[3699]	いま問う「（お好きな地形）ＥＸ（３０倍）」（2010年3月・2013年2月）のココロ（流動編）	2019/3/1
[3716]	【A9・Exp.】「乗客のアルゴリズム」一計	2019/6/9
[3733]	「Express Edition」のポンチ絵を求めてさまよって～準大手私鉄はおやつです～	2019/7/15
[3742]	研究ホワイトボックス（38）数学の自由研究で郵便番号データを使うには	2019/8/1
[4415]	きょうは八条で四畳半。	2021/2/1
[4546]	春日井熊野町店は17分「三菱←→ドンキ」と「羽犬塚←→黒木」の違い【パスコあり】	2021/5/13
[4671]	きょうは馬堀でフットプリント。	2021/12/1
[4683]	【コピペ決定の宿】青い砂は呼んでいるか【ビビット】	2022/1/1
[4787]	アルティメットなんとかとなんとかアルティメットの違い（談）	2022/6/1
[4854]	【1都3県】「2016年」を読み解く（再）【高3】	2022/9/1
[4883]	【知恵袋】その「どうにかなりませんか」を斬る（談）	2022/9/1
[4983]	ベクトル海百山百のうたげ（宴）	2023/2/1

【自由研究】の話題