フォーラム - neorail.jp R16
発行:2021/1/16
更新:2021/2/6

[4393]

【A9R:データで遊ぶA列車】

きょうは新座で半ライス。


(約6000字)

 うーん。

・(♪〜)
 http://www.minami-nagareyama.org/museum/images/musashinoline-kaitsu.jpg
 https://room-p.net/webtrip/japan/jreast/musashino/funabashihoten19860401b.jpg

・「新座半ライス」をこの手に(仮)
 http://www.myoei.co.jp/templates/jsn_corsa_pro/images/myouei/kurumaya/tenpo/niiza_01.jpg
 https://tabelog.com/imgview/original?id=r63494131445714

 うーん。

 https://tabelog.com/imgview/original?id=r2269136157198

 …うーん!

・スーパーえむジンせんせい「Rと自己組織化マップ」
 https://www1.doshisha.ac.jp/~mjin/R/Chap_30/30.html

 「半ライス」が「ライス」の半額の店もあれば、50円引きという店もある。それと「自己組織化マップ(SOM)」になんの関係が? …ありません!!(キリッ

 > 高次元データを2次元平面上へ非線形写像するデータ解析方法である。

 主成分分析との違いを教えてください。

 > 個体がどのユニットに配置されるかは、解析したSOMのコードを基準とし判別分析を行わなければならない。ここでは関数 knn を用いて判別を行うことにする。

 k-means法に代表されるクラスタリングとの違いを教えてください。

 > パッケージ kohonen のは自己組織化マップの専用パッケージである。このパッケージには教師データありの方法と教師データなしの自己組織化マップに関する関数が用意されている。

 「教師データあり」というのが主成分分析とk-means法では考えないところですね。

 > 初心者としては、必ずしも指定しなくてもよい引数 rlen、alpha、radii、init がある。引数 rlen は学習回数で、デフォルトは10000回になっている。引数 alpha は学習率係数で、学習回数に依存する単調減少関数である。引数 radii は学習回数に依存し、近傍領域の半径の更新をコントロールする。引数 init では初期の参考ベクトルを指定するが、指定しない場合はデータセットからランダムに用られる。

 うーん。おそろしく使いにくいし恣意的になりそうだし見やすいプロットでもない。だれが使うのか。(棒読み)

 http://www.okadajp.org/RWiki/?R%E3%81%A7SOM%28%E8%87%AA%E5%B7%B1%E7%B5%84%E7%B9%94%E5%8C%96%E3%83%9E%E3%83%83%E3%83%97%29

 > 自己組織化マップはニューラルネットの一種で、多次元データを圧縮して低次元のマップを描くものである。

 ずらり並んだ半ライス。(字余り)

 > 非線形の主成分分析+クラスター分析とも言える。

 ほぅ。(棒読み)それならもう、わざわざ「自己組織化マップ(SOM)」じゃなくていいや。「MDS」([3676])でいう「布置」が抱える問題点と同じで、多変量解析なのにどうして無理やり「平面」で可視化しなきゃいけないのか。(※個人の感想です。)

・(2020年5月31日)
 https://qiita.com/Yh_Taguchi/items/2cbdab3a4e1f8eba8d9e

 > ここでは簡単な例で「主成分分析が非線形データに弱い」というのは一種の「迷信」であることを主張したい。

 きゃーすてき。つまり、Rのウィキのひとは「主成分分析が非線形データに弱い」と思っているので、そういうときはSOMを使おうと言っていることになる。えー…(てんてんてん)。

※当然ながら、主成分分析とは違うけれど隣接行列をごにょごにょしてPageRankもできるし固有ベクトル中心性というわけはわからないけれど意味はちゃんとある(?)指標を出せるんですからねぇ。なんでもできると思ってよい。○か×か。…わあぃ固有ベクトル中心性はわけわからんといいました。(※個人の感想です。)

 > PCAじゃこれは無理です。
 > 簡単にいうと近いところを遠くに持って行くのは無理です。

 それは「MDS」じゃないのか。えー…(てんてんてん)。

[4005]
 > [4000]からはじまる一連の話題とは無関係です。

 もう1つ。

・かわいい「遺伝的アルゴリズム(GA)」のふいんきです
 https://image.slidesharecdn.com/geneticalgorithmfullscratchwithr-180826104320/95/genetic-algorithm-full-scratch-with-r-9-638.jpg

 > 挙動が可愛い(※赤字)

 …GAがかわいい!?(※真っ赤)

 https://slidesplayer.net/slide/11400850/61/images/88/%E9%81%BA%E4%BC%9D%E7%9A%84%E3%82%A2%E3%83%AB%E3%82%B4%E3%83%AA%E3%82%BA%E3%83%A0%28GA%29+%E7%94%9F%E7%89%A9%E3%81%AE%E9%80%B2%E5%8C%96%E3%82%92%E6%A8%A1%E5%80%A3%E3%81%97%E3%81%9F%E7%A2%BA%E7%8E%87%E7%9A%84%E3%81%AA%E6%9C%80%E9%81%A9%E5%8C%96%E3%82%A2%E3%83%AB%E3%82%B4%E3%83%AA%E3%82%BA%E3%83%A0+%E8%A8%AD%E8%A8%88%E5%A4%89%E6%95%B0%E3%81%AF%E9%81%BA%E4%BC%9D%E5%AD%90%E5%9E%8B%E3%81%A7%E8%A1%A8%E7%8F%BE+%E6%9F%93%E8%89%B2%E4%BD%93%3D%E8%A7%A3%EF%BC%8C%E5%80%8B%E4%BD%93.jpg

 なるほどかわいい。(棒読み)

・ARXの「データで遊ぶ」
 https://arx.neorail.jp/experiment/

 > このサイトの攻略や要望は副産物です。せっかくこのサイト「DATT-A9D(arx.neorail.jp)」を開いたのに「R」をまったく触らないまま攻略や要望だけにうつつを抜かしていているのではいけません。まずは「R」をダウンロードしてインストールし、あなたがマップコンストラクションでつくったマップを「片栗粉R」の手順で可視化してみてください。

 > 独習「A列車で理数探究」への展望

 この流れで「自己組織化マップ(SOM)」や「遺伝的アルゴリズム(GA)」を…と、中身を知らないうちは思っていたんですけれども、要するに主成分分析とクラスタリングでいいじゃないかというのが見えてくると、もういいや、と。(※音声を変えています。)

 ひたすら主成分分析(※)しかしていない感じで、回帰分析をしていないのが心残りではございますが、今般の「データで遊ぶ」は、だいたいこのへんで締めくくりにしようかと&しつれいしました。

※ただし、このサイトでいう主成分分析は、ぜんぶRの「prcomp()」すなわち内部でSVD(特異値分解)してるやつを指しているので、かなりユーティリティーでオールラウンドで午前3時でもノリノリ(違)というところがあることに注意。

※「迷信」の原因は、固有値分解を使う主成分分析と特異値分解を使う主成分分析の違いをうまく教えきれないとか教わってもピンと来ないとか、そこに由来していませんか。えー…(てんてんてん)。

・「データサイエンスにおける固有値計算」(2020年6月)
 http://www.orsj.or.jp/archive2/or65-6/or65_6_317.pdf

 > 機械学習手法の計算量の議論において『固有値計算を伴う手法は計算量が行列の次元nに対してO(n3)であるため計算量が大きい』とされることがあるが,特に疎行列では必ずしもそうとはならない.固有値計算をはじめとする線形計算の既存の効率的なアルゴリズムを活かすことで,より多様な機械学習手法が現場で活用されることが望ましいと考えられる.

 > 教師無し次元削減手法として最も良く知られている主成分分析

 「いわゆる機械学習」でいう「教師あり学習」に相当する操作は、「いわゆるPLS回帰(PLSR)」([3572])や、もっとなんでもいいから回帰分析して回帰式(モデル)を先に得ておいて、それを使って分類していくということと同じと考えてよいですか。えー…(てんてんてん)。

 > スペクトラルクラスタリング

 それ、見出し語にするほど(ほかの見出し語と並ぶほど)のものなんですか。ほかにもいろいろあるうちの『1実装』(ワンオブじっそう!)じゃないんですか。手法と言えるほどアトミックなものじゃなくて、あれとそれしてアプリケーションができるよという実装じゃないんですか。えー…(てんてんてん)。(※音声を変えています。)

・(2009年1月28日)
 https://komachi.hatenablog.com/entry/20090128/p1

 > スペクトラルクラスタリングは次元圧縮しながらKmeansする手法

 小町センセイがおっしゃるからぜったい正しい。(…などと。)

 > 半教師あり学習への拡張がやりやすいのが利点。
 > クラスタリングをグラフの分割問題(疎であるエッジをカット)に帰着して解く手法

 手法と呼べる部分と、実装の1つでしょというのと、境目がはっきりあるわけじゃない。まさにスペクトラルですね。(※…ソコジャナイ!)

 https://pbs.twimg.com/media/C4wGSKcUMAAqzTr.png

 …そっちは小室駅入口ですよぅ。

 > Kクラスに分割する場合はK-1個の最大固有ベクトルを順番に使えばいい

 なんかすごく使いやすそう。(※音声を変えています。)

 > PCA や ICA や SVD は教師なしの距離(類似度)学習と考えることもできるが、やはり分類・クラスタリングに有効な素性(特徴量)はラベルつき事例があれば教師あり学習したほうがいいんじゃないかと思う。素性(パターン)の重み付けに自己相互情報量とか tf.idf を使ったりするのは、いわば正例だけから重みを学習しているようなものなので、それが最適化というと、迷惑メールだけからスパム判定するようなものなので……。

 データそのものが結構きれいなときは、その中に『教師』が混ざっているんだと思えばよい。「いわゆる教師なし」だからといって、やりかたに不備があると決めつけるものではない。○か×か。(※恐縮です。)

・日経クロストレンド「【AI基礎講座】「教師あり」と「教師なし」の違いが言えますか?」(2019年7月12日)
 https://xtrend.nikkei.com/atcl/contents/18/00163/00004/

 座して半ライスをつつく。1点。(違)

 > 機械学習の用途は、回帰、分類、クラスタリング、次元削減、レコメンデーションに大別できる。

 そこまで「機械学習」を主語にして書くのは気が引けます。それぞれをちゃんと説明して、そこに機械学習「も」使える、という向きで説明しないとですよね。(※個人の感想です。)ここでいう「レコメンデーション」は、検索ですな。コサイン類似度ですな。「いわゆる機械学習」じゃないとできないことではありませんな。…まったくですな!(怒)

[3945]
 > …たーだやー!(※ジト目)

[3674]
 > …だがしやー!(棒読み)

 https://upload.wikimedia.org/wikipedia/commons/4/4f/Tentori_kuji.jpg

 > 「もうなにもしないから許して下さい●1点」「その事に賛成するよ○8点」

[3767]
 > …わがしや(※仮名)が『歩く高島屋!』になっておる!!(違)

・(再掲)
 http://giga-flare.sakura.ne.jp/tenkagomen/tenkagomen-3.gif

[3944]
 > …えちごやー!(※ジト目)

 なお、ARXでは「回帰木(CART法)」の実演を別のページでしています。ええ。グルメ杵屋じゃなくてね。(※グルメ杵屋とは無関係です。)

・きょうはARXで「回帰木(CART法)」
 https://arx.neorail.jp/newgame/?%E5%9C%B0%E5%BD%A2%E3%81%AE%E7%89%B9%E5%BE%B4%E3%83%BB%E5%9C%B0%E5%BD%A2%E3%81%AE%E8%A4%87%E9%9B%91%E5%BA%A6

 > このページで「回帰木」という呼び方で紹介しているものは「CART法」という名前で発表されたもので、その考案者はのちに「ランダムフォレスト(Random Forest)」を提案している。特定の分野では「決定木」「決定木分析」と呼んできた(すべて手作業で作成する場合すら含む)が、わたしたちがこれから取り組む「理数探究」としては、数学と統計学の諸概念や用語に照らして一般化した呼び方である(応用には踏み込まない)「回帰木」という名前を使うことが強く望まれる。「CART法」は、与えた多変量データを総当たりで調べ尽くしてくれるアルゴリズムである。影響の大きいものだけを選択的に見ていく「変数選択法」による重回帰分析や手作業の混ざる「決定木分析」よりも、はるかにエレガントな方法であるといえる。半端な形ではあるが「ランダムフォレスト(Random Forest)」に通じてゆく、機械学習の入り口と捉えさせるようにしたいものである。よりクラスタリングに片足を乗せた方法として「ID3」「C4.5」の系統があり、その実用性が重宝されているが、折衷的な方法であるので「理数探究」で取り上げるのは妥当でないと考えられる。幾何学へのいざないとしては「最小全域木(MST)」「アルファシェイプ(α-shape)」「凸包(convex hull)」などにつなげられるだろう。

 https://column.sp.baseball.findfriends.jp/show_img.php?id=14854&contents_id=p_page_097

 「つなげ」てください。(※恐縮です。)


この記事のURL https://neorail.jp/forum/4393/


この記事を参照している記事


[4411]

きょうは金沢で半ライス。

2021/2/1


関連する記事


[3669]

【自由研究】ゆるシミュ(9) tht - 2018/8/16


[3639]

【自由研究】ふわコレ(6) tht - 2018/4/30


[3651]

【自由研究】ゆるシミュ(7) tht - 2018/6/10


[4248]

研究ホワイトボックス(42) A列車で理数探究 tht - 2020/10/1


[3583]

JR西日本「データ分析コンテストの開催」を遠目に眺める(談) tht - 2017/12/7


[3582]

10年後に読む「よりよい環境創造のための環境心理調査手法入門」(2000年5月) tht - 2017/12/7


[3571]

実例に見る日英対訳(17) 「ランダムフォーレスト」に野生はあふれ tht - 2017/12/3


[3947]

「A9R」かく語りき(自) tht - 2020/2/29






neorail.jp/は、個人が運営する非営利のウェブサイトです。広告ではありません。 All Rights Reserved. ©1999-2021, tht.