(約17000字)
「理数探究」です。
・[4221]
> 「理数探究=イコール=理科でしょ」などと思わせないように配慮を尽くしてほしい。
https://shop.r10s.jp/book/cabinet/0407/9784046320407_3.jpg
何も考えず特異値分解しちゃっていいんですかね。さっきまでの話を聞いていなかったひとみたいな顔で、そんなことを言ってのけてみせませう。えー…(てんてんてん)。
・[3896]
> 工学的に、固有値分解の代わりに特異値分解を使うというのがあるが、同じ考えかただと思ってよい。行列を見たら特異値分解しなはれということである。何も考えずに使えるのが工学的に優れているということである。
http://nambusen.s225.xrea.com/news/190506-485-4l.jpg
この防音壁の形状は何か、こう、その、端的に言えば「すごいスーパーコンピューター」(※意訳)が何日もかけてはじき出した絶妙な角度とかなんでしょうか。えー…(てんてんてん)。
・[4227]
> ものすごく直感的(※「直観」ではない)にいえば、行列をふるいにかけるのだ。落ちるものと残るものに分かれる。
・(再掲)
https://youtu.be/sM5UavI6S_c
・[4528]
> これだね。うじうじ説明しないで、上位の概念や既成のアルゴリズムの名前を名指しで挙げて、とにかくこうするんです&こうなるんです(先人の偉大な発明です)、というのを見せてもらうのがいちばん。あとはもう、それを発明した数学者は酒豪だったのかとかいうエピソードでも紹介して時間をつぶせばいい。
うーん。正方行列じゃないから自動的に特異値分解だということと、行列あらば固有ベクトルだということを、どちらも何も考えずに採択する。えー…(てんてんてん)。
・[4393]
> それならもう、わざわざ「自己組織化マップ(SOM)」じゃなくていいや。「MDS」([3676])でいう「布置」が抱える問題点と同じで、多変量解析なのにどうして無理やり「平面」で可視化しなきゃいけないのか。(※個人の感想です。)
> > ここでは簡単な例で「主成分分析が非線形データに弱い」というのは一種の「迷信」であることを主張したい。
> きゃーすてき。つまり、Rのウィキのひとは「主成分分析が非線形データに弱い」と思っているので、そういうときはSOMを使おうと言っていることになる。えー…(てんてんてん)。
すんなり理解できて何も困っていない、あるいは職場の指示通りに触ればよい(考えなくてよい)というひとはウィキになど出入りしないので、ウィキというのは学習中の人、とりわけ、何かつまづいた人が集まりやすい。
> 当然ながら、主成分分析とは違うけれど隣接行列をごにょごにょしてPageRankもできるし固有ベクトル中心性というわけはわからないけれど意味はちゃんとある(?)指標を出せるんですからねぇ。なんでもできると思ってよい。○か×か。…わあぃ固有ベクトル中心性はわけわからんといいました。(※個人の感想です。)
個人の感想をお伝えいたしました。ただいまの感想は個人の感想、でしたー。(棒読み)
> > Kクラスに分割する場合はK-1個の最大固有ベクトルを順番に使えばいい
> なんかすごく使いやすそう。(※音声を変えています。)
すんなり学習したいひとはRのウィキなど見ないほうが身のためだ。しかし、もし教える側になるなら、どういうふうにつまづくのかというサンプルの宝庫だから、Rのウィキのようなものはすごくありがたいのだ。いうまでもなかったとは思うが、こういうことだから、Rのウィキを見ながら何か「ちょっとデキる」という程度では、教える側などぜんぜん務まらないのだ。高校で「理数探究」といって、教員はRに不慣れなのに生徒がRを使いたいと言ってきたときにどうすればよいか。みなさんで考えてみてください!(※音声を変えています。)
> > PCA や ICA や SVD は教師なしの距離(類似度)学習と考えることもできるが、やはり分類・クラスタリングに有効な素性(特徴量)はラベルつき事例があれば教師あり学習したほうがいいんじゃないかと思う。素性(パターン)の重み付けに自己相互情報量とか tf.idf を使ったりするのは、いわば正例だけから重みを学習しているようなものなので、それが最適化というと、迷惑メールだけからスパム判定するようなものなので……。
> データそのものが結構きれいなときは、その中に『教師』が混ざっているんだと思えばよい。「いわゆる教師なし」だからといって、やりかたに不備があると決めつけるものではない。○か×か。
> > 重み付けに自己相互情報量とか tf.idf を使ったりするのは、いわば正例だけから重みを学習しているようなもの
> > 重み付けに自己相互情報量とか tf.idf を使ったりするのは、いわば正例だけから重みを学習しているようなもの
▼「「TP」「FP」「FN」「TN」のすべてを見渡しての考察」については[3283]を参照。それと同じことをぐちゃぐちゃおっしゃる。他人のことはいえないけれど、どうしてそうなるのか。
> 分類・クラスタリング
> PCA や ICA や SVD
「分類・クラスタリング」とまとめて書くひと(そういう仕事やテーマで使うひと)、あまつさえ「PCA や ICA や SVD」(※主成分分析、独立成分分析、特異値分解)というように、これらを、この呼びかたで、この順番で書くような習いかたをした人だからだ。手で描ける数学の延長でSVMを習って、C言語も習うからSVM(サポートベクターマシン)のコードを自力で実装し(げふ)なんだかそういうふうに空間に線を引いて分割するんだという発想が強い。凝集的にクラスタリング、という発想ではない言い方だ。○か×か。(※恐縮です。)特異値分解というテクニックはともかく、固有値分解と固有ベクトルというものをどのようなイメージで理解すべき |