・「NMPC-L64」ういず「ぱるはちこんぶ(PAL8-CNV)」 ・【理数探究ごっこ】「ヒストグラム」から「ベクトル空間モデルに基づく文書検索」へ
(約14000字)
ここで拙作の画像変換ツール「ぱるはちこんぶ(PAL8-CNV)」を紹介させてください。(※「ここで〜紹介させてください」構文は演出です。)
・「ぱるはちこんぶ(PAL8-CNV)」
https://neorail.jp/fun/PAL8-CNV/
> 建物・線路・列車は撤去してください
> ゲームの「ファイル」メニューで
> 画像のサイズが256×256ピクセルになるよう
> セーブ・ロードの画面の縦の長さを調節し
> [PrintScreen]キーでキャプチャし
> 「ペイント」に貼り付けトリミングし
> PNG形式でファイルに保存してください
> 画像のサイズが1ピクセルでも違うと使えません
> 別のソフトでリサイズした画像は使えません
「A9V5」とも呼ばれるケッタイなPCゲーム、これ、ケッタイではあるけれどPCゲームの類なんだから、そこで右クリックすれば256×256の画像がクリップボードにコピーできる、そういうPCの流儀にのっとった操作が本来ならできてあたりまえなんですけど、どうしてできないんですかね。それでもPCゲームのつもりなんですかね。われわれはきわめて不愉快そうな顔をしてみせながら、次のように操作します。(※見解です。)
・[3659]
> 「新規保存」の下7つ目「ストップ:」の「ト」の字の2画が隠れるところにすると256×256ピクセルになります。(棒読み)この解像度で、斜め線はかすれますけどジャギーはまったく出ないので、内部では256×256の画像をつくっているとわかります。
すっとぷ! みさきくん。(違)
・[3685]
> いわゆる「アップデートパッチ第4弾」こと「Version 5.00 Build 4431」付近(2018年12月7日)
> > 取り込んだ画像から地形を生成できる機能を追加しました。
> 標高だけ示したビットマップから「A9V5」と呼ばれるプログラムの内部で「地形を生成」するということを正確に述べているのは確かなんですけど、それは開発者の視点であって、ユーザー(プレーヤー)としては「地形データのインポート」という感覚でいいじゃないですか。先んじて機能の名称としても「地形データのインポート」と簡潔に呼び、そう呼べば気づくように(同じ形式での=1024×1024ピクセルのビットマップファイルが出力される)「エクスポート」にも対応してよね。ぷんぷん。
…うわぁ『ぷんぷん。』!!(棒読み)
・[3751]
> 細かいことを言うと:「地図」じゃない、「地形データ」(標高を格納した行列)だよ。その値を頂点の高さとして使うのか、そういう高さの面をつくってくれるのか、分割が規則的な三角形なのかそうじゃないのかみたいなことがいろいろ違うので、ビットマップならなんでもというわけではなさそうだ。本当でしょうか。
・[3659]
> 拡大縮小されてジャギーが出たときと列車とバスのマークが表示されているとき以外は、まったく上掲の色のピクセルしか含まれないので、単純に1つ1つ数えてOKだよ
> だからジャギーが出ない256×256にしないといけないし、列車とバスのマークが表示されないように(「選択車両のマーク以外を表示しない」をオンにして、列車・バスとも未選択(未配置の車両や空欄を選択)に)しておかないといけないよ、の意。…同じことを言っているのに言う順番が違うだけでわかりやすさがぜんぜん違うよとはこのことだよ。…はいは1回! 箸を持ったままむこうのしょうゆを取ろうとしないのっ!!(※見解です。パソコンの画面上で『未選択にする』というのは「箸を置く(休む)」ような感じです、の意。)
> STOPキーを2〜3回くらい押すんだよね@いつかどこかで工学博士の脇センセイがビデオで言ってたよ。
> STOPキーを2〜3回くらい押すんだよね@いつかどこかで工学博士の脇センセイがビデオで言ってたよ。
さっき「すっとぷ!」と言われた「みさきくん」がそのまま止まってるから、そろそろ動かしてあげようよ。えー、まだだよ。(※表現は演出です。)
・[3679]
> 「A9V5」では「新規保存」の下6つ目「保存日時」の「存」の字の横棒を含む! これだね。だいぶ文字が大きくなったのではありませんか。
https://atos.neorail.jp/photos/led/led00007.jpg?ref=3796
※…唐木田ですぅ&おー! きみが唐木田くんだね?(違)わずか1ドットだけど「うろこ」があるから明朝体だー、みたいなね。(棒読み)
そういうビットマップフォントの描画を1ピクセルずつ見るようなVGA以来の習慣を2Kでも4Kでも軽々とこなしてみせるのがわれわれPC歴の長い者でありますからして(げふ)2Kでよかった。…本当によかった。(棒読み)
・[3699]
> …ま・つ・どぅおおお(以下略)いえろーるらぁ〜ぃんぬ。チハラダーイ!!
https://youtu.be/hzz0yDwSvmI?t=63
https://stat.ameba.jp/user_images/20190503/23/shuobude/b2/9e/j/o0560039014402801915.jpg
https://upload.wikimedia.org/wikipedia/commons/a/ae/KS26station.jpg
※頭では理解できるけれど「向ヶ丘遊園」という文字列と「京成津田沼」という文字列が並ぶ光景は理解を超えている。(※個人の感想です。)
・[3659]
> 256×256なら1/40ではある:40m四方のマス目ごとに標高または土地利用を表示していることになる:40m四方のマス目の左上の1点だけ見ているのだろう
・このような「256×256のPNGファイル」を用意してください
https://neorail.jp/fun/PAL8-CNV/map_region9.png
しこうして256×256のPNGファイルを用意したら「参照」ボタンでそのファイルを指定して、「ばちこ〜い?」ボタンを押すですよ。ええ、押しちゃうんですよ。ぽちっとな。…ばっ、ばちこ〜い?(なぜに疑問形だし!!)いま石狩のほうで何か動いたよ。えー、池袋だよ。いやいやいや船場じゃないの?(※表現は演出です。このサーバーのリージョンはよくわからない。…ということにしておこう!)
https://www.sato-fudousan.com/data/img/%E3%83%89%E3%83%A9%E3%83%83%E3%82%B0%E3%82%B9%E3%83%88%E3%82%A2%E3%82%B5%E3%83%BC%E3%83%90%E7%AE%95%E9%9D%A2%E4%BB%8A%E5%AE%AE%E5%BA%97.JPG
そうすると「Converted Images」のところに、▼海が青くて平地が白いの(いわゆる白地図)と、▼グレースケールの(いわゆるハイトマップ)と、▼2値のと、3つの画像が出力されてきます。必要なやつを保存したりコピーしたりして好きなように使ってください。
https://neorail.jp/
https://translate.google.com/translate?hl=ja&sl=en&u=https://neorail.jp/
> This is a converting tool for height maps in the games, called A9V5 or AExp. (Please note that the game is not our product.) This tool makes a summarized image with bright color pallet. You can download these generated images to use as a blank map in NMPC-L64. Additionally, this tool presents a histogram of pixels in each color. Now you can evaluate geographical features in your map quantitatively.
> (Googleほにゃく先生)
> これは、A9V5またはAExpと呼ばれるゲームの高さマップ用の変換ツールです。 (ゲームは当社の製品ではないことに注意してください。)このツールは、明るいカラーパレットで要約された画像を作成します。 生成されたこれらのイメージをダウンロードして、 NMPC-L64の空のマップとして使用できます。 さらに、このツールは各色のピクセルのヒストグラムを表示します。 これで、マップ内の地理的特徴を定量的に評価できます。
ということであります。たったこれだけのツールすら、これまで9年間だれもつくらなかったのが客層を物語ります。しょくんらはぜんぜんギークじゃないんですねっ! …ギクッ!!(※見解です。)
▼「データベースの著作物」については[3797]に続きます。
再び「ぱるはちこんぶ(PAL8-CNV)」です。
> 256x256 Height Matrix (Tab-separated) for 片栗粉R
…『256x256 Height Matrix (Tab-separated) for 片栗粉R』!!(※巻き舌でオネガイシマス。)これを[3659]の手順に従ってしかじかするとかくかく! 某「ブラタモリ」も真っ白な「先生がゆうべ徹夜して片栗粉でつくった模型!」のできあがりです。もちろん、もっと凝った描画を行なうプログラムをじぶんで開発してもよろしい。WebGLのほうなど使用してさくっと3D表示とかしてくれちゃってもぜんぜんいい。(棒読み)
・「片栗粉R」のイメージです
https://neorail.jp/forum/uploads/map_region9_katakurico.png?ref=3796
https://arx.neorail.jp/
> 片栗粉R 〜ラピエ・ドリーネ・ポドゾル!〜
・[3678]
> …ラピエ・ドリーネ・ポドゾルっ!(きらーん☆)
「〜ラピエ・ドリーネ・ポドゾル!〜」は、『…ラピエ、……ドリーネ、………ポドゾルっ!』みたいにかっこよく唱えてください。(違)
・…にごろです?(※疑問形)
https://www.weblio.jp/content/%E3%81%AB%E3%81%94%E3%82%8D
https://it-words.jp/w/E382B9E382BFE38396.html
https://it-words.jp/w/E38391E383AAE38386E382A3.html
http://806.jp/info/photo/214201202160.jpg
にごろかけにごろはいとまとりぃーっくすたーぶしぱりてぃっどふぉーこあーるかたくり!!(違)にごろごろごろににごろごろ(しばらくお待ちください)…806! 806!(大巾に中略)リリーのトマトがスタブしたって? これはたいへんだはやくパリティしないと。(もっと違)
> 宇都宮産の食材で創作したトマトベースの「宮の雷鍋」(宇都宮市)
> 1杯250円で販売。
> 終了しました。
> 終了しました。
ここまで(公財)福島県観光物産交流協会内(コラッセふくしま7階)「北関東磐越5県つながる、ひろがるキャンペーン事務局」でした。(※何か「思うところ」があったとしても無表情で棒読みしてみせませう。)
https://images-na.ssl-images-amazon.com/images/I/51pXyx8dV%2BL.jpg
白と黒のバイナリである。エンコーダーの腕の見せ所である。北米版とEU版の作り分けである。前者にはペッパー、後者にはジンジャーを投入するのであーる。(違)
☆「NMPC-L64」ういず「ぱるはちこんぶ(PAL8-CNV)」
・「NMPC-L64」より「region9」のイメージです
https://neorail.jp/fun/NMPC-L64/?map=region9
https://neorail.jp/forum/uploads/map_region9_example.png?ref=3796
続きまして、▼海が青くて平地が白いの(いわゆる白地図)は、拙作「NMPC-L64」で使用してください。「ぱるはちこんぶ(PAL8-CNV)」で生成された画像ファイルをダウンロードしてから、あなたの責任において、ホームページやブログなどに画像をアップロードし、外部からURLで画像が参照できるようにしてください。ただし、そのURLをほかのひとに教えたり公開したりする必要はありません。あなたがどんな画像を使っても、わたしには見えない(「NMPC-L64」のサーバーには記録されない)ことを保証します。
・「白地図とは」とはにわホワイト
https://kotobank.jp/word/%E7%99%BD%E5%9C%B0%E5%9B%B3-600363
> はく-ちず
> 陸地・島などの輪郭だけを線で表して、あとは白いままにしてある地図。学習や分布図作成などに用いる。白図。しろちず。
口頭や電話では「しろちず」と言わないとみたいな時代がきっとあった。たぶんですけどね。書き言葉としては漢字だけ書いておけばよい。便利なものよのう。(※なぜか与野本町駅を眺めるような遠い目でしみじみと語ってみせます。)
https://atos.neorail.jp/photos/images/atos0195.jpg?ref=3796
http://www.tsuchibuta.com/jr-east/saikyouline/13yonohonmachi/175_7600.jpg
http://www.tsuchibuta.com/jr-east/saikyouline/13yonohonmachi/175_7599.jpg
http://www.jks-jrg.jp/search/obj/img/001/078/190418-1933_01l.jpg
https://minimini.jp/bookimg/rosen/2198_140_1.jpg
与野本町で撮ると白飛びする説。…なにそれこわい。(※表現は演出です。)
https://youtu.be/foj-mNZNz6I?t=58
与野本町で光線を味方につけるのは難しい。(※表現は演出です。)
https://ja.wikipedia.org/wiki/%E5%92%8C%E7%94%B0%E3%81%AE%E6%B9%96
https://kotobank.jp/word/%E3%82%AF%E3%83%A9%E3%82%A4%E3%83%B3%E3%81%AE%E5%A3%BA-56201
https://kotobank.jp/word/%E3%83%A1%E3%83%93%E3%82%A6%E3%82%B9%E3%81%AE%E5%B8%AF-644251
> 裏表の区別がつけられず(単側面)、また左まわりと右まわりの区別がつけられない(向きのつけられない面)
そして、ここで扱うのは「地形の自動生成」などした「架空の地図」であるので、いわゆる予備知識(事前に学習した知識)に頼って「ここが海で陸地はこっち」とわかるということがまったくできないので、海を着色する必要があり、着色してあるのが海だとわかる色で着色する必要がある、だから「海が青くて平地が白いの」という体裁にしてあるのだと理解させます。(※「させます」に傍点。)
・[3770]
> なお、「NMPC-L64」とは、▼わたし(「tht」)が勝手に作った「作図ツール」であって、▼稲毛海岸にあったという株式会社アートディンクみたいなところとは1円たりとも関係がない、▼なんでも「要望」と称して不満だけ言ってるのでなく「清く正しいサードパーティ・ツールの類」を作ってみたまへよ(株式会社アートディンクの著作物には1ビットたりとも触れないでつくる)というねらいの、▼しかしデモンストレーションに過ぎないものであり(あまり本気でサーブしようとはしていないので細部の使い勝手はつくりこんでいないしサーバーもしょぼい)、▼ま、そういうことだから!! …どういうことですかっ!?
そういうわけで拙作「NMPC-L64」は、「このフォーラム」の記事と“連動”して、記事で紹介するマップの作図をあなたも実際に触れますよという『付録』みたいなことになっています。ですから、あなたが本気でじぶんのマップの作図に使おうとすると不便なことだらけだとは思いますが、そこを便利にする開発は行ないませんので、いかなる『要望』もしないでください。(キリッ
それでも「申し訳程度」に「ブランク」の背景画像から作図を開始できるようにしてありますので、あなたはそれを使うんです。これはわたしが決めることだからあなたは文句を言わないで使う。これゼッタイ。(※見解です。)
・「ブランク」から始めよう
https://neorail.jp/fun/NMPC-L64/?map=blank
いちめんの灰色! さっきは便宜上「白」とはいったけれど色としては灰色! しつれいしました。
> transparent
> use background image from URL
「transparent」にチェックすると「use background image from URL」が表示されます。ここで、あなたが用意した画像を指定して背景に(下絵として)表示させた状態で(その上に=透過の画像として)作図していくことができます。スクリーンショットを保存するか、じぶんで背景(白地図)と作図結果を合成してください。
※この機能にはクッキー(Cookie)を使用していますので、同時に複数の背景を使い分けることはできません。ブラウザを閉じると忘れてくれると思うので、背景画像の指定は何度もさせられると思っておいてください。
JSON形式で出力するほうも、作図(の手順)をテキストファイルで保存しておく機能ではあるけれど、そのJSONを好きなように使って、もっと高度な描画や計算をしてくれちゃっていいんですよ。(※恐縮です。)
・[3659]
> > > パソコンという友達と、新しい驚きや発見をしましょう。
> > > パソコンという友達と、新しい驚きや発見をしましょう。
「DIR」と打ち込んで「リターン」。(…リターン!!)そこに「PAL8CONV.EXE」があるのを確かめてから「PAL8CONV」と打ち込んで「リターン」だ。使いかたが表示されるぞ!(※表現は演出です。「P」だけ打って「タブ」でいいよね。…がびーん。)
> 256×256(65536画素)の画像を読み込んで1ピクセルずつ色を調べるプログラムをじぶんで書いていただいてだなぁ(諸事情により略)これでヒストグラムが描けるよ☆たのしいよ。
こんな感じのを書くんだよというデモンストレーション(=ソースコードは見せずに動作結果だけ見せる=)が「ぱるはちこんぶ(PAL8-CNV)」ですから、本来やはりじぶんで書いていただくべきプログラムです。なあに簡単なことだよスタビンズ君。(違)
☆【理数探究ごっこ】「ヒストグラム」から「ベクトル空間モデルに基づく文書検索」へ
そして、「NMPC-L64」での作図などという面倒なことまではしないとしても、この「ぱるはちこんぶ(PAL8-CNV)」でヒストグラムを出してみせるだけでも、何か新しいことが始まるようなわくわく感がありませんか。ありますよね。ゼッタイありますよね。ぼくらはみんなKADOKAWAですよね!(※断言)
https://keywordfinder.jp/assets/img/casestudies/case03_company.jpg
・[3659]
> このゲームで、ニューゲームや「作成中マップ」の読み込みや保存をするときに表示される256×256の画像を、もっときちんとしたUI(※プレーヤーがゲーム内の情報を得る手段)に仕立ててほしいなぁという気持ちが強まってまいります。
> ※何か文字や数値を入力させたり項目を選択させたりするのだけをUIと思ってませんこと? あらあら、まあまあ! 情報を提示して理解や判断をさせる画面も重要なUIなんですよ。…そこからですかっ!!
> ※「判断」:その場では判断(方針などの決定)だけを行なって、具体的な操作は特に行なわないという状況を指しています。
なにをかいわんや。(…すでに言ってるし!!)
> ウィンドウが小さいときに256×256より小さくなるのはしかたがないけれど、大きくしても256×256で止まっていてほしいわ
> 列車やバスのマークがここに表示される必要はまったくないと思うわ(それはマップを開いてからわかればじゅうぶんだわ)
> 地形だけを確かめたいというニーズがあるのだから、建物や線路の表示をオフにできるといいわ
> 逆に、建物や線路を確かめたいときに、ちょうど40m四方のグリッドとずれているというだけで表示されなかったり斜めの線や細い線が途切れ途切れになったりするのはいただけないわ(『路線図モード!』みたいなので線路と駅をはっきり太く表示できるといいわ=そのモードでは線路と駅以外は見えなくなって構わないのよ)
> 「新幹線誘致」が完成したのに(40m四方のグリッドとずれていて)256×256の画像でまったく表示されないことがあるのはかなしいことよ
なんてこったい。…実になんてこったい。そういう状況なので、ちゃんと使える(1ピクセルずつ色を調べてヒストグラムを作成してよい)のは地形(標高)だけであると理解させます。(※「させます」に傍点。)
https://www.stat.go.jp/teacher/dl/pdf/c3index/guideline/primary/math.pdf
ちなみに「ヒストグラム」は小学校の6年への配当でありますから、本件ゲームの話題においてはいかなる注釈も要りませんし、むしろ注釈をしてはいけません。「ヒストグラムとは」みたいな検索をしないとわからないなんてとんでもないことだと自覚させませう。(※「させ」に傍点。)
https://mathtrain.jp/histogram
> 「データの平均や分散を求めよ」という問題は多いですが「データのヒストグラムを書け」という問題はほとんど見かけません(出題しにくい)。そのため,実際のデータが与えられたときに平均や分散を求めて満足しがちですが,平均や分散などは分布の一つの特徴量にすぎず,かなり情報が少ないです。
> 一方,ヒストグラムを使えば分布の全体的な様子を見ることができるので効果的です。そのため,実際にデータの全体的な様子を把握したいときは,平均や分散などの特徴量のみから考えるのではなく,ヒストグラム(または度数分布表)を使うのがおすすめです。
(このフォーラムみたいに面倒で複雑な話をよろこんでする場では)出題されないからどうでもいいという態度の者は最初からお呼びでない。そんな者のために懇切丁寧な説明をしないといけない義理もない。…よっし、これで来週は受講者が減っているはずだ。(※見解です。)
https://support.minitab.com/ja-jp/minitab/18/help-and-how-to/graphs/how-to/histogram/interpret-the-results/key-results/
> ヒストグラムを解釈するには、次の手順を実行します。
> ステップ1:主要特性を評価
> ステップ2:非正規なまたは異常なデータの指標を探す
> ステップ3:分布の適合度を評価
> ステップ4:グループの評価と比較
1つのマップのヒストグラムだけをじっと眺めていてもしかたがない。複数のマップを比べるときに使うのがヒストグラムなのはもちろんだ。…なにそれ聞いてないんスけど。(※表現は演出です。)
・再び「ぱるはちこんぶ(PAL8-CNV)」です
https://neorail.jp/fun/PAL8-CNV/
> ぱるっとびこ〜ん
> はちっこぶ〜ん
> 平地の面積はどちらが広いかな?
ここにちゃんと書いてあるよ?(どやぁ
・「地形の自動生成」で「気に入った! さっそく新規保存だっ」と思えるときのヒストグラムはどうなっているかな:明らかにそうじゃないマップや、判断に迷うマップなどのヒストグラムと比較してみよう
・ヒストグラムの出しかたを変えてみよう:山の高さをもっと詳しく扱ってみる、マップを4分割して領域ごとに出してみる、などなど
・中心からの長さ(距離)と角度(方角)で点の座標を表わしてみる(極座標もどき):「中心からの長さ」または「中心からの角度」を横軸にとり、縦軸に「標高」をとったプロット(散布図)を描いてみる
・「平地」の「重心」を求めてみる
そういう「理数探究ごっこ」がおうちで遊びながらできちゃうよ☆たのしいよ。
・[3721]
> いい感じに8つの数字がありつつ、鉄道の評価額を1としてほかの7つの評価額をだなぁ(略)評価額の合計という数字もあわせて16つの数字が使えるわけですよ。ここから16次元のベクトルにしてコサイン距離でもなんでも使えば「あなたとプレーのスタイルが近いひとはこのひと!」みたいな検索サービスだってつくれちゃうんですよ。…なにそれなにそれ!! たーのしー。
このへんからがちょっとした卒研だ。「ぱるはちこんぶ(PAL8-CNV)」で出てくる「6色」に要約されたピクセル数を6つの変量(変数)だと思って、6次元のベクトルとして、ふつうにコサイン距離していけば、マップとマップの(標高のヒストグラムの)類似度を使って、(マップや、それを作ったり選んだりしたプレーヤーを)分類したり検索したりするシステムをつくることができる。
・「情報検索アルゴリズム」(2002年1月)
https://www.kyoritsu-pub.co.jp/bookdetail/9784320120365
https://www.kyoritsu-pub.co.jp/app/img/item/12036.jpg
> 情報検索は,情報工学を専攻する学生にとって,決して欠かすことのできない技術となった。本書は,その学部および大学院修士課程向けテキストとして,情報検索の概要と考え方,そこで用いられる各種手法(各種アルゴリズム)を解説する。インターネット,データベースの検索エンジンや構築等のソフトウェア作成業務に携わる技術者にも必要とされる内容である。
本書ぜんぶとはいいません、「ベクトル空間モデルに基づく文書検索」だけをいち早く知っておきたい。
※「三角関数を使って検索システムがつくれます!(すごいでしょ)」みたいな教材に高校生のうちに出会いたかったとはこのことだよ。そういうふうに思っているので、主な読者が16歳くらいかなと思っても、どんどんコサイン距離みたいな話を出してみせるのが「このフォーラム」であります。
https://keywordfinder.jp/casestudies/case03
> 潜在的なキーワードについてもわかりやすくサジェストしてくれる
> キーワードファインダーで見つけたキーワードを企画・取材に生かすことができる
ほぅ。
> 例えばすごくシンプルですけど、「東京 イベント」のような、自分たちで考え得る範囲
それなりのプロでも「東京 イベント」みたいなキーワードしか自力では考えられないと言い切りました。
https://www.daimaru.co.jp/tokyo/teiban_omiyage/images/02-18.jpg
東京ねぇ。…東京とねぇ。
https://cdn.jalan.jp/jalan/images/pict2L/Y0/Y364940/Y364940832.jpg
https://cdn.jalan.jp/jalan/images/pict2L/Y0/Y332520/Y332520373.jpg
…そっちはじゃらんですよぅ。(※2枚の画像は別々の施設のものです。)
・(再掲)個人のブログ「次世代検索はキーワードいらず〜「見えざる関係」の可視化がカギ」(2006年11月26日)
http://tht.sblo.jp/article/1838694.html
> 「見えざるキーワード」とでも呼ぶべき語句がある。より頻繁に使われるキーワードに隠れてしまって意識されないが実は一意性がより高く、より検索に向いたキーワードのことである。検索対象の分野について予備知識がないと、それがキーワードであるとも気づかない。以前に書いた専門用語の難しさと根は同じだ。
> ユーザーにとって「見えざる」キーワードはやはり「見えざる」ままである。
> これではキーワード検索における「見えざるキーワード」と同じ問題が起きてしまう。
・[3313]
> 10年ほど悩んで、悩むのやめました!!
「潜在的なキーワード」といって提示されてくるのを「ほほぅ!」といって使いこなしていけるのは、やっぱり(コンテンツやリサーチの)プロだからなんですよね。そこがまったく「ふつうのひと」となると、どうにもならないんですよね。(棒読み)
https://bokko.hatenablog.com/entry/20081010/1223650288
> 少し前に仕事で全文検索エンジンを導入する機会があり、いろいろ四苦八苦しながら作業を進めていったのですが、基本的な知識や内部のアルゴリズムに対する理解が曖昧だったため、いろんなトラブルに見舞われました。今さら言ってもしょうがないですが、最初からこの辺の内容を頭に入れておけば、もっとスムーズにできたのではないかと思ったりもします。
さもありなん。(※恐縮です。)
> アルゴリズムとか数式が苦手という人でも問題なくすらすら読めるのではないかと思います。これを読んだからといってすぐに検索エンジンが書けるようになるというわけではありませんが、本書は検索に関する基礎的な知識やアルゴリズムを学ぶにはとてもいい本だと思います。
そもそもそういう抽象度で学ぶべき内容や課程である。だからこそ高校生で先取りしても問題なかろうという見立てであります。(※見解です。)しかし、まったく実際には何も動かさないままというのでなく、そこはフリーの統計解析環境「R」を使用して、実にあっさりとコマンド1つで距離行列が出てくるようすに驚いてみせるとか、そういう『小芝居!』を打てばいいんではないですか。
・なんでもござれ(仮)
https://www.rdocumentation.org/packages/stats/versions/3.6.1/topics/dist
https://www.rdocumentation.org/packages/tcR/versions/2.2.4/topics/cosine.similarity
https://www.rdocumentation.org/packages/stats/versions/3.6.1/topics/prcomp
▼「ゆるシミュ(8)」([3658])それに▼「KY軒」([3573])も参照のこと。「ヒストグラム」と呼んでいると、どこまでいっても何かを1つずつ数えてボードにシールを貼っていくみたいな印象が拭えないだろうと思いますので、テキタウなタイミングで「分布」や「確率」と呼んでいくことが大切です。そして、分析のしかたとしては最初から多変量への道筋を示しておくことです。どんなに入門編であっても、6次元くらいのベクトルを触らせるべきです。そうしないとぜんぜんわからないんです。計算は「R」に任せればよいので、なるべく早いうちに6次元くらいのベクトルに触らせてくださいオネガイシマス。(棒読み)
※「KY軒」の例題では7つの変量を使って(≒つくって)主成分分析しています。おもむろに「わずか7列18行」のデータを用意して、…あ、(しばらくお待ちください)しこうして『主成分分析を1回だけ!』という単発の処理で終わる話なので「ベクトルがー(↑)」とは強調していませんが、もしデータの行数が200や300くらいあれば「ベクトル空間モデル」を説明しながら「検索」や「分類」の話にしていけるんです。データの更新・追加・削除があるならデータベースの話になってきて…そこからは分野が違う気がする。教養として(だれもが)知っておく必要はあまりなく、真に仕事で必要な人が学べば十分だ。本当でしょうか。(※恐縮です。)
・日経リサーチです
https://www.nikkei-r.co.jp/glossary/id=6531
https://www.nikkei-r.co.jp/glossary/id=1632
説明のしかたや概念の分けかたや呼びかたが古典的すぎるので注意。…SVD! SVD! われわれは「R」で『いきなりSVD!』しませう。(※恐縮です。内部で「SVD」をコールしてる、もっと便利なやつをいきなりたたいてよろしい、しかし「SVD」が何者で、何をしてくれてどうなっちゃうのか=どんな入力があるとどんな出力をするのか=は理解していないといけない、の意。)
https://www.nikkei-r.co.jp/glossary/id=1605
> (1)相関行列の固有値分解 ==> 主成分分析(因子分析)
> (2)頻度行列の特異値分解 ==> コレスポンデンス分析(数量化3類)
> (3)分散比行列の固有値分解 ==> 判別分析
> (4)距離行列の固有値分解 ==> MDS
> というように、入力データが違うだけで、データの解析法は同じである。
この説明が秀逸だとは思いました。(※恐縮です。)
|