・「数学の自由研究」とは何か ・アカデミックな「道具の使いかた」 ・「郵便番号データ」で「tf-idf」「Okapi BM25」「pLSI」 ・「2018年度 受賞作品」あらため(検)
(約23000字)
[3741]の続きでもあります。
(8月15日に追記)
「自由研究 理科の代わりに数学」というクエリーがあったのですが、お気持ちはわかりますわかります。
・「リスーピアとは」
https://www.panasonic.com/jp/corporate/center/tokyo/risupia/risupia.html
> 自然に潜む算数や数学の美しさ。
> 身近なくらしの中にある理科の面白さ。
> 理数の原理・法則を楽しみながら学ぶことのできる日ごろの勉強とはひと味違った、「理数の不思議」発見の旅に出かけよう!
理科だけかしこまって自由研究しませう(ちーん)みたいなところにつまらなさがある、それはまた数学だけということになってしまっても同じように出てくるつまらなさであって、(年齢に応じた)「理数探究」こそがおもしろいし、おもしろいからどんどん進むというところがあると思いたくありませんか。
https://www.panasonic.com/jp/corporate/center/tokyo/risupia/institution/F3.html
しかし展示はぜんぜんだめだめに見える。ひたすらLED照明と大型モニターの類にだまされているだけという気がしてくる。子どもにすら「この『テレビ』いくらですかー!!」みたいに質問されちゃいそうなていたらくである。(棒読み)理数というのはもうちょっと抽象的で(抽象的だというところが:年齢によって)むずかしいものだと思うので最初から大人といっしょというのが大前提でありましょう。(※見解です。)
https://www.panasonic.com/content/dam/panasonic/jp/corporate/center/tokyo/floor/risupia/institution/F3/img/libraryImg03_016.jpg
> ファンクションシューター
> シューティングゲーム感覚で楽しみながら、関数の式とグラフについて学ぼう!
これにあたることはじぶんでプログラムを書いて遊んだよ。(“ゲームじたて!”にできるほどの技量はなかったのでただ動くだけだったけれど)懐かしい思い出だよ。いきなり表計算ソフトがあるとかえって勉強にならない。かといってウェブプログラミングみたいに線や点のプロットにナンギさせられる(画像として出力してからブラウザに読み込ませるみたいなワンクッションがある)言語や環境では(せっかちな子どもには)わかりにくいしまどろっこしい。いきなり画面に線や点を描けるBASICあるいはLOGOみたいな環境って必要なんですよ。外付けでロボットが走るとかLEDが光るとかいうのはむしろ要らないんですよ。画面の中だけでぜんぶやる。そこが大事なんですよっ。(※実感です。)
https://gihyo.jp/dev/serial/01/enjoy-pg/0003
https://image.gihyo.co.jp/assets/images/dev/serial/01/enjoy-pg/0003/000301.jpg
> 昔から趣味などでパソコンを触っていた人は,「ああ,あの一瞬で消えた言語だね。」と思ったかもしれません。日本では1980年代にLOGOがブームになりそうな兆候がありましたが,LOGOの狙いや目的が正確に伝えられないまま名前だけが先行してしまったため,理解されることなく一瞬で消えてしまいました。
これは小学校の低学年で取り組む内容なのに中学生にやらせようとかいうところに無理があったんですよっ。英語の歌を歌わされるのとかも同じだと思うんですけどっ。(棒読み)
> コンストラクショニズムとは,「学習者は,周りの環境に働きかけることで何かを作り出し,それを認識することによって,新たな理解や知識が作り出される」という考え方です。つまり,知識構造は教師などの第三者から教わるものではなく,学習者自身の手によって作り出されるということです。
・[3496]
> 小学校の算数を顧みず、大学で習った(※じぶんの卒研や修論でかち取ったのでなく習っただけ! あまつさえWikipediaで引いただけ! …ギクッ)高度な手法を小手先で転がして悦に入るような態度では、いけないのです。
・[3166]
> いくらBASICが簡単でも、それまで数学しか勉強してきていない人にいきなり「変数に値を代入」と(日本語で)言ってすんなりわかるというものでもなかったはずです、たぶん。
・[3282]
> いきなり「主記憶」だのなんだのというのが、これまた「理科」や「技術」なんですけれども、こう、ここについてはかえって、もっと文系っぽく、コンピューターの開発の歴史を「丹ねん」に学ぶようなソレが期待されてもよいのかなぁ、と感じます(機械・電気から情報まで[3178])。
> 歴史だといった途端に、「わが国としては第5世代コンピューター」とか「日米貿易摩擦」だとかいう、一種「カリカリの社会科!」になってしまいそうなのも難しいところです。そこからは切り離して「技術史」「科学史」を勉強したいなぁ、と思われたいと思いました。また、発明者を『偉人』扱いするのも、もはや前時代的だと感じます。「AlphaGo」のハサビス氏についても、いま現役で最前線の研究開発に従事されているかたを、メディアが追いかけまわしてはいけないと思います。
> それはそれとして、こう、プログラミングの、特に「変数に値を代入!」あたりのことは、「算数」そして「数学」の「等式」に頭を支配される前に、すなわち頭の柔らかいうちに、いち早く「体とく!」されておきたいと願われます([3166])。理解できないということはなく仕事もできるわけですが、しかし、どうにも納得いかない気持ちわるさに一種「フタ」をして「代入」しているのではないかなぁ、と想像します。問答無用で「プログラミングでは代入! 算数では等式!」といって(両方を対等に)身につけることができるためには、これらを学ぶ年齢の上限がありそうだと思われてきそうです。
> プログラムの動きを正確にイメージできないまま、目先の命令文の記述を手先でいじるだけのようなソレ(とっかえひっかえしたら「なんとなく動いた」)では、「プログラミングができる」とはみなされません。ここで、古くは「LOGO」、いまは「マインクラフト」など、「GUIな出力!」が最初から一種「イメージャブル!」に提示される環境が、かえって「じぶんでイメージする」力を育てないまま終わってしまうのではないかと心配します([3071],[3072])。
LOGOみたいなものすら与えられるのでなくBASICでじぶんでやれとのたもうています。…おそろしや!(棒読み)
> そして、こう、「文法用語を駆使しながら英文を読解!」しているうちは「英語ができる」とはみなされないだろう([3061])というのとも似ています。プログラムの動きをイメージするときに、コンピューターやプログラミング言語に関する「用語」はほとんど介在せず、もっと直感的に、こう、機械式の時計のフタを開けて時計の動きを見ているかのような感覚で、しかし必ずしも具体的な(視覚的)イメージのないものもイメージしているという感覚を、みなさま、たぶんお持ちのことと思います。
BASICでそういうことをして育ったのち、CSCLらへんを専攻したかったけれど先生がいなかったみたいな残念なわたしでございます。(※恐縮です。)
https://www.minervashobo.co.jp/book/b222321.html
・[3282]
> かといって、ワタクシ、もっと早く「状態遷移表」を知っておきたかったなぁ、といって『後から後悔!』しました(=当時)。考えかた自体を知らないと、自分だけではどうやっても気づけないものです。プログラミングに限らず、遊びながら自然に発見できるもの(※)と、かなり「えげつない実験」([3099])をしないと一種「あぶり出し」ができない種類のものと、両方あって、両方ともバランスよくハンドリングできないと、開発や研究が「できる」とはみなされない…本当でしょうか。
> 既知の物質の「組合せ」では発見できない、未知の元素の予言に至った「メンデレーエフの周期表」([3126])の考えかた(周期表そのものでなく、の意)も参照。
かなりの反省があっての、その後も長く続く学習でございます。まったくもって仕事に使えるというレヴェルではないことは先におことわりしておきませう。(※恐縮です。)
・[3697]
> ゲーム内のUIだけで「ダイヤ設定」をどんどん行なっている最中にはほとんど(=ほかのひととしゃべるのでなく自分の頭の中で言葉で説明というか実況するような意味で=)言語的な活動はしていないとふり返られませんか。他人に説明しようとして初めて「OuDia」の出番が出てくる(…『出番が出る』!!)というのは、そういう感覚ではございます。…UML? なにそれおいしいの?(違)
『変なところ!』に“昔とったナントカ”が活きてくるという皮肉よ。(※反語)
https://www.panasonic.com/content/dam/panasonic/jp/corporate/center/tokyo/floor/risupia/institution/F3/img/libraryImg03_005.jpg
> ウェーブハーモナイザー
> 音のカタチが目で見える!?
> キミの手の動きにあわせて音の波が変化するよ。
波の重ね合わせならじぶんで書いたよ。うん。(※恐縮です。)
・[3553]
> > やーい角川だいおうじ([3489])!
> > 呼出音(RBT):周波数400±20Hzを15〜20Hzで変調、変調率85±15%、断続比20 IPM±20%、メーク率33±10%(1秒鳴って、2秒休む)
> > 第2発信音(SDT):周波数400Hz、断続比240 IPM、メーク率50%(0.125〜0.15秒鳴って、0.1〜0.125秒休む)
> 電子電鈴「EQZ」って、何かこう、電話でいう「RBT」「SDT」などと同じ並びで「EQZ」というものを、鉄道側で定めて使ってますというような感じなのでしょうか。本当でしょうか。そういう気配が最も色濃いのは東急線ですよね、わかります。
https://neorail.jp/fun/HEBM-DPY/
これまた『変なかたち!』で結実してくるという××よ。(※ぜんぜん実用性がない、の意。)
・千葉大学 高大接続センター 高大連携支援室「高校生理科研究のためのヒント集」より「SDR無線機」のふいんきです
https://www.cfs.chiba-u.jp/koudai-renkei/information/hints.html
> 携帯電話などの受信機に使われている回路の動作をエクセルでシミュレーションしてみました。
> FIRフィルターは移動平均に重みを付けた移動加重平均で重みの付け方によって様々な特性を持ったフィルターを作ることができるようです。
> その2
> 前回に続き振幅変調や位相変調など様々な変調に対応できる送信機の動作をエクセルでシミュレーションしてみました。
> 新しい変調方式や復調方式を考えたりする場合数学の知識が必要になります。
> ソフトウェア上だけで研究してみるのもよいでしょう。
しかし「エクセル」でやりますか。…うーん。オープンソースなどのソレをPC教室のPCに入れておくソフトのリストに加えてくださいみたいないちばんめんどい(変わるまでに2年くらいを要する)ところをやらないまま「エクセル」でという、仕込みというか裏方仕事をさぼった結果ではありませんか。…ギクッ。
・「2001年度学長裁量経費プロジェクト」付近
http://www.ecs.shimane-u.ac.jp/~kyoshida/octave.htm
> MatlabライクなフリーソフトであるGNU Octave
> Octaveを用いた数値計算と動的システムシミュレーションのプログラミングを例題と演習問題を交えて平易に解説しています.
Octaveでなんでもできるようになるまでを指導するのでなく、あれとそれだけできる(そこだけOctaveを使う)というような指導をするのが高校生の段階だと思われましょう。「R」も「MySQL」も、そういうことでいいと思いました。
(ここまで追記)
☆「数学の自由研究」とは何か
このフォーラムのシリーズ「研究ホワイトボックス」は、「研究を楽しく「追体験」! 真っ白のキャンバスに虹色の未来を描く方法、教えます。」と銘打って、研究に臨むための考えかたや、基本的なツールや計算法などに習熟する助けとなることを目指す記事です。ここで研究成果(=新規性や独創性という意味で=)を出そうということではありませんのであしからず。(※正確性や再現性の確保を促すものです。)
・「自由研究とその周辺」(2017年1月28日)
https://neorail.jp/reports/?20170128_A_Survey_of_Recent_JIYUU-KENKYU_in_Japan
https://neorail.jp/reports/20170128_A_Survey_of_Recent_JIYUU-KENKYU_in_Japan/preview_table3.png
・みんなで同じデータを使おう!(再現性)
・みんなが知って理解して納得している(使ってよいという合意のある=認められている)計算法などを使おう!(正確性)
・[3572]
> じぶんの研究のためにじぶんでデータを採るばかりが研究ではないという意味での(整備されたデータコレクションを使って複数のチームが独立に研究を進めるなどの&ひいてはSSHと呼ばれる高校でこそ実験よりデータ処理であろうとの)「スーパードライ!」については[3512],[3564]を参照。(※お酒ではありません。)
・[3567]
> 「RとFDA」
> > FDAが使っている統計言語はSASですが、FDAの性格上固有の会社の統計言語に依存することには問題があるため、パブリックなRが注目されるようになりました。
> > FDAの薬事申請はCDISCと呼ばれ標準化されています
http://tk-g.hatenablog.jp/entry/2018/02/15/000000
> 研究には、それが誰がやっても同じ結果が再現されることが非常に重要です。その一方で、生命科学や心理学の分野では、その再現性が非常に低いということが近年問題視されています。
これが「再現性」です。
> 「研究を再現するためのプログラムが共有されていないこと」や「結果にランダム性がある中で研究者がたまたまいい結果が出た時だけを報告していること」など
こうならないようにするのが「正確性」です。
> オープンなデータセットやプラットフォームで精度を競う情報科学の世界は圧倒的に健全な印象です。
「正確性や再現性の確保を促す」と、この順番で記しましたが、▼正確性の確保はゼッタイで、やればできることなのでゼッタイやる(それができていなければ適切な指導を受けていないとみなされドクターストップみたいな意味も含んでリジェクトされる)、▼再現性の確保は難しい場合もあるが再現性に難があるからと言ってあなたの発表は聞かないよということではなく(げふ)これから確保していくんだねと言ってできたところまで聞くよという(ゲフンゲフン)しつれいしました。(※ほとんど重みのない口頭発表を念頭にしています。論文ではそのように審査が緩められることはないと思ってください。)
・[3387]
> 「integrity」を、簡潔な1語に訳すのは無謀で、その都度「integrityとは何か」という長ったらしい注釈を付随させるのがベストではなかろうか
・[3386]
> > インテグリティ(integrity)
> > これは、一言でいえば正直さ、誠実さ
・[3306]
> 学校の外での塾や活動などで「全力」を出しつつ、学校に提出するのは「このくらいで十分」などとする『調整』がはたらくというのも、…なんだかなぁ。
学校の内外で態度を大きく変えるような態度であれば「インテグリティ(integrity)」を欠いた態度だといえます。(※断言)
・[3486]
> 翻訳も同じようなもので、より質の高い成果物を納めるということは、それが先方(発注者)に教育的な効果をもたらし、究極的には先方が自前で翻訳できるようになっていくのを助けるという、サービス(≒仕事の代行)と教育(※育てるという仕事)の境目が本質的には曖昧な業務であろうと思います。(私見です。)それを防ごうとして、ほどよく適当な成果に留めておこうなどというのは「正直性」に反します。
> あたかもセカイにじぶんと顧客との間の関係性しかないかのような、きわめて自己中心的なセカイ観に留まっていては「素直そして正直」([2938]※)は達成されないとも思えてきます。
> じぶんが担えるのはここからここまでだけれど、じぶんの周りにはかように豊かなセカイが広がっているのですよ、というのが、論文の「メタ目次」([3093])でいう「2章」の役割なんですよ。
論文の「2章」をきちんと書けているかということが「正確性(integrity)」を示そうとしているかどうかの“傍証”になるのです。だから「2章」をきちんと書きませう。「数学の自由研究」でも例外ではありません。「自由研究とその周辺」の「表3」では「2章」は「新規性」と「有用性」を「○」としているけれど、「数学(の自由研究)」だから「有用性」はちょっと言語化しにくいとか「(数学の)自由研究」だから「新規性」は借り物(過去の誰かが示した新規性の追体験でもよい)とするという指導もありだと思われましょうが、だからといって「2章」そのものに取り組まなくてよい(教科書を開いていきなり問題を解くところから始まるようなレポートを提出してよい)ということにはならないというのが「数学の自由研究」であります。数学かどうかというより前に、まず「自由研究」として形式を満たしていなければならない。ここだね。数学というといきなり問題があって黒板や解答用紙の上で解いていく、そういう流儀しか知らないままではできないのが「数学の自由研究」であるのだと、こういうわけです。(※見解です。)
・[3403]
> 「公称値」は『数学用語!』([3394])ではありませんが、JISで定められた「計測用語」ではありますので、念のため。
・[3563]
> 単に「最小二乗法」と訳してしまうと、(数学上の)操作の目的がよくわからなくなるという『副作用』がございますよね。…その発想はなかった!(棒読み)日本語で数学を学ぼうとすると、和訳がひどいのでひどい目に遭わされるのですよ。これからは英語で数学。これだね。(※見解です。いえ、授業は日本語でいいんですけど、数学用語はすべて英語表記を確かめながら学びたいですよね、の意。)
> 正規直交基底みたいなのキターっ!!
https://lohas.nicoseiga.jp/thumb/4958527i?
『英語で数学』するデース!(棒読み)
・(再掲)「きょうび「確率的」といったら***が***っ!」のイメージです
http://www.slideshare.net/antiplastics/pcagplvm
> GPLVMってぐぐってみると... なるほど、わからん\(o)/
> 一体、何をしているのかくらいは理解したい
> PCA(主成分分析)のド発展版に相当する
> PCAのお化けのような手法とでもいえばよいのでしょうか。
> PCA
> Dual PCA
> Kernel PCA
> Probabilistic PCA このままでは解けない
> Probabilistic Dual PCA → GPLVM
およそ(手法の名称は)和訳などされないまま勉強していくこのへんとか(※「このへん」に傍点)、そもそも「stochastic probabilistic 違い」([3671])みたいなことを正しく会話できる(ほかのひとと齟齬なく意思疎通できる)ためには『英語で数学』が必須である(しないと支障があるレヴェル!)という理解であります。
・[3671]
> > stochastic probabilistic 違い
> 「stochastic probabilistic 違い」:『哲学じみた数学!(もはや哲学だよ)』と『工学じみた数学!(もはや工学だよ)』ということだよね(棒読み)
・[3528]
> 「R」を使ってのクラスター分析は、まさに「データを対象とした実験」なのです。理科の実験について書くのとまったく同じく、▼じぶんが何を調べるためにどのような計画を立て、▼どのような道具や材料を用意したのか、ぜんぶ書く必要があるのです。このとき、「道具」といって「Rを使いました」というだけではまったく不十分であり、「R」のうち、▼じぶんはどの関数を使うのか、▼その関数を使う理由は何か(何を調べることができる関数なのか、どんな出力が得られるのか※)、簡潔ではあっても説明を尽くすことが求められましょう。
> ※例えば「ヨウ素液」について書くのと同じことです。(試薬は「道具」の一種です。「材料」ではありません。)
「実験」に使う「道具」と「材料」を峻別して認識する、それを理科ではなく数学という分野で行なうというのが、ふだんの数学の授業にはない「数学の自由研究」ならではの部分であるといえましょう。そこに難しさがある生徒に対しては、問題設定を「物理」や「情報」から借りてくる(「道具」と「材料」があらかじめ分かれているように見える問題にする)という“ヒント”を与えてよいのではありませんか。本当でしょうか。それを「そんなのは応用数学だ(理学部でやるやつじゃない!)」みたいな態度で(数学科の教員が)接しては、生徒の多様な進路を狭めてしまいますぞ。…ギクッ。(※表現は演出ですが見解です。)
・[3582]
> > S61 千葉市教材作成支援ソフト(MSX版)開発
…MSX! MSX! じゃなくて。
> 上述のように「散布図行列」という『数学用語!』で説明される(一般化して述べられる)ことはなく、あくまで「分析ソフト」(…『ソフト』!)の機能だとのみ捉えられているようすがうかがえます。これは、昔から大型計算機センターに行列してうやうやしく計算してきたひと(※)にしてみれば、真に計算機が活躍するのは計算プログラムの部分だけであって、見やすい図表は手でつくるものだと、そんなことに電気代を…じゃなくて、手で図表をつくること自体が検算でもあったので、あまり自動的に図表まで出力されてくるのは好かんと、たぶんこういうわけです。それはまったくごもっともでございます。しかし、散布図行列を間違いなくプロットするというような、難しくはないけれども量の多い仕事は計算機に任せたいと、これまたこういうわけです。
> このような感覚(図表はじぶんの責任で、じぶんの手でつくるものだ)からは、分析だけを「分析ソフト」の所定のライブラリで行ないさえすれば(※徳間書店のアルバイトの編集部氏でいえば「業者に依頼」すれば)、図表をつくるのは得体のしれないフリーソフトや自作のプログラムでもいいんだという、計算機の出力に手で修正が加えられて写真製版されてしまった報告書を無効として破棄させたビデオリサーチ社([3569])や、FDA(に提出するデータの様式や使用可能なライブラリ等のホワイトリスト)のようなエレガントさ([3567])の正反対みたいなことをしているのだということに対して無頓着すぎるきらいがあるともいえましょう。
> 結果が同じならなんでもいいとするのでなく、ホワイトリストに事前に入れてあるものしか使ってはならないとするということです。
再現性と正確性について疑義がないように自由研究を完遂して、じぶんのことばで説明できる(発表できる)、まずはそこまでだ!(キリッ
☆アカデミックな「道具の使いかた」
今回の記事で登場する「tf-idf」や「Okapi BM25」、それに「pLSI」などについて、インターネットで(日本語で)検索すると技術者が書いたブログばかりがヒットしてしまって、おそろしく学習に適さないと思われましょう。研究者になろうというわけではなくても自由研究や理数探究では研究者の考えかたを追体験しなければなりません。同じ方法(技術)を使って仕事をするのでも、技術者として求められる態度と研究者として求められる態度は異なります。技術者として求められる態度を身につけるのは工学部に進んでからでじゅうぶんです。高校までのわたしたち(=を指導する者を読者として想定していますが=)は、数学や理科の学習の延長線上で、アカデミックな態度で臨まなければなりません。
※「違いを30倍に強調しています。」みたいな注釈つきのイメージで、ま、技術者の領域と研究者の領域には重なる部分も大きいのでそれなりに行ったり来たりできるところがあるわけですが、違う部分というのははっきり違うので、どちらさまもうっかりするととんでもない失敗につながったり、一定の年齢を超えてからでは何をどうしても(態度や考えかたを)身につけられない(うわべでしか語れない)ということが起こってくるのであります。そうした中でもとりわけ身につけにくくなりやすさみたいなものが深刻なのは研究者としてのソレのほうであると思われるので、これはなるべく若いうちにエッセンスをよく理解しておくべきだというわけです。
・いろいろな手法を、数学として理解しよう(使えればいいというのでなく)
・プログラムが動かなかったら、それはそれで構わない(使えなくてすらいい!)
・プログラムが動かない原因がデータの大きさであるなら、データを小さくしてもよい
・データを小さくするときに、数学としての理解に照らして、手法が持つ本来のはたらきを損ねないように注意しよう
いまどき「AIがー」と白目で叫び声を発しながら『よくわからない使いかた!』をしているひとたちを白眼視しながら、わたしたちはきちんと勉強しませう。
※「AI」というもの(技術)を分解してとらえれば、それは多変量解析ですよ、の意。「AI」の目的(アプリケーション)のほうは、それぜんぶパターン認識の類でしょ、と、こういうわけです。
・[708]
> さいたま新都心駅ですが、みかけはひたち野うしく駅にそっくりです。
> 今日、自転車で行ってみたのですが、北与野駅までまっすく道が伸びていて、北与野駅から徒歩10分あれば行けそうです。
・[3637]
> おりはらさんが自転車。おりはらさんが自転車。
…じゃなくて。
・[3538]
> > 子どもは結論を求めたがるが、親が促して予想をさせる。
・[3543]
> セブンプレミアムのナンバーワンは「大つぶ・小つぶの あげ玉(50g)」だそうですよ。へー…岡山や埼玉のひとが家庭でお好み焼き([3514])するために「大つぶ・小つぶの あげ玉(50g)」だけをあわててコンビニに自転車で買いにいきそうだよね&その道すがら、踏切や国道がありそうだよね。…ギクッ。さあさあ横断歩道のない県道や(細い)国道を横切って…ゲフンゲフン。むしろ踏切が信号機がわりだったりするんですよ。うん。
変なところで唐突にあらわになる岡山や埼玉のひとっぽさ。お気をつけあーれ〜。(違)
・[3675]
> > 「こうした道具の利用を低年齢のうちに教えないと、青年期になって必要な作業能力が身に付かない」と警告する。
> 道具の使いかたというのはかなり身体的というか習慣的でもあるので、自転車やオートバイくらいのものだ(=自動車よりも難しい⇔だからといって習得が難しいとは限らない)
調べようとか確かめようとか検めようという習慣をつけ(させ)ようということの、かんたんなことなのにむずかしいことよ。(※詠嘆)▼「内輪差([3367],[3540])というものは児童交通公園で身につけておかないと手遅れ。」については[3615]を参照。なるほど四輪車には四輪車のむずかしさがあるとはこのことだよ。(※表現は演出です。)
☆「郵便番号データ」で「tf-idf」「Okapi BM25」「pLSI」
・拙作de御免だー©「駅名ランダマイザー(Z47T-DFK)」(2019年5月24日)
https://neorail.jp/fun/Z47T-DFK/
このツールの「肝」は、あなたが選ぶ町名を数値化できることです。
> その地名を含む都道府県と市区町村をカウントアップできます。あなたはあなたの架空の都市のランダムさや普通さを定量的に評価することができます。
ここだね。
> 一般的な地名は、5つ以上の都市に存在する名前として定義されます。
> 5つ以上の区市町村に存在する町名のみ表示します
> ※表示される町名は「郵便番号データ」のごく一部です
この『前処理』(わたしがしておいたよ☆かんしゃしてよね)によって、ま、どれを選んだとしても一定の「どこにでもあるふつうの町名らしさ」が保証されるわけですが、その上で「どこにでもあるふつうの町名らしさ」の程度は大きく異なります。そこを感覚ではなく数値で比べよう、数値で比べられる限りにおいて比べようということなのです。自由研究っぽくなってまいりました。
・「tf-idf」本日は日立ソリューションズの説明をご覧いただきます
https://it-words.jp/w/tf-idf.html
> てぃーえふあいでぃーえふ
…てぃーえふあいでぃーえふです。(大きな木の前で重々しくゆっくりナレーションしてください。)
> 「tf(term frequency)」は、文書の中で特定の単語が出現いた回数を、「idf(inverse do cument frequency)」はコーパス全体の中で文書を含んだ文書数の自然対数を表す。
※「出現いた」「do cument」は原文ママ。「コーパス全体の中で文書を含んだ文書数」は「コーパス全体の中で特定の単語を含んだ文書数」の誤りです! 日立ソリューションズはこの程度かっ。(キリッ
「idf」は「df」の逆数で、そこに自然対数をかけたものを使うという順を追った説明が求められます。
> よって、「tf×idf」がその文書中におけるその単語の"tf-idf"となる。
なかなか比べにくいものをとにかく比べるんじゃいという指標です。これが何か自然の原理に迫る方法だとか、人間の行動を理解するための指標だとか、そんな科学的なことを考えてはいけません。あくまで工学です。便宜的な計算法に過ぎないと理解させませう。
この「tf-idf」とほぼ同じ考えかたを地名(町名)に対してあてはめたのが、ここでいう「どこにでもあるふつうの町名らしさ」であります。区市町村で数えたのが「tf」、都道府県で数えたのが「df」にあたります。ここから逆数と自然対数というステキな数学の道具を使って(…ぞぞっ!! じぶんで言ってじぶんで鳥肌が立つよ@ぜんぜんステキじゃないよっ)「重み」の値を求めていきませう。(以下略)
・逆数は小学校6年「算数」への配当であります!
・自然対数は高等学校「数学II」から「数学III」にかけて変なかたちでの配当であります!
https://www.nipec.nein.ed.jp/sc/risuu/h20/h20suugaku/narita.pdf
> 数IIIまでとって良かったと思いました。
しかし自然対数を実用的に使ってみせるというのはもっと早く全員が学んでもだいじょうぶな気がする。本当でしょうか。(※あくまで私見です。)
「tf-idf」では「珍しいもの(起きにくいもの)を見つける(珍しいものほど高い重みになるようにする)」ために(文書数Nが大きければ大きいほどいいぞというところにも頼りながら:だから対数が出てくるんです)自然対数を使いますが、今回のわたしたち「どこにでもあるふつうの町名らしさ」というのは逆です。Nも文書検索でのNほど大きいわけではありません。ですから自然対数を使わずに話をまとめられそうだと思えてきませんか。これなら小学校6年の自由研究にしてもいいですよね。もっと本当でしょうか。
・ウィキペディア「Okapi BM25」
https://ja.wikipedia.org/wiki/Okapi_BM25
> idf値の最小値を0とし、一般的な用語を完全に無視する
> idfが必ず正となる定義式に変える
対数で見て、小さすぎるものはなかったことにするという操作ですね、わかります。こちらは逆に、実用的というより数学だと思って勉強したほうが勉強した気になれる(!)し、その限りにおいては対数を習い次第、これも調べてみるという学習をしてもよいのではありませんか。本当でしょうか。
・当座のゴールはここや!「pLSI」(ばーん
https://www.ism.ac.jp/~daichi/lectures/H24-TopicModel/ISM-2012-TopicModels-daichi.pdf
…話が遠回りすぎる!! 数学に関するコラムだと思って気楽に、数学の観点だけで説明したほうがかえってわかりいい。…『わかりいい』!!(※見解です。)
> トピックモデルは、ある意味で高次元離散データに適した多変量解析の方法
「ある意味」じゃなくて、そのものでしょっ。
> 固有ベクトルが言葉の「意味」に対応?
> ⇒ LSI (Latent Semantic Indexing)
固有値分解の有用性や意味を、「晴れの特異日!」を題材にして授業しちゃいけないんですかー。(棒読み)
http://dario.gloomy.jp/tt/blog/images/20161230230548.jpg
行列を布だと思って、そこにそういうベクトルがあるとしわが寄るのはゼッタイそこしかないみたいなことが、そもそも最初に行列がだいたいこんなのと決まった段階で自動的に決まるじゃろ。本当でしょうか。▼「満員の先頭車を押しながら進もうとする動力車の垂直座屈」については[3134]を参照。
> UM/NBは制限の強い、単純すぎるモデル
> 実際の文書は、複数のトピックが入り混じっている!
> Implicitな仮定:
> 文書にトピックは1つしかない
そんなわけあるかいといって、クラスタリングでいえばソフトなほうに進んでいくのと同じことをするわけです。
> 直感的には、各文書がそのトピックについて持つ確率の和
> Probabilistic Latent Semantic Indexing:
> 複数のトピック、LSIの確率化
ここでいう「確率化」とは、クラスタリングをハードではなくソフトにするのと同じことです。ある1つの文書が、いくつものトピックに少しずつ所属するんだという「重複のある分類」をするようすをイメージさせます。
整数で扱っていたものを小数に拡張するというイメージでもよいでしょう。バナナが3本ありますが5人います(違)バナナの大きさにも差があります!(※あくまでイメージです。)
本の分類でいえば、本を1冊ずつ(=整数でとらえ=)棚に収める(※「棚(分類)」=1冊につき分類は1つ=本の置き場所は1箇所)というイメージからの拡張だという説明ができましょう。
本の“分身”をいくつでもすきなだけつくってから、いろいろな分類に収める(分類を書いたタグを本のほうに何枚も貼るというイメージでもよい)、そのとき、どのタグとは関連が強くてどのタグとは関連が弱いかをパーセントで書く(=総和を1として小数で扱う=)というイメージでよいでしょう。…というか、そのものです。(※ここですごいのは▼計算のテクニックと▼大規模でも高速なプログラムなんです。考えかたはむずかしくないよ、の意。)
※「総和を1とする」のは正規化と呼ぼう。規格化とか標準化とかいう古風な訳語はさすがにボイドしようではありませんか。…すたぱーん!
https://imadegawa.typepad.jp/.a/6a0120a637d95a970b01901e1a6967970b-800wi
※「すたぱーん」はスタンプを押すようすを活写した擬態語の類です。
翻って、(数学の)自由研究から理数探究まで、単元の進みに合わせてこのへんをなぞっていくとよさげですぞ。(※あくまで私見です。)このとき、新聞記事のコーパスが使える学校やご家庭などあるはずもなく、しかしデータがそれなりに大きくないとまるで現実味がない(特に固有値分解の例題としては適切に大きな行列を用意しないとそのはたらきが見えてこない)、そうしたときに「郵便番号データ」が使えますよという話題提供でした。
※実際に「R」や「MySQL」を使ってみせる話題については前回までの[3707],[3708]を参照。
・「特異日」を数学だけで読む
https://ja.wikipedia.org/wiki/%E7%89%B9%E7%95%B0%E6%97%A5
> 気温の特異性に関しては、実際のデータを用いて多変量解析を行うことにより、特異性があるか否か(ある特定の日が特異日であるといえるか否か)を統計的に検定することができる。
気温だけと限れば計算可能な程度の計算であるぅ。もし「晴れの特異日」を固有値分解というか特異値分解で探して実際と一致しているかを調べたいとして、理想的にあらゆる観測データを入れた多変量解析が実行できたなら、きっと「晴れの特異日」は出てくるはずだ、だって現に「晴れの特異日」があるんですからねみたいな話、高校生くらいのひとよろこびませんか。というかじぶんはよろこんでいませんでしたか。…ギクッ。(※過去形)
※主語が大きい、身の丈を超える話を好むきらいがある、の意。
> 地球内に原因を求める説もある。季節変化により、大気の大きな流れがある特別の日に急に変わることによって特異日が生ずる、という説である。
わたしたちが素朴にイメージするより変化は急峻である。いわゆる臨界現象の類である。そこは理科なんですけど、じゃあ「晴れの特異日」がー(↑)といって数学の出番であります。だから理数探究するんですね、わかります。
・(再掲)
http://www.dhbr.net/articles/-/5372
> 新エネルギー・産業技術総合開発機構(NEDO)による特別講座「実データで学ぶ人工知能講座」(AIデータフロンティアコース)が東京大学で開講した。
> 大阪大学が大学院レベルの講座を提供するのに対し、東京大学では、より裾野を広くして学部レベルの基礎的な講座を提供しています。
> 受講生のモチベーションとしては、CSやAIについて体系的に学びたいというところが大きいようです。繰り返しになりますが、彼らの多くは、さしあたり、必要に迫られて何らかの先端技術を使っていますが、それがベストかどうかもよくわからない。そこで、AIを体系的に学び直したうえで、実際に使う技術を選定していきたいと考えているようです。
それは研究者に任せればいいみたいに考えられないでぜんぶじぶんでやろうとするのがいけない。それでも勉強だけはしておこうというのは研究者に任せるときのコミュニケーションに役立つので必要なこと…だぞっ。(※見解です。)
> 情報教育そのものが広く普及していないので、CSの基礎の部分についてご存じない方もいます。そこは本来、高校や大学の教養課程で学んでもいいような内容だと思います。さまざまな分野から受講者が集まること自体はいいことだと思いますが、そういう方の多くは情報系の本格的な授業は受けたことがありませんから、そこをきちんと押さえてもらう必要があります。
> 情報的なものの考え方、すなわちコンピュテーショナル・シンキングはすごく重要で、数学の勉強にもいい影響を与えるし、国語の読解力にも役に立ちます。数学や国語のためにも情報教育をやったほうがいいと思います。
後半は若いひとのことを言っていることに注意して読解させます。(※「させ」に傍点。)
・[3387]
> 単なる「レッテル!」の1つとして「国際会議!」(国内をぜんぶ無視して国際会議にしか投稿しない、そして1本でも通れば、幕末に洋行でもしたかのような待遇で処する)というのも、およしなさいな、みっともない、わるいことはいわないから…と、一種『高み』から言ってみたい
修士了で技術者として非常に優秀なひとに、わけもわからせないまま「トップカンファレンス」へ投稿させ、なまじ優秀なので通るんですけれど、そうして通ったものを会社として数えて「うちはなんとかマインドみたいなものを持っている」みたいな宣伝に使ってイメージのバブルを起こすのをわるいことだと思わないふーちょーにはまったく感心しない、あと5年くらいはだまされてあげるけれど、その先は目も当てられないことになるに決まっていると予想するものです。先に博士号をちゃちゃっととりなさいよ、とれないはずはないから、の意。2024年を過ぎたら答え合わせみたいなことをしませうか。はい☆ピッピッのピーっさ。予約完了ですぞ。2024年8月1日に馬車で手紙が届くから待っていてくれたまへ。(※表現は演出です。)
・[3654]
> 論文の書きかた(つまりは研究のしかた=お手本がなくても仕事できる力みたいなもの)を学部だけで身につけられるとは到底、思われませんので、非常に重要だと思います。
> 必要なのは大学院に進んでも通用する研究計画の立てかたひいては論文の書きかたみたいなものだみたいに言おうというのは「上から目線!」のひどいやつだとは自覚しているんですけれど、しかし、それはやがて「あたりまえのこと。」になっていくんですよ。
> 「数学C」を分解して「k-means」と「主成分分析」くらいまでくっつけたのを、小学校では物語的に(数学者の生い立ちみたいなのも紹介しながら)学べばいいんですよね。
あくまで私見です。
☆「2018年度 受賞作品」あらため(検)
他人の「数学の自由研究」を見たい。
※「数学の自由研究」は、▼「自由研究で数学を使う」、▼「自由研究で数学上のテーマを取り上げる」、それに▼「数学の時間に数学科の教員の指導のもと“課題研究”(グループ学習)に取り組ませる」という、それぞれかなり異なる方向性がぐちゃっと混ざったままという印象がありませんか。本当でしょうか。このうち「自由研究で数学を使う」については▼「自由研究総合(自由形)にクラスター分析を」([3524],[3525],[3526],[3527],[3528])を参照。「自由研究で数学上のテーマを取り上げる」については(これを「科学史」の1つ『数学史!』みたいなものだととらえて取り組むとき=ぜひ小学校で!)▼「「数量化理論」を一般化して理解するには / 「SD法」に確率論とグラフ理論を導入するには」([3469])が参考になるかもしれませんし参考にならないかもしれません。
・「2018年度 受賞作品」
http://www.rimse.or.jp/research/past/winner6th.html
> じゃんけんの拡張 〜大人数でも秒で決着をつけたい〜
> 2次曲線上の3点を頂点とする三角形の垂心について
高等学校の部で最優秀賞を授けたいと審査員らが考えるのはそういう方向のやつかと理解しつつ、それは数学の研究そのものであって、理数探究とは別物だと理解するのが先決です。ひたすら数学だけを専攻した先には、入試で数学の出題を任されて孤軍奮闘した上に出題ミスの責任をぜんぶ負わされるという未来しか待っていないからよしたまへ。(※表現は演出です。)
どこにでもいるふつーのわたしたちは理数探究というものを見据えて「数学の自由研究」をしたいと思ったのではなかったでしょうか。
> Rimse奨励賞 高等学校の部
> 作品タイトル
まるで研究のルールを教わっていないみたいなタイトルが並んでいます。まずはそこからだっ。(※見解です。)
・[3093]
> 実際、ポスター発表を見るとき、タイトルなんぞ見ずに、メインの図表だけを見て、自然に吸い寄せられていっては、気がついたらあれこれ質問攻めにしていたり…ということが多々あるかと思います。
ポスター発表は初歩的な発表形式とみなされていると思いますが、この初歩が大事なんですよ。タイトルがまずくても中身を見てもらえるし、ポスターで説明ができてなくても口頭で補えるんですよ。この体験を踏まえて、まともなタイトルをつけるとか口頭で補うようなことも文章に書けるようになっていくとかするんですよ。スキルの発達には順番があるんですよね。うん。
・[3094]
> …うーん、子どもに任せると、いきなり「幻のエビを追え!」のような(テレビ番組のような)タイトルにしてしまいかねず(身の周りの「お手本」としては、どうにもこうにもテレビの影響が大きく)、また、夏休みの間に何回も「(気に入らないので)タイトルを変える」と称してテーマごとコロコロと変えてしまうような子どももいるでしょう。そういう人は大学院でもテーマを毎年のように変えてしまい(院生にあるまじき、といっても「過言」ではないと思いますが)、指導教員を困らせます、たぶん。最初に、なるべく普遍的な、それ以上いじりようのないタイトルに(学校のセンセイや親も力添えして)決めつつ、決めたことは守ろうね(ただし目は笑わずに言う:むしろ「言い渡す」)と、強く言わないといけない、ということもあるのではないかと感じます。
ここでいう「なるべく普遍的な、それ以上いじりようのないタイトル」とは、研究計画書のタイトルといいますか、在学中を通じてずっと取り組む内容を掲げたものといいますか、そのまま学位論文のタイトルにもなるわけですが、個々の論文や口頭発表のタイトルになるものではないんですよ。あたりまえですけどね。
・「インテグリティ(integrity)」のイメージです(※英語)
https://community.mbaworld.com/cfs-file/__key/communityserver-blogs-components-weblogfiles/00-00-00-00-07/wolf-in-sheeps-clothing.jpg
https://community.mbaworld.com/blog/b/weblog/posts/the-path-of-personal-integrity
> (Googleほにゃく先生)
> アーサー・アンダーセン、ワールドコム、エンロン、最近の銀行危機は、あることを言っているが実際には別のことをしているMBAが関与する誤ったビジネス行動の例として引用されています。
再び高等学校の部です。
> 渦潮の速度論考
> n進レプユニット数が素数となる条件の考察
…なんか指導者の“こだわり”というか『変な流儀!』があるっぽい空気が濃厚に漂うので言及は避けよう。(キリッ
> 立方体倍積問題の近似解
> ある多重ガンマ関数の漸近的挙動
> 4次元空間での折り紙
> サイクロイドを包絡線に持つ曲線族について
> 信号機の数と事故件数の相関関係について
「〜の近似解」というタイトルだけが、タイトルとして及第点に達していると考えます。
・「〜の近似解」:目的(有用性)が示されている
・「〜について」:着眼点(独創性)や予想や結論(正確性)を含んでいない
・「AのB。(※意訳)」:(これが論文だとみなしたとき)論文のテイをなしていない
そういうこともあって「奨励賞」なんだと思うんですが、タイトルをどうしようかというのは飾りじゃない、どのように研究に取り組んでどのようにまとめたかをよく表しているので、タイトルがまずいと減点だというのはまっとうな評価だと思いました。
・「4次元空間での折り紙」⇒『折り紙数学』は知ってるよ、しかしそれを『折り紙数学』として理解して取り組んでいるのではなく、まだ「折り紙の数学(※「の」に傍点)」という“物語じたて!”みたいなレヴェルに留まっているのかなと疑ってしまうよ(※恐縮です)⇒そうじゃないから「奨励賞」にはなるんですよ⇒しかるべきタイトルをつければもっといいぞ⇒「コズミックフロント」を視聴すると10次元まで拡張したくなるはずだ&あるいは数学でいう4次元ではなく物理でいう時間を含めての考察をしてみたくなるはずだ⇒そしてタンパク質とかデオキシリボ核酸とかに進んでいくんですよ(キリッ
・「数学III」そのものみたいなの全般⇒ちゃんと「自由研究」になっているのかがタイトルからわからないのはよくない⇒教科書に出てきたやつの発展バージョンのをいろいろさわって遊んだという域を飛び出したという証拠をタイトルに含めておいてほしい
・「信号機の数と事故件数の相関関係について」⇒習ったばかりの相関係数のおさらいというわけでもあるまい⇒回帰分析だよね&もしかすると多変量解析かもだよね⇒複数の手法(回帰の方法のみならず指標の算出法みたいなものも含む)を比較するところからのスタートだよね⇒実際に使われている集計方法などの欠陥を指摘して全国の警察のかたがたをたじたじさせるのが究極の目的だよね(棒読み)
いや〜それほどでも!(違)▼「道路管理者(あま市それに愛知県)もたいがいですぜ」については[3543]を参照。(※ぜんぶが警察の仕事じゃなくて、道路管理者の責任も結構ある、の意。)
> Rimse奨励賞 小学校高学年の部
> ふり駒は平等か?
> 効率的な雑巾掛けでお手伝い
> パソコンで一番よく使うキーは? 〜ローマ字入力〜
ちゃんと「自由研究」らしさが伝わってくるよ☆たのもしいよ。教科書から難しそうなやつを選んでその先を調べただけというのでなく、問題を自力で設定した(ような)感じがあるんだよね(※「ような」に傍点:ヒントをもらったりしたのはぜんぜんオッケーだよ)。(※見解です。)
https://ja.wikipedia.org/wiki/%E6%8C%AF%E3%82%8A%E9%A7%92
> デンソーのロボットアーム「電王手一二さん」と「COBOTTA」によって振り駒が行われた。
> 振り駒で先後いずれになるかの確率は、ちょうど2分の1ずつであるとして振り駒のルールが採用されているが、「羽生善治が振り駒で先手を得ることが多い」という話題が出たり、瀬川晶司がプロ入り試験の際に5局とも後手番となるなど、振り駒が必ずしも公平でないと思われる事象が発生している。
(これを乱数とみなすとき)小数を使わず0か1かという“量子化!”がなされてしまう乱数だからそれは“量子化ノイズ!”だよね。うん。“量子化ノイズ!”が“無視できるレヴェル。”になるには何回の試行(⇒“サンプルサイズ”)が必要になるか、ひいては“量子化”のビット数も可変にするという“一般化!”をしていくんだよね。MP3やJPEGのアルゴリズムで“間引き!”して大丈夫(ユーザーが気にしないレヴェル!)だとするときの根拠みたいな話を展開していくんだよね。それって結局、MP3やJPEGだよね。…ギクッ。(棒読み)
https://ja.wikipedia.org/wiki/%E7%B6%B2%E7%82%B9
点を打つインクに濃淡はなくて、純粋に点の大小だけで階調が表現されてくるこれですよ。わあぃ振り駒が網点になっちゃいました☆だまされたと思っていちど拡大して見てみてください!(棒読み)
・[3061]
> 一般には、新聞記事や書店で売られる本などをランダムにとってきて、そこに出てくる単語の、単語ごとの出てくる回数を調べます(本当に調べるんですよ)。
> とはいえ、これは時代によって大きく変わります。また、長い時間をかけてジワジワと変わるばかりでなく、変わるときには一気に変わるものもあります。
https://ja.wikipedia.org/wiki/QWERTY%E9%85%8D%E5%88%97
> くぁwせdrftgyふじこlp
> 英文入力用鍵盤配列の差に由来する性能競争はタイプライター・トラストの実行によって、性能面での最終決戦を行わないままに、競争の意味そのものを失った。
そういう説明をよく聞くけれど本当だろうかと疑うことが大切です。確かめてみてそうなったというのが大事なんです。
・[3158]
> > 従荷重である風荷重,地震荷重は,台風,地震が多い日本では,特に重要な荷重となり,外国における構造計画に対し,我が国における構造計画を特徴づけるものとなる.
> > ただし人間は本能的に重力のように鉛直に作用する力はイメージしやすいが,横向きの力はイメージしにくく,そのために太くなった柱などには違和感を感じることが多く,工夫が必要.
> 「満員の先頭車を押しながら進もうとする動力車の垂直座屈」([3134])は、ちょっとイメージしにくいことではありそうです。(そもそも、思ってもいない方向にパーンとはじけるかのように作用する「座屈」そのものが理解しがたい、の意。)
・[3134]
> 仮に、車体の重さがほとんどゼロというありえない状況では、前が重いのに後ろから押せば、押しても前へは進まず、連結器の位置で上へ、という「垂直座屈」が起きえます。いえ、実車では、車体の重量があるので、まず起きないだろうとは思われますが、「上から」「横から」の力<ちから>や仕事<しごと>をイメージいただくには、そういう状況も一種「感覚」として持ち合わせておいていただきたいように思われ…ませんか、そうですか。
イメージや感覚なしに数学の知識だけで取り組んではいけません。イメージしにくいものを数学的に適切にイメージする工夫を怠ってはなりません。(※見解です。)
|