フォーラム - neorail.jp R16

【自由研究】の話題

 → 茨城県内で必要な「主論文・野帳・掲示物」とは? 【詳細】(2017/10/19) NEW!
 → 【自由研究】の記事一覧(新着順)


【研究ホワイトボックス】

研究を楽しく「追体験」! 真っ白のキャンバスに虹色の未来を描く方法、教えます。
R with Excel prcomp | kmeans・hclust | rpart | ggvoronoi | spantree | lm NEW!


発行:2017/1/10
更新:2018/2/2

[3400]

【実例に見る総合評価】

実例に見る総合評価(中編) 「4.84」(1987年)を読み解く


「平均」だけでは「分布」が見えない
「しかたがないからしらみつぶしすることにするよ。」してみた
鉛筆でフロッピーを回しながら約4時間20分
『対話的なエラボレイション』(1996年)から「近年機械学習」まで
表C3162509 重複組合せ(高精度カシオさんを用いた)
表Z49 n=1からn=49までに『解』はなかった!(Z)
表C93398136 重複組合せ(高精度カシオさんを用いた)
表C100 同n=50からn=100まで(組合せの有無を1,0で示します)
表201-401 素数だったり素数じゃなかったり付近

(約26000字)

 この一連の記事では、徳間書店「ゲーム通信簿」の『歴代最高点』である「4.84」という値を(あの手この手で)実感的に読み解きながら、「カスタマーレビュー」を数量的に扱うことのむずかしさを追体験していきます。

 前編([3401])では、まず、なぜ「ゲーム通信簿」は6項目なのか、ほぼ同時代といえる「6つの基礎食品」(1981年)を振り返りながら探ります。次に、もっとエレガントな方法はなかったのか、1990年代にOR(オペレーションズ・リサーチ)の分野で知られていた、複数の評価値を総合する方法について参照します。あわせて、数学的に平易な方法であっても、現実の社会で実際に重要な指標の算出に使われていることを実感するため、国連開発計画(UNGP)が算出している指標「HDI」「IHDI」について参照します。

 中編([3400])では、読者に5段階で評価させていた「ゲーム通信簿」の「平均」について、整数の組合せの問題と読み替え、結果として「平均」が「4.84」になる評点の組合せを実際に探します。評価者の数を1から500までと仮定したとき、整数の評点の組合せがそれぞれ何通りになるのかについて、コンピューターで約4時間20分かけて調べます。

 後編([3399])では、評価者の数を500と仮定し、正規分布、t分布、それにコーシー分布として知られる分布などを念頭に、5段階評価の評点の平均が「4.84」になる分布は不自然ではないのかを検討してみます。あわせて、現に「4.84」という平均になったとき、その重みはどのくらいであるのかを考えるため、架空の操作として、評点のスケールの拡張を試します。最後に、日常にひそむ数学と、研究・開発との接点として、「組合せ計画法」「整数論」を遠目に眺めます。

 補遺編([3398])では、現在「レーダーチャート」と呼ばれて知られているデータをプロットする方法について英語版のWikipediaを参照しながら探ります。また、4軸以上のレーダーチャートにおいて、プロットされた面積をうのみにできないことを確かめます。算数・数学の教科書を出版する各社のページを参照するとともに、小学校からのプログラミング教育それに統計教育に関する最新の議論につなげます。

 また、各記事では、統計や数学に関する書籍を、新旧それに硬軟とりまぜて紹介します。

 これに先立ち、導入編([3402])では、徳間書店「ファミリーコンピュータMagazine」がどのような雑誌であったのか、「元・2代目編集長が今だから明かす」との触れ込み(※)で2011年に出版された本などを参照しながら、振り返っています。


☆「平均」だけでは「分布」が見えない


 さて、徳間書店さんにあられまして、実際の紙面では、N=500とも思われる評点の「平均値」だけがすぱーんとすぱすぱなぽりたーん! …いえ、みんな大好きナポリタン! 細かい注文なんて聞かないよ! 40秒で食べな! 的なソレが漂うわけでございます。わあぃ手ぬぐい…じゃなくて、わあぃゴーグルをかけたおば…船長とお呼びッ。ピーマン、いえ、にんじんをいつも通り残したばっかりに足がついてですね…やだなぁ、そっちは角川さんですよぉ。

 N=500と仮に決めた場合(※2)、ある「ソフト」の「熱中度」の評点(500通の投票から得られた平均)が「4.84」であるとき、和が2420(※1)になるように「1から5(整数に限る)」を詰合せなさいといってですね(略)そんな計算が簡単にできたら***しないよ。うん。

※1 四捨五入して「4.84」になるんだといえば、(500個の整数の和としては)2417から2422まで許してつかはす。ハハー!

※2 「平均」として小数での表示を許して***す、といってしまうと、もはやNなんていくらでもいいんだとも思われましょうが、いえいえいえ。四捨五入して「4.84」になれる(なることのできる)整数の組合せのうち、徳間書店の本件雑誌という前提の上で現実的な値といって絞っていけば、それなりに絞りこまれるはずです。そこで現実的な値の候補が出てこなければ、紙面に掲載された数字に誤りがあるのではないかとの疑いが出てくるわけでございます。「ドスパラ調査」([3088])も参照。

[3088]
 > どうしても気になったのでリバースっぽく何かしてみました。
 > 「4.9%」は「4.09%」の誤記だったのだろうと決めつけてあります。
 > あ、いや、「374:164:23」で計561名だったりもして…もう計算が面倒くさいので後は(略)。

 ふつーは、フっツ〜はリバースなんてしません。でも、調査結果や会計などの数字を疑うための方法の研究などあるようですよ。さいしょからしょーじきなのがいちばんだよ。うん。

・(再掲[3081])ウィキペディア「ベンフォードの法則」
 http://ja.wikipedia.org/wiki/%E3%83%99%E3%83%B3%E3%83%95%E3%82%A9%E3%83%BC%E3%83%89%E3%81%AE%E6%B3%95%E5%89%87
 https://en.wikipedia.org/wiki/Benford%27s_law

 > 1972年、ハル・バリアン (Hal Varian) は、公共計画の決定を支援するために提出された社会経済学的なデータの一覧に含まれる作為的な値を発見するためにこの法則を利用できると示唆した。
 > ベンフォードの法則の不正発見目的における利用では、普通は2桁目以降も用いる。

 > このような数ないし自然の性質を人工的工学的に反映させたものに「標準数」がある。

 ベンフォードの法則に従っているかどうかだけで、数字がしょーじきであるか確かめることができるとは決まらないわけですが、後から一部分だけを改ざんした場合などは、よく検出できるのではないかなぁ。しかし、最初からすべての数字が『人工的工学的!』でしたっ…となるとお手上げかなぁ。うん。

 さいしょからしょーじきなのがいちばん、というのが「あたりまえのこと」ではございますが、しょーじきでありさえすればなんの疑いもないかといって、いえいえいえ。調査や集計、地域などの分けかた(期間や区間のとりかた)が人工的にならざるを得ないことが多いため、まったく自然な数字(分布)というのもなかなかないとのことでございます。

 もっとも、「ぜんぶ人工的工学的」であれば、「きれいすぎてかえって不自然な分布」との印象が出てくることでしょう。「ジョセフソン接合系で見事な実験」([3180])も参照。「疑うぞう」([3283])からの「我々『査読者のような顔!』ですべてを疑う『最大うたぐりモード』」([3319])キターっ。

 1986年ごろに出版社の片隅でアルバイトが…といって、その実、多少の「アレな扱い!」は混じっているかもですが、かえって「ぜんぶ人工的工学的」というのはできそうにないといって、そこは安心できそうです。

※一種『熱い!』読者が「100!」と評した、そこに何の落ち度もないのに、杓子定規に無効回答とみなせば、読者の意に反する取扱いということに結果的にはなるというものです。

※こう、あなた個人商店のおうちのかたに無理いって発売日の前日に入手して夕方にはハガキを『とう函!』したでしょ(略)的な「早着すぎるハガキ!」や、堂々と締切を過ぎながら「いや〜、これだけはいいたかったんですよ!」的に小さな字でびっしり『重いっ! おもいのたけ!』が書かれたハガキのほうなど、除外するのかしないのか、各誌それぞれポリシーがあるのではないでしょうか。いやいやいや、あくまで当時の流儀でいえば、そういう流儀のようなものはなんでも『セオリー!』と呼ばれてだなぁ(略)。…うわぁ「セオリー」キターっ。

・「セオリー」
 https://kotobank.jp/word/%E3%82%BB%E3%82%AA%E3%83%AA%E3%83%BC-546853

 > デジタル大辞泉
 > 持論。自説。

 > 大辞林
 > 持論。私見。

 そして、おお、徳間書店のキミ(=当時)よ、しょーじきだなぁ。(※敬称略。)

 「ゲーム通信簿」と称して、1つの「ソフト」に対して『6つの平均!』がセットになって掲載されているではありませんか! …まあ、そういうのが『通信簿』なんですけれど、これ、「現実的な整数の組合せ」の候補をあげて「N」の候補を絞り込みながら、6つの平均の間で同時にとれる「N」を求めていけば、「N」がわかりそうですぞ。もし、うまく「N」を見積もれないものがあれば、そこは何かを疑い、そういうものがあまりにも多ければ、「ゲーム通信簿」の態勢そのものを疑うというわけです。そうした疑いが晴れたなら、かくして「ゲーム通信簿」は「きわめて資料性の高い『1級の資りょう!』」と評されましょう。

※数字なんて、そんなのいくらでもごにょごにょできるでしょ@信用しないよ、というのでなく、具体的に疑いがあるかないかを計算で確かめていくことができるのですよといって、わあぃなるほど。(いまでも)時間はかかるかもですが、(いまや)特別な機械がないと計算できないというものでもないことがわかります。電子計算機と呼ばれるPCが市販されているということの、なんとスバラシイことよ。

・ウィキペディア「整数計画問題」
 https://ja.wikipedia.org/wiki/%E6%95%B4%E6%95%B0%E8%A8%88%E7%94%BB%E5%95%8F%E9%A1%8C

 > これはNP困難な問題に該当する。

 ぐわし。いっけなーい! どこにでもいるふつーのたわし。うーん。ごしごし。ガラスのてんじょうはあれかしらといいながらつめた〜いゆかのほうなど(略)よりみがきのかかったじかいのたわしにきたいだっ。じかい、わたし、たわしになります!(違)

・いつかどこかで「ガラスのてんじょうとつめたいゆか」ございます付近
 https://ja.wikipedia.org/wiki/%E5%BA%8A%E9%96%A2%E6%95%B0%E3%81%A8%E5%A4%A9%E4%BA%95%E9%96%A2%E6%95%B0

 > 名称やその他の記法は、1962年にケネス・アイバーソンによって導入された。


☆「しかたがないからしらみつぶしすることにするよ。」してみた


 「数独」([3296])も参照いただきつつ、現実的で実用的なソレっぽいアルゴリズムのほうなど勉強しないといけない「お立場!」のみなさまにおかれましては、こう、なんといいましょうか、各々どこか妥協の上で成り立っている種々のアルゴリズムを適宜、ソレっぽくお使いになればいいんだとの理解にございます。

 きちんと美しく数学なさる、もしくは高速・省メモリなアルゴリズムのほうなど実装なさるのでなく、こう、思いつきで3日でなんとかしたい(星のめぐり…いえ、曜日のめぐり上、3日しかないんです!)となれば、何も考えず「しらみつぶし!」ですね。…たわし、カナシイです!

 さあさあ帰りの列車で古き良き○ンクパッドと呼ばれた名機のほうなどカタカタいわせながら仕上げだっ。…えーっ。せっかくですから窓の外のシャソウの「727」(129番目の素数である!)のほうなど見ましょうよぉ。(まったくのイメージですっ!)