フォーラム - neorail.jp R16

【自由研究】の話題

 → 茨城県内で必要な「主論文・野帳・掲示物」とは? 【詳細】(2017/10/19) NEW!
 → 【自由研究】の記事一覧(新着順)


【研究ホワイトボックス】

研究を楽しく「追体験」! 真っ白のキャンバスに虹色の未来を描く方法、教えます。
R with Excel prcomp | kmeans・hclust | rpart | ggvoronoi | spantree | lm NEW!


発行:2017/9/19
更新:2020/8/26

[3543]

【実例に見る総合評価】

実例に見る総合評価(2) A県警:交通事故当事者の誕生日の区間分割


愛知県警察「星座から見た交通死亡事故の特徴」(2015年9月)を読み解く
同「歩行者死者の特徴」「飲酒運転の特徴」「ドライバーの特徴」を読み解く
都道府県警察におけるコンピューターの活用と研究への道(仮)
朝倉書店「多変量解析実例ハンドブック」かく語りき(37)・(25)・(64)
表1 「12星座」(愛知県警察による)
2015年の至点・分点(UTC)
表2 「歩行者死者」(愛知県警察の資料より抜粋)
「5位と7位が同数」(N=750)
表3 「飲酒運転」(愛知県警察の資料より抜粋)
表4 「ドライバー」(愛知県警察の資料より抜粋)

(約40000字)

 「実例に見る総合評価」としては、[3398]までの一連の記事と[3420]の続きです。しかし今回、「総合評価」とはいいましても「評価じゃないやい」的な内容を読み解いていくことになりますので、あらかじめご承知おきください。

[3246]
 > 「3月生まれ」のかたの不利なところが、当時、いまよりもはるかに不利だったこともあったのではないか(4月や5月生まれの「大きな人!」の前で小さくならなければならない等)とうかがわれますが、まったく想像です。この話(『生まれた月が後々どこまで響くのか問題』)、機会あれば別途まとめたいなといって、愛知県警のソレ(交通事故の統計)など眺めてはいるんですけれども、うーん、難しいです。

 まっさきに困ったのは、今回の話題をなんと呼べばよいだろうかということです。これだけで2年ほど悩み続けたといっても過言…いえ、そこまでいうと過言ではあるんですけどね。(恐縮です。)

・数学でいう「区間の分割」
 https://ja.wikipedia.org/wiki/%E5%8C%BA%E9%96%93%E3%81%AE%E5%88%86%E5%89%B2

 > (前略)読者の皆さま、 今日は、日本の皆さまにお知らせがあります。

 …コレジャナイ。(ちょうど参照したときに寄付のお願いが出ました。)

 > 数学において実数直線上の区間[a, b]の分割(ぶんかつ、英: partition)とは(以下略)

 > [ xi , xi+1 ]の形の各区間を分割 Π に属する小区間 (sub-interval) などと呼ぶ。

 仮に「生まれ月」と呼んでしまうと、自動的に(数学としては)『変な区間!』に分けて、それ以上は何も考えないことになるわけですが、いえいえいえ! 2月は短いんですよ。夏至や冬至なども、分割された区間の中間にポヤンと挟まるのですよ。あまりキレイじゃないのではないかと…うーん。キレイかどうかという問題でもないんですけど、数学はキレイじゃないとね。うん。(※きわめて私見です!)

[3080]
 > > 所要時間の収束を考慮した時間帯別交通量分布(1998年)
 > > 時刻選択モデルの選択肢区分が選択肢間の類似性及び不均一性に及ぼす影響(2000年)
 > > フレックスタイム制度下における通勤時刻選択行動の分析(1999年)

 > おお、これは読んでみなければと思わされる文献が挙げられています。

 数学でいう「区間」だと明確に認識されていなくても、この種の問題はいつも取り上げられてきたという理解でございます。ならば、具体的な目先の問題からは切り離して「区間」だけを議論してもいいではないですか。…その発想はなかった!(棒読み)「彼自身は自身の統計学的研究をあくまでも心理学研究の副産物と考えていた。」については[3524]を参照。

[3281]
 > > AIの開発・研究の前に知っておきたいこと。プログラミングとともに学びたい「組合せ数学」「グラフ理論」「確率」ほか。
 > > AIの学習を阻むとみられる「境界に生じるノイズ」の一般化を試みます。

 > AIの学習を阻む(精度を下げる)要因には、▼正解データの質や量、▼恣意的な加点、▼過学習([3100],[3142])などあることが知られていますが、これらと違って、まだあまり気にされていないかなぁ、と思われるのが▼「(データなどの分割の)境界に生じるノイズ」だろうと思っています。(見解は個人です。)

 > ひとくちにノイズといって、EMC的な意味で、▼クロストークと減衰(古典的な電磁気のソレ)はわかりやすいですが、▼時間方向のソレであるタイミングのソレ(制御のソレ)、さらに▼境界面の反射(材料のソレ)といって見ていくと、ノイズというものが立体的に見えてくる気がしてまいります。その延長線上に▼データの分割の境界に生じるソレ(情報のソレ)があるというわけです。

 今回の話題は、まさに「データの分割の境界に生じるノイズ」を避けようという話題でございます。しかし、AIの話題ではないので「実例に見る総合評価」のほうに入れようと、こういうわけです。(たいへん恐縮です。)

・(再掲)「度数分布とヒストグラムにおける階級と階級間隔の決め方」
 http://www.ipc.shimane-u.ac.jp/food/kobayasi/how%20to%20write%20a%20histogram.htm

 > 応用統計ハンドブック(応用統計ハンドブック編集委員会編:養賢堂)p12に基づく方法
 > 入門統計解析法(永田靖著:日科技連)p9に基づく方法
 > 新版生物統計学入門(新城明久著:朝倉書店)p10に基づく方法

 データや分析の内容にもよりますが、あくまでいまとなっては、ヒストグラムを描きさえすれば「早く帰れる!」などという「簡単なお仕事!」はなさそうですよね。最初から確率的で多変量ですよね。しかし、ヒストグラムを勉強しなくてよいともいえず。こうして「勉強しても役に立たない!」などと早合点されていくのですよ。そうなんですけどそうじゃないんですよっ。(棒読み)スペクトルと呼ばれるアレのほうなど、ヒストグラムをスムージングしたみたいなものですよね。

・すごーい! 蛍光ペンがしゃべった!! …じゃなくて、「島津 RF-5300PC」たーのしー!(棒読み)
 http://t.nomoto.org/spectra/000698.html
 http://t.nomoto.org/spectra/HighlighterPen/images/G_AllEmission_Image.png
 http://www.an.shimadzu.co.jp/spectro/rf6000/index.htm

 > 測定に使用した蛍光分光光度計は島津 RF-5300PCです。

 > 今まで島津が培ってきた技術力と,新しい技術力の結集によって,島津分光蛍光光度計は『RF-6000』として生まれ変わりました。
 > クラス最高レベルのSN比

※「技術力(がある)」って、量ではなく状態ですよね。付け足したり分割したりできる「モノ」じゃないですよね。「技術力(がある)」(という状態)に新しいも古いもあるんですかねぇ(=「ある」「ない」から「足りない」まで)。「エスエヌ比」については[3542]を参照。じゃあ(※)「ありあまる技術力(のむだづかい)」とか…いうかもしれないけどいわないですよねっ(=「ありあまる技術力」は『音楽用語!』です)。

・(前回のおはなし)朝日新聞「架空の白浜坂高校、歌声響く 東京都合唱祭に出場へ」(2013年7月6日)
 http://www.asahi.com/edu/articles/TKY201307050560.html

 > ツイッターでつながった男女169人だ。
 > 10代から40代まで幅広い。

[3174]
 > 「10代」「40代」という幅の決めかた(10歳刻み!)が、分析(集計)には適当でなく、このことから(新聞記事の上で)「情報のぼかし」として『よく』機能していると、いえいえいえ、そこまで言えるんでしょうか。後でじっくり考えてみたいと思いました。周波数の「対数的な『秘とく』」については[3161]、「最小単位でがんばるぞい」([3052])なども参照。

 これ(前回のおはなし)、データの自然で連続的な分布に頼る、かつサンプルがじゅうぶんに大きいことに依存しているわけですが、今回は(おおらかな気持ちで)これとは『直交!』ですよね。

 データがきわめて飛び飛びでサンプルも少なく、それでも何かしらの探索的な分析をしていかなければならないという場面では、データに依存せず、先に目盛りや空間のほうを工夫しておこうと、たぶんこういうわけです。(※かなり比ゆ的な説明ですので、あしからず。)


●愛知県警察「星座から見た交通死亡事故の特徴」(2015年9月)を読み解く


・愛知県警察「星座から見た交通死亡事故の特徴」(2015年9月7日)
 https://www.pref.aichi.jp/police/koutsu/topics/seiza.html

 > 愛知県内で発生した過去10年間(平成17年から平成26年)において発生した死亡事故を、各星座ごとに飲酒・高速道路・自転車・歩行者別の発生状況・月・時間ごとの発生状況を分析し、特に注意してほしい部分についてまとめたものであります。

■表1 「12星座」(愛知県警察による)

星座期間日数
おひつじ座3月21日〜4月19日30
おうし座4月20日〜5月20日31
ふたご座5月21日〜6月21日32
かに座6月22日〜7月22日31
しし座7月23日〜8月22日31
おとめ座8月23日〜9月22日31
てんびん座9月23日〜10月23日31
さそり座10月24日〜11月22日30
いて座11月23日〜12月21日29
やぎ座12月22日〜1月19日29
みずがめ座1月20日〜2月18日30
うお座2月19日〜3月20日30


※ただしうるう日を含めない。

 情報の分解能として「誕生日」というのは「4/1461」(0.003)、「生まれ月」「星座」というのは「1/12」(0.083)を持つと、こういうわけです。

・ウィキペディア「至点」
 https://ja.wikipedia.org/wiki/%E8%87%B3%E7%82%B9

 > 至点を意味する英語の solstice はラテン語の solstitium という語に由来する。これは sol (太陽)と動詞 sistere (静止する)を語源としており、至点では太陽の赤緯の増減が止まり、最大または最小の値に達することによる。太陽が至点に達する日(夏至・冬至)は分点に達する日(春分・秋分)とともに季節に関連している。いくつかの言語圏ではこれらの日がそれぞれの季節の始まりを表す日として用いられている。また、これらの日を各季節の中間とする文化圏もある。

 動きが反転することに意味を見出せば至点を区間の境目とし、そうでなければ区間の途中に含めることになる(=月(moon)など別の基準で区間が分割された結果、そうなる)と、こういうわけです。

■2015年の至点・分点(UTC)

春分3月20日
夏至6月21日
秋分9月23日
冬至12月22日


 (おおらかな気持ちで)春分を挟んで「おひつじ座」「おうし座」「ふたご座」で、夏至を挟んで「かに座」「しし座」「おとめ座」で、秋分を挟んで「てんびん座」「さそり座」「いて座」で、冬至を挟んで「やぎ座」「みずがめ座」「うお座」を、ほぼ均等な日数で分割しているのが、いわゆる「星座」であるというわけでございます。2月が28日しかないのよりは断然、キレイだと思いたいと思いました。

 これは「誕生日」の区間の分割に限らず、日付を扱う場合には一般に、ちょっと検討してみるとよさそうな方法ではございます。単純な集計や、(何らの仮定を事前には置かない)探索的な分析としては、いきなり「2月」という区間を設けてしまうよりも、(「星座」を使うのは)データに対してニュートラルな区間の分割であるといえそうな気がしてきます。

※もっとも、(一種「公称値」として「週休2日」というものを持つとされる現代のニッポンにおいて)最もニュートラルなのは「28日移動平均」のウィンドウを1日目からN-28日目までスライドさせていくことです。30日ではなく28日にすれば、祝日を除く曜日の影響も入ってきません。月の初めに「交通事故死傷者数」の黒板をキレイに消して…そういうことにはデータ上の意味はないのですよ。(事故防止のための心構えとしては「月の初め」がよい契機になるのはもちろんです。)

 ところで、12の星座をまるっと環状に並べて…本当でしょうか。(おおらかな気持ちで)意味的には「四つ葉のクローバー」みたいな軌道を描いたほうが、至点・分点を通りながら季節が循環している感じを直感的に表現できた気がしてこないでしょうか。…ま、たぶん気のせいですけどね。(メッソウでした。)

・気のせいです!「極座標のグラフ描画ができるフリーソフト」のイメージです
 https://okwave.jp/qa/q5081384.html
 https://multimedia.okwave.jp/image/answers/0/8775/8775_original.jpg

 この座標および関数(軌道)において、原点が「至点・分点(ぜんぶ!)」、つまり何かが無限大というか、ゼロじゃないけど10-120くらいに小さいとか、そんな感じの点だといって、まず左上に向かって「おひつじ座」、クローバーとして見たときの葉っぱの先が「おうし座」で、原点に戻りながら(原点の左上から右上へ)通り抜けつつ「ふたご座」から「かに座」へ…ま、そういう気分ではあるということです。葉っぱ1枚ごとに、その外周を「星座3つ」あるいは「91.3125日」に分割…ゾッとするね。うん。(棒読み)そういう『変換!』をすれば、「誕生日」が「r(半径)」と「θ(角度)」で表現できると、こういうわけです。しかし、そんなことをしてナニがうれしいかね。…ギクッ。

※同じ原点でも春分と夏至は違うよといいたければ、動きの向きも加えた3次元で表現するんですかねぇ&実にゾッとするね。「動きベクトル」については[3306],[3403]を参照。逆に、葉っぱの先っぽを「至点・分点」とみなすこともできましょう。…このほうが直感的かなぁ。

※円柱座標にしてらせん状の関数にすれば(高さ方向に)「生まれ年」も扱えて、しかも年度をまたいで次の日ですみたいな人を、きちんと「(距離が)近い」と扱える『誕生日空間!』…誰がうれしいかね!!(棒読み)いわゆる「1900年1月0日」って、あるじゃないですかぁ。『通算のシリアル値!』にしさえすれば済んじゃうよね&それをシリアル値というんですけどね。

 > あと、極座標のグラフ描画ができるフリーソフトを探してきて、
 > 色々試して遊んでみるっていうのも言うのもいいかも。結構面白いと思うよ。
 > 色々自分で試してみれば極座標の式見ただけでグラフの想像もつくようになるし。

 まったくもってごもっとも! デスヨネ〜! とりあえずgnuplotでいいかな。

※描けさえすればPythonでもRでも自作の何かでもいいという文化圏と、なんでもgnuplotじゃないといけないという文化圏とがあるようなないような…ゲフンゲフン。ま、中高生のかたや『大学の低学年!』のかたが独習なさるなら、いちばんプレーンなgnuplotがいいかな&gnuplotの面倒くささに慣れておけば、その先、なんでも使えるよ。うん。(棒読み)

 そして、今回の話題、2年も悩んで結局、元のデータにアクセスできるわけでもないので、区間の分割として「生まれ月」と「星座」のどちらがよいのかということを、じぶんで実際に調べてみるということにまでは至れないまま、終わりにせざるを得ないわけです。無念じゃのう。(棒読み)

・ウィキペディア「二十四節気」のイメージです
 https://ja.wikipedia.org/wiki/%E4%BA%8C%E5%8D%81%E5%9B%9B%E7%AF%80%E6%B0%97

 > (前略)読者の皆さま、
 > コーヒー1杯ほどの金額です。

 > またあとで

 …『またあとで』!! うーん(略)いつも小銭を持ち歩いていて、いつでも「投げ銭」…そういう感覚が身についている文化圏じゃないと、なかなかねぇ。(恐縮です。)

 > 重要な中気である夏至・冬至の二至、春分・秋分の二分は併せて二至二分(にしにぶん)と言い、重要な節気である立春・立夏・立秋・立冬を四立(しりゅう)、二至二分と四立を併せて八節(はっせつ)という。

※葉っぱの先を二至二分とすれば、原点は四立だということですね。おお、四立こそが季節の変わり目であり、『季節の交差点!』みたいなのが、この座標での原点になるのだといって、だいぶキレイになってきます。

 季節の変わり目は体調管理に注意といいつつ、社会的にも学校が始まるとか終わるとかありますから、日付というものを単純にシリアル値で扱い(「28日移動平均」し)さえすればいいとも思えないわけです。分析の目的やデータの意味にあわせて、うまく扱っていきたいですね。

※現代の社会生活はきわめてシヤクシヂヤウギであるので、季節に関係なく同じ時刻に始業して終業するんですよ。特定の時期には運転時に暗いとか西日がまぶしいとか、いろいろあるんですよ。慣れることができる緩やかな変化ならいいんですけど、ある季節から次の季節への変わり目は、変化が速いので追従しきれないんですよ。「生まれ月」ではなく「事故発生月」のほうも、そういう「順応の難しさ」の高まりのようなのをそれっぽく反映した指標(「四つ葉のクローバー」の座標でいう角度や「動きベクトル」ひいては『(季節の進みかたの)速度!』みたいなの)に変換して扱ったらいいのではないですか、という話題でございました。ポヤンと「『n月』には事故が多い」などといわれましても、わたしたち、いまいちピンと来ないんですよ。おっしゃりたいことは、もっと狭い期間に集中しているのでは、ないんですかねぇ。

※「1月0日からの日数(1〜365)」というシリアル値を一種『成分みたいなの!』に分解して、シリアル値の状態では見えてこない情報を見ようとしているんですよ。こういうことは人が理屈を考えて分解しないと、分解のしようがないんですよ。主成分分析にかけさえすれば自動的に出てくるというものでは決してないのですよ。うん。(※見解です。)日付や「月」(または「28日移動平均」)だけでは「相関がない」ものが、「『(季節の進みかたの)速度!』みたいなの」で見れば「強い相関がみられる」ということって、あるんじゃないですかねぇ。本当でしょうか。

・大辞林の見解です
 http://www.weblio.jp/content/%E6%8A%95%E9%8A%AD

・なんと「グリーン車のコーヒー」のイメージをご覧いただいての締めくくりとなります(※続きがあります)
 http://livedoor.blogimg.jp/upperclass/imgs/c/e/cecb2cf3.jpg

・あまつさえ(修士論文)「評点時系列データの統計分析及び区間分割法」(年月不明)ですと!?
 http://pre4306.u-shizuoka-ken.ac.jp/member/cv.php?id=17
 http://dbsj.org/wp-content/uploads/journal/vol12/no3/dbsj-journal-12-03-001.pdf

 > ユーザの**行動として多項分布モデルを仮定し,尤度比検定の枠組みで,**時系列データの区間分割問題を定式化する.
 > この問題を高速で解くことを目的とした貪欲法に基づく解法と,解の改善を目的とした局所改善法に基づく解法を提案する.

 > 443853ユーザ,6173アイテム,4376241レビュー

 …スバラシイ! 修論が合格した年月が書いてあると、もっとスバラシイ!(棒読み)2013年度(2014年2月)だということです。

・島津製作所「粉博士」の見解です
 http://www.an.shimadzu.co.jp/powder/lecture/practice/p01/lesson10.htm

 > 「粒子の形状の影響による粒度分布の誤差はどの程度ですか?」という質問に出会うことがよくあります。

 > 粒子の形状をあまりに複雑に表現すると、実用性が損なわれます。現状の粒度分布は、横軸に粒子径、縦軸に相対粒子量という2次元のグラフで表現できます。長径と短径を用いる場合も3次元のグラフで表現できます。しかし、それ以上のパラメータで粒子形状を表現しようとすれば、グラフで表現することが不可能になります。複雑な数表としては表現できても、その内容を人間が把握できなければ、単なる数字の羅列であって、実用性があるとはいえません。

 博士にあるまじき見解ですのう。実にケシカラン…げふ。(※表現は演出です。)

 > 逆に粒子の形状を単純化してしまえば、現実の粒子の形状が表現できていないという不満が残るでしょう。結果的には球相当径を用いるのと五十歩百歩ということも考えられます。
 > 結局、多数の粒子(粒子群)をある意味で統計的に処理し把握しようする粒度分布測定においては、粒子の形状を取り扱うこと自体に無理があるのかもしれません。
 
 > 研究としては、興味深いものがありますが、実用にはならないような気がします。

 (ひとのことはいえないのだけれど)あなたの研究たわし!(※個人の感想です。)

[3520]
 > 2次元なら散布図を「見ればわかる」という安心感はあるんですけど…ののんのん!! それじゃだめなんですよ。将来は必ず「多変量解析」に進むんですから(=そうすると散布図で確かめるというのは無謀になってくるんですから)、2次元の発想で妙な安心感など感じていただいては困るのですよ。

[3461]
 > 1973年に物理学の修士をとられたかたとのことでございますが、計算工学というか数学という意味での多次元空間の応用よりも、3次元の空間(⇒「いろいろな物理学!」のうち、力学でいう空間など?)というそちらに関心が高いのでしょうか、可視化とクラスタリング(分類や索引)を混同なさったような記述がみられます。
 > (新聞の読者が)(高校までの科目としての)「数学や物理」しか知らない(ことを前提にしている)かのような書きかたも、(読者が「新しい現実」[3352]を知る機会を奪うという意味で)…なんだかなぁ。

[3514]
 > (空間全体や、じぶんの周囲の構造を)想像(≒可視化)できようができまいが、何次元だろうが、足元の道(エッジ)は確かだじぇ☆…その発想はなかった!(効果音「きらーん」入りまーす…いただきましたっ。)

 > ネットワーク(グラフ構造)というものの本質に迫らず、高校までの数学や物理の発想で可視化しようというのはヤメテクダサイ。(棒読み)人が見てもまるで全体像がつかめないのではあるのですけど「隣接行列」が最もすべてをそのまま表しているのであって、しかたなくエッジ(リンク)を1本1本たどってみようと、(人としては)そういう謙虚さがないと、グラフ構造で扱う意味が失われるのですよ。中途半端に途中の計算だけグラフ構造(=隣接行列)の上で行なって、もっともらしい単一の指標を得たらサヨナラ…構造なんて、構造なんて、忘れちゃうんですか黒たまご置き去りですか週末って幻だったんですね、わかります。(棒読み)…なんだかなぁ。

 島津製作所『粉博士』いわく「内容を人間が把握できなければ、単なる数字の羅列」といって、そうなんですけどそうじゃないんですよっ。(棒読み)