|
・愛知県警察「星座から見た交通死亡事故の特徴」(2015年9月)を読み解く ・同「歩行者死者の特徴」「飲酒運転の特徴」「ドライバーの特徴」を読み解く ・都道府県警察におけるコンピューターの活用と研究への道(仮) ・朝倉書店「多変量解析実例ハンドブック」かく語りき(37)・(25)・(64) ・表1 「12星座」(愛知県警察による) ・2015年の至点・分点(UTC) ・表2 「歩行者死者」(愛知県警察の資料より抜粋) ・「5位と7位が同数」(N=750) ・表3 「飲酒運転」(愛知県警察の資料より抜粋) ・表4 「ドライバー」(愛知県警察の資料より抜粋)
(約40000字)
「実例に見る総合評価」としては、[3398]までの一連の記事と[3420]の続きです。しかし今回、「総合評価」とはいいましても「評価じゃないやい」的な内容を読み解いていくことになりますので、あらかじめご承知おきください。
・[3246]
> 「3月生まれ」のかたの不利なところが、当時、いまよりもはるかに不利だったこともあったのではないか(4月や5月生まれの「大きな人!」の前で小さくならなければならない等)とうかがわれますが、まったく想像です。この話(『生まれた月が後々どこまで響くのか問題』)、機会あれば別途まとめたいなといって、愛知県警のソレ(交通事故の統計)など眺めてはいるんですけれども、うーん、難しいです。
まっさきに困ったのは、今回の話題をなんと呼べばよいだろうかということです。これだけで2年ほど悩み続けたといっても過言…いえ、そこまでいうと過言ではあるんですけどね。(恐縮です。)
・数学でいう「区間の分割」
https://ja.wikipedia.org/wiki/%E5%8C%BA%E9%96%93%E3%81%AE%E5%88%86%E5%89%B2
> (前略)読者の皆さま、 今日は、日本の皆さまにお知らせがあります。
…コレジャナイ。(ちょうど参照したときに寄付のお願いが出ました。)
> 数学において実数直線上の区間[a, b]の分割(ぶんかつ、英: partition)とは(以下略)
> [ xi , xi+1 ]の形の各区間を分割 Π に属する小区間 (sub-interval) などと呼ぶ。
仮に「生まれ月」と呼んでしまうと、自動的に(数学としては)『変な区間!』に分けて、それ以上は何も考えないことになるわけですが、いえいえいえ! 2月は短いんですよ。夏至や冬至なども、分割された区間の中間にポヤンと挟まるのですよ。あまりキレイじゃないのではないかと…うーん。キレイかどうかという問題でもないんですけど、数学はキレイじゃないとね。うん。(※きわめて私見です!)
・[3080]
> > 所要時間の収束を考慮した時間帯別交通量分布(1998年)
> > 時刻選択モデルの選択肢区分が選択肢間の類似性及び不均一性に及ぼす影響(2000年)
> > フレックスタイム制度下における通勤時刻選択行動の分析(1999年)
> おお、これは読んでみなければと思わされる文献が挙げられています。
数学でいう「区間」だと明確に認識されていなくても、この種の問題はいつも取り上げられてきたという理解でございます。ならば、具体的な目先の問題からは切り離して「区間」だけを議論してもいいではないですか。…その発想はなかった!(棒読み)「彼自身は自身の統計学的研究をあくまでも心理学研究の副産物と考えていた。」については[3524]を参照。
・[3281]
> > AIの開発・研究の前に知っておきたいこと。プログラミングとともに学びたい「組合せ数学」「グラフ理論」「確率」ほか。
> > AIの学習を阻むとみられる「境界に生じるノイズ」の一般化を試みます。
> AIの学習を阻む(精度を下げる)要因には、▼正解データの質や量、▼恣意的な加点、▼過学習([3100],[3142])などあることが知られていますが、これらと違って、まだあまり気にされていないかなぁ、と思われるのが▼「(データなどの分割の)境界に生じるノイズ」だろうと思っています。(見解は個人です。)
> ひとくちにノイズといって、EMC的な意味で、▼クロストークと減衰(古典的な電磁気のソレ)はわかりやすいですが、▼時間方向のソレであるタイミングのソレ(制御のソレ)、さらに▼境界面の反射(材料のソレ)といって見ていくと、ノイズというものが立体的に見えてくる気がしてまいります。その延長線上に▼データの分割の境界に生じるソレ(情報のソレ)があるというわけです。
今回の話題は、まさに「データの分割の境界に生じるノイズ」を避けようという話題でございます。しかし、AIの話題ではないので「実例に見る総合評価」のほうに入れようと、こういうわけです。(たいへん恐縮です。)
・(再掲)「度数分布とヒストグラムにおける階級と階級間隔の決め方」
http://www.ipc.shimane-u.ac.jp/food/kobayasi/how%20to%20write%20a%20histogram.htm
> 応用統計ハンドブック(応用統計ハンドブック編集委員会編:養賢堂)p12に基づく方法
> 入門統計解析法(永田靖著:日科技連)p9に基づく方法
> 新版生物統計学入門(新城明久著:朝倉書店)p10に基づく方法
データや分析の内容にもよりますが、あくまでいまとなっては、ヒストグラムを描きさえすれば「早く帰れる!」などという「簡単なお仕事!」はなさそうですよね。最初から確率的で多変量ですよね。しかし、ヒストグラムを勉強しなくてよいともいえず。こうして「勉強しても役に立たない!」などと早合点されていくのですよ。そうなんですけどそうじゃないんですよっ。(棒読み)スペクトルと呼ばれるアレのほうなど、ヒストグラムをスムージングしたみたいなものですよね。
・すごーい! 蛍光ペンがしゃべった!! …じゃなくて、「島津 RF-5300PC」たーのしー!(棒読み)
http://t.nomoto.org/spectra/000698.html
http://t.nomoto.org/spectra/HighlighterPen/images/G_AllEmission_Image.png
http://www.an.shimadzu.co.jp/spectro/rf6000/index.htm
> 測定に使用した蛍光分光光度計は島津 RF-5300PCです。
> 今まで島津が培ってきた技術力と,新しい技術力の結集によって,島津分光蛍光光度計は『RF-6000』として生まれ変わりました。
> クラス最高レベルのSN比
※「技術力(がある)」って、量ではなく状態ですよね。付け足したり分割したりできる「モノ」じゃないですよね。「技術力(がある)」(という状態)に新しいも古いもあるんですかねぇ(=「ある」「ない」から「足りない」まで)。「エスエヌ比」については[3542]を参照。じゃあ(※)「ありあまる技術力(のむだづかい)」とか…いうかもしれないけどいわないですよねっ(=「ありあまる技術力」は『音楽用語!』です)。
・(前回のおはなし)朝日新聞「架空の白浜坂高校、歌声響く 東京都合唱祭に出場へ」(2013年7月6日)
http://www.asahi.com/edu/articles/TKY201307050560.html
> ツイッターでつながった男女169人だ。
> 10代から40代まで幅広い。
・[3174]
> 「10代」「40代」という幅の決めかた(10歳刻み!)が、分析(集計)には適当でなく、このことから(新聞記事の上で)「情報のぼかし」として『よく』機能していると、いえいえいえ、そこまで言えるんでしょうか。後でじっくり考えてみたいと思いました。周波数の「対数的な『秘とく』」については[3161]、「最小単位でがんばるぞい」([3052])なども参照。
これ(前回のおはなし)、データの自然で連続的な分布に頼る、かつサンプルがじゅうぶんに大きいことに依存しているわけですが、今回は(おおらかな気持ちで)これとは『直交!』ですよね。
データがきわめて飛び飛びでサンプルも少なく、それでも何かしらの探索的な分析をしていかなければならないという場面では、データに依存せず、先に目盛りや空間のほうを工夫しておこうと、たぶんこういうわけです。(※かなり比ゆ的な説明ですので、あしからず。)
●愛知県警察「星座から見た交通死亡事故の特徴」(2015年9月)を読み解く
・愛知県警察「星座から見た交通死亡事故の特徴」(2015年9月7日)
https://www.pref.aichi.jp/police/koutsu/topics/seiza.html
> 愛知県内で発生した過去10年間(平成17年から平成26年)において発生した死亡事故を、各星座ごとに飲酒・高速道路・自転車・歩行者別の発生状況・月・時間ごとの発生状況を分析し、特に注意してほしい部分についてまとめたものであります。
■表1 「12星座」(愛知県警察による)星座 | 期間 | 日数 |
---|
| | | おひつじ座 | 3月21日〜4月19日 | 30 | おうし座 | 4月20日〜5月20日 | 31 | ふたご座 | 5月21日〜6月21日 | 32 | かに座 | 6月22日〜7月22日 | 31 | しし座 | 7月23日〜8月22日 | 31 | おとめ座 | 8月23日〜9月22日 | 31 | てんびん座 | 9月23日〜10月23日 | 31 | さそり座 | 10月24日〜11月22日 | 30 | いて座 | 11月23日〜12月21日 | 29 | やぎ座 | 12月22日〜1月19日 | 29 | みずがめ座 | 1月20日〜2月18日 | 30 | うお座 | 2月19日〜3月20日 | 30 |
※ただしうるう日を含めない。
情報の分解能として「誕生日」というのは「4/1461」(0.003)、「生まれ月」「星座」というのは「1/12」(0.083)を持つと、こういうわけです。
・ウィキペディア「至点」
https://ja.wikipedia.org/wiki/%E8%87%B3%E7%82%B9
> 至点を意味する英語の solstice はラテン語の solstitium という語に由来する。これは sol (太陽)と動詞 sistere (静止する)を語源としており、至点では太陽の赤緯の増減が止まり、最大または最小の値に達することによる。太陽が至点に達する日(夏至・冬至)は分点に達する日(春分・秋分)とともに季節に関連している。いくつかの言語圏ではこれらの日がそれぞれの季節の始まりを表す日として用いられている。また、これらの日を各季節の中間とする文化圏もある。
動きが反転することに意味を見出せば至点を区間の境目とし、そうでなければ区間の途中に含めることになる(=月(moon)など別の基準で区間が分割された結果、そうなる)と、こういうわけです。
■2015年の至点・分点(UTC)春分 | 3月20日 |
---|
夏至 | 6月21日 |
---|
秋分 | 9月23日 |
---|
冬至 | 12月22日 |
---|
(おおらかな気持ちで)春分を挟んで「おひつじ座」「おうし座」「ふたご座」で、夏至を挟んで「かに座」「しし座」「おとめ座」で、秋分を挟んで「てんびん座」「さそり座」「いて座」で、冬至を挟んで「やぎ座」「みずがめ座」「うお座」を、ほぼ均等な日数で分割しているのが、いわゆる「星座」であるというわけでございます。2月が28日しかないのよりは断然、キレイだと思いたいと思いました。
これは「誕生日」の区間の分割に限らず、日付を扱う場合には一般に、ちょっと検討してみるとよさそうな方法ではございます。単純な集計や、(何らの仮定を事前には置かない)探索的な分析としては、いきなり「2月」という区間を設けてしまうよりも、(「星座」を使うのは)データに対してニュートラルな区間の分割であるといえそうな気がしてきます。
※もっとも、(一種「公称値」として「週休2日」というものを持つとされる現代のニッポンにおいて)最もニュートラルなのは「28日移動平均」のウィンドウを1日目からN-28日目までスライドさせていくことです。30日ではなく28日にすれば、祝日を除く曜日の影響も入ってきません。月の初めに「交通事故死傷者数」の黒板をキレイに消して…そういうことにはデータ上の意味はないのですよ。(事故防止のための心構えとしては「月の初め」がよい契機になるのはもちろんです。)
ところで、12の星座をまるっと環状に並べて…本当でしょうか。(おおらかな気持ちで)意味的には「四つ葉のクローバー」みたいな軌道を描いたほうが、至点・分点を通りながら季節が循環している感じを直感的に表現できた気がしてこないでしょうか。…ま、たぶん気のせいですけどね。(メッソウでした。)
・気のせいです!「極座標のグラフ描画ができるフリーソフト」のイメージです
https://okwave.jp/qa/q5081384.html
https://multimedia.okwave.jp/image/answers/0/8775/8775_original.jpg
この座標および関数(軌道)において、原点が「至点・分点(ぜんぶ!)」、つまり何かが無限大というか、ゼロじゃないけど10-120くらいに小さいとか、そんな感じの点だといって、まず左上に向かって「おひつじ座」、クローバーとして見たときの葉っぱの先が「おうし座」で、原点に戻りながら(原点の左上から右上へ)通り抜けつつ「ふたご座」から「かに座」へ…ま、そういう気分ではあるということです。葉っぱ1枚ごとに、その外周を「星座3つ」あるいは「91.3125日」に分割…ゾッとするね。うん。(棒読み)そういう『変換!』をすれば、「誕生日」が「r(半径)」と「θ(角度)」で表現できると、こういうわけです。しかし、そんなことをしてナニがうれしいかね。…ギクッ。
※同じ原点でも春分と夏至は違うよといいたければ、動きの向きも加えた3次元で表現するんですかねぇ&実にゾッとするね。「動きベクトル」については[3306],[3403]を参照。逆に、葉っぱの先っぽを「至点・分点」とみなすこともできましょう。…このほうが直感的かなぁ。
※円柱座標にしてらせん状の関数にすれば(高さ方向に)「生まれ年」も扱えて、しかも年度をまたいで次の日ですみたいな人を、きちんと「(距離が)近い」と扱える『誕生日空間!』…誰がうれしいかね!!(棒読み)いわゆる「1900年1月0日」って、あるじゃないですかぁ。『通算のシリアル値!』にしさえすれば済んじゃうよね&それをシリアル値というんですけどね。
> あと、極座標のグラフ描画ができるフリーソフトを探してきて、
> 色々試して遊んでみるっていうのも言うのもいいかも。結構面白いと思うよ。
> 色々自分で試してみれば極座標の式見ただけでグラフの想像もつくようになるし。
まったくもってごもっとも! デスヨネ〜! とりあえずgnuplotでいいかな。
※描けさえすればPythonでもRでも自作の何かでもいいという文化圏と、なんでもgnuplotじゃないといけないという文化圏とがあるようなないような…ゲフンゲフン。ま、中高生のかたや『大学の低学年!』のかたが独習なさるなら、いちばんプレーンなgnuplotがいいかな&gnuplotの面倒くささに慣れておけば、その先、なんでも使えるよ。うん。(棒読み)
そして、今回の話題、2年も悩んで結局、元のデータにアクセスできるわけでもないので、区間の分割として「生まれ月」と「星座」のどちらがよいのかということを、じぶんで実際に調べてみるということにまでは至れないまま、終わりにせざるを得ないわけです。無念じゃのう。(棒読み)
・ウィキペディア「二十四節気」のイメージです
https://ja.wikipedia.org/wiki/%E4%BA%8C%E5%8D%81%E5%9B%9B%E7%AF%80%E6%B0%97
> (前略)読者の皆さま、
> コーヒー1杯ほどの金額です。
> またあとで
…『またあとで』!! うーん(略)いつも小銭を持ち歩いていて、いつでも「投げ銭」…そういう感覚が身についている文化圏じゃないと、なかなかねぇ。(恐縮です。)
> 重要な中気である夏至・冬至の二至、春分・秋分の二分は併せて二至二分(にしにぶん)と言い、重要な節気である立春・立夏・立秋・立冬を四立(しりゅう)、二至二分と四立を併せて八節(はっせつ)という。
※葉っぱの先を二至二分とすれば、原点は四立だということですね。おお、四立こそが季節の変わり目であり、『季節の交差点!』みたいなのが、この座標での原点になるのだといって、だいぶキレイになってきます。
季節の変わり目は体調管理に注意といいつつ、社会的にも学校が始まるとか終わるとかありますから、日付というものを単純にシリアル値で扱い(「28日移動平均」し)さえすればいいとも思えないわけです。分析の目的やデータの意味にあわせて、うまく扱っていきたいですね。
※現代の社会生活はきわめてシヤクシヂヤウギであるので、季節に関係なく同じ時刻に始業して終業するんですよ。特定の時期には運転時に暗いとか西日がまぶしいとか、いろいろあるんですよ。慣れることができる緩やかな変化ならいいんですけど、ある季節から次の季節への変わり目は、変化が速いので追従しきれないんですよ。「生まれ月」ではなく「事故発生月」のほうも、そういう「順応の難しさ」の高まりのようなのをそれっぽく反映した指標(「四つ葉のクローバー」の座標でいう角度や「動きベクトル」ひいては『(季節の進みかたの)速度!』みたいなの)に変換して扱ったらいいのではないですか、という話題でございました。ポヤンと「『n月』には事故が多い」などといわれましても、わたしたち、いまいちピンと来ないんですよ。おっしゃりたいことは、もっと狭い期間に集中しているのでは、ないんですかねぇ。
※「1月0日からの日数(1〜365)」というシリアル値を一種『成分みたいなの!』に分解して、シリアル値の状態では見えてこない情報を見ようとしているんですよ。こういうことは人が理屈を考えて分解しないと、分解のしようがないんですよ。主成分分析にかけさえすれば自動的に出てくるというものでは決してないのですよ。うん。(※見解です。)日付や「月」(または「28日移動平均」)だけでは「相関がない」ものが、「『(季節の進みかたの)速度!』みたいなの」で見れば「強い相関がみられる」ということって、あるんじゃないですかねぇ。本当でしょうか。
・大辞林の見解です
http://www.weblio.jp/content/%E6%8A%95%E9%8A%AD
・なんと「グリーン車のコーヒー」のイメージをご覧いただいての締めくくりとなります(※続きがあります)
http://livedoor.blogimg.jp/upperclass/imgs/c/e/cecb2cf3.jpg
・あまつさえ(修士論文)「評点時系列データの統計分析及び区間分割法」(年月不明)ですと!?
http://pre4306.u-shizuoka-ken.ac.jp/member/cv.php?id=17
http://dbsj.org/wp-content/uploads/journal/vol12/no3/dbsj-journal-12-03-001.pdf
> ユーザの**行動として多項分布モデルを仮定し,尤度比検定の枠組みで,**時系列データの区間分割問題を定式化する.
> この問題を高速で解くことを目的とした貪欲法に基づく解法と,解の改善を目的とした局所改善法に基づく解法を提案する.
> 443853ユーザ,6173アイテム,4376241レビュー
…スバラシイ! 修論が合格した年月が書いてあると、もっとスバラシイ!(棒読み)2013年度(2014年2月)だということです。
・島津製作所「粉博士」の見解です
http://www.an.shimadzu.co.jp/powder/lecture/practice/p01/lesson10.htm
> 「粒子の形状の影響による粒度分布の誤差はどの程度ですか?」という質問に出会うことがよくあります。
> 粒子の形状をあまりに複雑に表現すると、実用性が損なわれます。現状の粒度分布は、横軸に粒子径、縦軸に相対粒子量という2次元のグラフで表現できます。長径と短径を用いる場合も3次元のグラフで表現できます。しかし、それ以上のパラメータで粒子形状を表現しようとすれば、グラフで表現することが不可能になります。複雑な数表としては表現できても、その内容を人間が把握できなければ、単なる数字の羅列であって、実用性があるとはいえません。
博士にあるまじき見解ですのう。実にケシカラン…げふ。(※表現は演出です。)
> 逆に粒子の形状を単純化してしまえば、現実の粒子の形状が表現できていないという不満が残るでしょう。結果的には球相当径を用いるのと五十歩百歩ということも考えられます。
> 結局、多数の粒子(粒子群)をある意味で統計的に処理し把握しようする粒度分布測定においては、粒子の形状を取り扱うこと自体に無理があるのかもしれません。
> 研究としては、興味深いものがありますが、実用にはならないような気がします。
(ひとのことはいえないのだけれど)あなたの研究たわし!(※個人の感想です。)
・[3520]
> 2次元なら散布図を「見ればわかる」という安心感はあるんですけど…ののんのん!! それじゃだめなんですよ。将来は必ず「多変量解析」に進むんですから(=そうすると散布図で確かめるというのは無謀になってくるんですから)、2次元の発想で妙な安心感など感じていただいては困るのですよ。
・[3461]
> 1973年に物理学の修士をとられたかたとのことでございますが、計算工学というか数学という意味での多次元空間の応用よりも、3次元の空間(⇒「いろいろな物理学!」のうち、力学でいう空間など?)というそちらに関心が高いのでしょうか、可視化とクラスタリング(分類や索引)を混同なさったような記述がみられます。
> (新聞の読者が)(高校までの科目としての)「数学や物理」しか知らない(ことを前提にしている)かのような書きかたも、(読者が「新しい現実」[3352]を知る機会を奪うという意味で)…なんだかなぁ。
・[3514]
> (空間全体や、じぶんの周囲の構造を)想像(≒可視化)できようができまいが、何次元だろうが、足元の道(エッジ)は確かだじぇ☆…その発想はなかった!(効果音「きらーん」入りまーす…いただきましたっ。)
> ネットワーク(グラフ構造)というものの本質に迫らず、高校までの数学や物理の発想で可視化しようというのはヤメテクダサイ。(棒読み)人が見てもまるで全体像がつかめないのではあるのですけど「隣接行列」が最もすべてをそのまま表しているのであって、しかたなくエッジ(リンク)を1本1本たどってみようと、(人としては)そういう謙虚さがないと、グラフ構造で扱う意味が失われるのですよ。中途半端に途中の計算だけグラフ構造(=隣接行列)の上で行なって、もっともらしい単一の指標を得たらサヨナラ…構造なんて、構造なんて、忘れちゃうんですか黒たまご置き去りですか週末って幻だったんですね、わかります。(棒読み)…なんだかなぁ。
島津製作所『粉博士』いわく「内容を人間が把握できなければ、単なる数字の羅列」といって、そうなんですけどそうじゃないんですよっ。(棒読み)
※たわしは残念賞です。景品の色やサイズは選べませんので、あらかじめご了承ください。
●同「歩行者死者の特徴」「飲酒運転の特徴」「ドライバーの特徴」を読み解く
再び愛知県警察のPDF(星座ごとに12ページあるほう)を参照します。
・「交通死亡事故の特徴」
・「歩行者死者の特徴」
・「自転車死者の特徴」
・「高齢死者の特徴」
・「飲酒運転の特徴」
・「ドライバーの特徴」
このPDFでおっしゃる『特徴』って、単に「最大値」とか「卓越○○」を採ってきただけっぽくないですか&それを『特徴』といいきるのはちょっとねぇ。(※見解です。)
※「風配図」からの「微地形」「卓越風」については[3403]、「卓越天気」からの「雨か雪」については[3540]を参照。
(どこのセンセイも同じ例えで教えると思われますが)「ドイツで人気ナンバーワンのビールはハイネケン!!」などとですね(略)「あまたある“地ビール”の総和」のほうがシェアが大きいとですよ@なんてこったい!(棒読み)ウソではないけれども、実態を「よく要約」しているとはいえない数えかたをしてはいけないんですよ。うん。セブンプレミアムのナンバーワンは「大つぶ・小つぶの あげ玉(50g)」だそうですよ。へー…岡山や埼玉のひとが家庭でお好み焼き([3514])するために「大つぶ・小つぶの あげ玉(50g)」だけをあわててコンビニに自転車で買いにいきそうだよね&その道すがら、踏切や国道がありそうだよね。…ギクッ。さあさあ横断歩道のない県道や(細い)国道を横切って…ゲフンゲフン。むしろ踏切が信号機がわりだったりするんですよ。うん。
・Google ストリートビュー 高崎線「踏切の近くのセブンイレブン」のイメージです(※本文とは無関係です)
https://goo.gl/maps/spLaS61BREH2
https://goo.gl/maps/cs8b9GwCeSJ2
https://goo.gl/maps/ge4VFbdcHft
・同 高崎線「踏切の近くの自転車屋さん」並び「セブンイレブンさん」(推定)
https://goo.gl/maps/HkCAJb1m31B2
https://goo.gl/maps/b5ZtjDCToe62
※こういうところにこそ、全方向を監視しながら道路に出られる(=人間にはゼッタイにできない)自動運転がほしいかもですよ。んだんだ。
6種類の「特徴」のうち、▼「交通死亡事故」は「死傷のうち死亡」(⇒「ハインリッヒの法則」[2958],[3097])というサブセットに注目するものであるので、全体の傾向をとらえるものではないと理解します。また、▼「自転車死者」「高齢死者」は『星座!』云々より「自転車」「高齢」だということ自体がソレでしょということだと理解します。この3つは、「星座」で区間を分割して最大値などを見つけてくるような集計には、ほとんど意味がないと思いました。
※そもそも「第1当事者の誕生日」に着目しようというのは、まったくランダムであるかのように見える事故のデータから、なにがしかの規則性があるなら見つけたいのだというモチベーション(目的)でありましょう。事故の日付(月)も、そこに「天候」の影響を上回る何かが潜んでいるのではないかという淡い期待があってこそ、分析のための区間(変量の1つ)として使おうというわけです。もし「天候」「年齢」「現場の交通量」が圧倒的に「支配的!」([3403])な項なのであれば、もう、それだけでじゅうぶんに説明がつくはずなのですよ。(各方面の多大な努力の末、事故の件数が減ったいまとなっては)そうではないからこそ、わざわざ「日付(月)」や「星座」にまで着目しようという一種『いばらの道』へ進まれたということですね、わかります。
残る「歩行者死者の特徴」「飲酒運転の特徴」「ドライバーの特徴」は、いずれも当事者(「交通事故の第一当事者」)本人の、まさに「特徴」であろうかという感触でございます。ここでは、この3つに注目しようと思いました。しかし、星座ごとに書かれ12ページにわたるソレではポヤンと眺めることすらかないませんので、以下のように抜粋してみようと、こういうわけです。
■表2 「歩行者死者」(愛知県警察の資料より抜粋)星座 | 歩行中の死者数 (順位) | 月別 | 時間帯 | 曜日別 | 性別 |
---|
| | | | | | みずがめ座 | 1 | 1,8,9,11,12 | 3〜6、9〜12、18〜21 | 日,月,水,木,金,土 | 男性 | やぎ座 | 2 | 1,11,12 | 15〜18、18〜21 | 水,金,土 | 女性 | さそり座 | 3 | 4,10,12 | 15〜18 | 月,木,土 | 女性 | おとめ座 | 4 | 9,10,12 | 15〜18、18〜21 | 火,木,金,土 | 女性 | かに座 | 5 | 3,10,12 | 18〜21 | 日,月,火,土 | 男性 | てんびん座 | 5 | 1,11 | 18〜21、21〜24 | 月,火,金 | 男性 | おひつじ座 | 7 | 1,3,11,12 | 15〜18、18〜21 | 月,水,金,土 | 女性 | うお座 | 7 | 2,12 | 3〜6、18〜21 | 月,木,金 | 男性 | いて座 | 9 | 4,9 | 18〜21 | 月,水 | 女性 | しし座 | 10 | 12 | 18〜21 | 日,火,水 | 女性 | おうし座 | 11 | 1,10 | 18〜21 | 土 | 男性 | ふたご座 | 12 | 11 | 18〜21 | 日,月,火 | 男性 |
5位と7位は同数の星座が2つずつあるということで、そもそも死者数はじゅうぶんに少ないということが想像されます。「愛知県の交通事故発生状況」で確かめますと、2014年は「死傷者3,464(うち死者84)」とのことで、10年間では700〜800人ほどの「歩行者死者」が(くやしいながら現実に)あるとみられます。この数が12の星座に分けられ、ほとんど偏りがないとしますと、星座ごとに58〜67人くらいという数であって、なるほど、確かに5位と7位は同数の星座が2つずつあるというようなことがいかにも起きそうな数ではございます。
きわめて簡易には、ラパパ([3330])…いえ、Excelと呼ばれる表計算ソフトで「RANDBETWEEN関数」「COUNTIF関数」「RANK関数」を使って、750個の乱数を採り、以下のような数字が得られます。
■「5位と7位が同数」(N=750)
星座ごとに分けようと思い立った人におかれまして、こういう棒グラフが出たとき、76から46まで『差がある!』(「みずがめ座」は有意に多くて、「ふたご座」は有意に少ない!)と思いこまれようかとの心配はございますけれども、結局のところ、星座(「生まれ月」)が関係あるのかないのかは、実際の事故を1例ずつ詳細に検討するしかない、統計的な処理に載せられるほどの件数がない(じゅうぶんに少ない)ということ自体は、それなりにきちんと評価されたいとも思いました。(※個人の感想です。)「歩行者が歩行中に死亡する交通事故」を防ぐ手立ては、既にかなり尽くされているということです。
別のニュースで、「7歳の男児」が道路に飛び出して交通事故に遭う(死亡する)件数が突出して多いとのことでございました。こちらには、「早生まれ」という意味での「みずがめ座」「うお座」が大きく影響しているということは、素朴には想像できることではございます。特に、愛知県警察のPDFでは「みずがめ座」について「交通事故で亡くなる方が最多。」とのことで、詳細は必ずしもはっきりしないとあってもなお、「みずがめ座」のひと(特に7歳くらいのひと)に注意を促すということは極めて重要であると誰もが納得するところでありましょう。
・(公財)交通事故総合分析センター(ITARDA)「交通事故分析レポート No.116」(2016年6月)
http://www.itarda.or.jp/itardainfomation/info116.pdf
グラフを見ますと、7歳がピークですが6歳・8歳も含めて、かなりの山になってございます。あたりまえですけれども、記事の見出しだけを見て「6歳・8歳は大丈夫!」などと曲解してはなりません。念のため。
・「4月1日生まれの児童生徒の学年について」文部科学省の見解です
http://www.mext.go.jp/a_menu/shotou/shugaku/detail/1309966.htm
> 誕生日の前日である3月31日の終了時(午後12時)に満6歳になることになります。
> 一学年は4月2日生まれから翌年の4月1日生まれの児童生徒までで構成されることになります。
そこまで境目のかたは別としまして、大雑把には「みずがめ座」「うお座」のかたは、「学年」といっていっしょくたにされたときに、ずいぶん小さいということでございます。仮に『7.5歳くらいまで』登下校の付き添い(※ただし上級生でもよいものとする)が必須であるというようなことがあるとすれば、「うお座」のかたについては2年生になってもしばらくは付き添いが要るであろうというわけです。年齢を小数第1位まで考えないどころか、年齢を考えず学年(や学年暦)だけで考えて「1学期だけで大丈夫だよね」「2年生になったから大丈夫だよね」…たぶんとんでもない。しかし、いまのわたしたち、何も疑問に思わずに、そのような設計や運用に甘んじているわけでございます。
再び表を眺めまして、星座にかかわらず▼「月別」では冬至に向かって事故が増えているのではないかという気配(※「いて座」「おうし座」を除く)、▼「時間帯」では「18〜21時」に事故が多い(※「さそり座」を除く)という、至ってふつうの全体的な傾向が読み取れましょう。その上で、「みずがめ座」で「9〜12時」というのが「7歳くらい」のかたの事故なのかなぁと察するところにございます。
※「冬至に向かって」などということを考察するためには、事故が発生した日付についても「星座」と同じ区間に分割されて扱われたいと思えてきます。この点に限っては、交通事故の分析に「星座」を使うことが、きわめて理にかなっているとも実感されましょう。むしろテレビやラジオの天気予報の中で「二十四節季」に触れながら交通安全を呼びかけてもらうとよいのではないでしょうか。もっと本当でしょうか。
※「3〜6時」に歩行中に死亡するというのは、早朝からのレジャーやスポーツでしょうか、あるいは遠くまで通勤・通学するのでしょうか。それはそれで、生活の豊かさや都市のありようを反映しているようにも思われてきそうです。人の活動があるから事故もまた起きるのです。単に「ワースト」だからといって、その「返上」だけを『至上命題!』とするような態度(⇒ほかの都道府県で事故が増えればいいとでもいうんですかっ)ではいけないとも思われそうです。序列化すれば、必ずどこかの都道府県がワーストになるのですよ。それをいわば「受け持つ」のは結局、都市部と郊外ともに交通の多い都道府県になるわけですから、それ自体はどうしようもないんですよ。(※きわめて私見です。)
・産経新聞「「至上命題」を言い換えるのが「最重要課題」です」(2015年2月22日)
http://www.sankei.com/life/news/150222/lif1502220004-n1.html
・「受け持つ」
http://thesaurus.weblio.jp/content/%E5%8F%97%E3%81%91%E6%8C%81%E3%81%A4
> かぶる
> 背負う
逆に、星座ごとに集計されたとき「歩行者死者」が多いという「さそり座」にあって「18〜21時」が少ないとはどういうことかといって、簡単にはわからない感じがしてまいります。「てんびん座」のひとは夜更かししたり、残業が長かったりするのでしょうか&本当でしょうか。「10年分」の数字となってなお、あまりにも個々の事故に大きく左右される集計ではないかと疑います。これを「星座のせい!」ということは、かなり無理がありそうです(※「みずがめ座」を除く)。
次に、「飲酒運転」でございます。
■表3 「飲酒運転」(愛知県警察の資料より抜粋)星座 | 飲酒運転による事故の当事者 (順位) | 月別 | 時間帯 | 曜日別 |
---|
| | | | | しし座 | 1 | 3,6 | 0〜3、3〜6、21〜24 | 土,日 | みずがめ座 | 2 | 6 | 0〜3、3〜6 | 日 | うお座 | 3 | 2,8,11 | 0〜3、3〜6、21〜24 | 木 | おとめ座 | 3 | 2,4,11 | 9〜12、18〜21 | 土,日 | おうし座 | 5 | 5 | 0〜3、3〜6 | 土,日 | いて座 | 6 | 8 | 0〜3、3〜6、21〜24 | 土 | ふたご座 | 7 | - | 0〜3、3〜6、21〜24 | 月 | てんびん座 | 8 | 12 | 0〜3 | 火,土 | おひつじ座 | 9 | 12 | 3〜6 | 土 | かに座 | 10 | 2 | 18〜21、21〜24 | 金 | さそり座 | 11 | 7,12 | 0〜3 | 土 | やぎ座 | 12 | 4 | 21〜24 | 土 |
ここで数えられているのは「原付以上の第1当事者の飲酒運転による事故件数」で、2014年の数字では「人身事故件数:210(うち酒酔い3)(うち死亡事故件数:8)」とのことでございます。10年間では2000〜2100くらいということでしょうか。これが12の星座に分けられ、偏りがないとすれば星座ごとに167〜175人くらいが計上されているとみられます。それでもなお3位が同数というのは、いったいどういう分布なのでしょうか。よほど偏りがないということでしょうか。
きっとかなり平たい分布なのだろうと想像しながら、これまたきっと星座にかかわらず▼時間帯では(主に土曜日の?)「0〜3時」、▼曜日では「金〜月」(金曜日の「18〜21時」から月曜日の「0〜3時」まで)に事故が多いと想像されましょう。
その中で、▼「うお座」の「木曜日」、▼「てんびん座」の「火曜日」、それに▼「おとめ座」の「9〜12時」が『謎』ではございます。星座ごとに167〜175人くらい、そもそも10年間の数を合計してなお、そのようなよくわからない偏りが出るというのは、まったくもって『謎』でございます。当事者に絶対の責任があるという面からも、この「飲酒運転の特徴」については、もっと深い分析が待たれると思いました。
■表4 「ドライバー」(愛知県警察の資料より抜粋)星座 | 交通事故の 第1当事者 (順位) | 月別 | 時間帯 | 事故類型 |
---|
| | | | | うお座 | 1 | 1,7,8,9,11,12 | 0〜3、3〜6、6〜9、9〜12、15〜18、18〜21 | 横断中、単独事故 | みずがめ座 | 2 | 3,9,11 | 6〜9、9〜12、15〜18、18〜21、21〜24 | 横断中、単独事故 | ふたご座 | 3 | 2,4,8,12 | 9〜12、18〜21 | 横断中、出会頭、単独事故 | てんびん座 | 4 | 4,10,12 | 6〜9、9〜12、15〜18、18〜21 | 横断中、出会頭、単独事故 | おうし座 | 5 | 3,6,10,11 | 0〜3、9〜12、18〜21 | 横断中、単独事故 | しし座 | 6 | 3,10,12 | 6〜9、9〜12 | 横断中、単独事故 | さそり座 | 7 | 3,9,11,12 | 9〜12、15〜18、18〜21 | 横断中、出会頭、単独事故 | おとめ座 | 8 | 2,10,12 | 9〜12、18〜21 | 横断中、出会頭、単独事故 | おひつじ座 | 9 | 9,10,12 | 6〜9、15〜18、18〜21 | 横断中、単独事故 | かに座 | 10 | 2 | 9〜12、18〜21 | 横断中、出会頭、単独事故 | やぎ座 | 10 | 7,12 | 15〜18 | 横断中、単独事故 | いて座 | 12 | 5 | 9〜12 | 横断中、単独事故 |
※2015年9月5日にダウンロードして印刷した版では、「しし座」について「6時〜12時までの3時間」(原文ママ)、「おとめ座」について「12星座中、8万番目に多い」(原文ママ)との誤記や誤字があります。現在までに「おとめ座」(のPDF)は修正されていますが「しし座」は修正されていないようです。
「かに座」と「いて座」を除いて「11月」「12月」(のいずれか)が挙げられており、「(立冬から)冬至に向かって」増えるようすが想像できます。逆にいえば、「冬至に向かって」という注意喚起が徹底されれば、その部分についてはどの星座も「かに座」「いて座」と同じくらいにまで減るということはないでしょうか。本当でしょうか。そもそも「かに座」「いて座」ではどうして少ないのでしょうか…そこからですかっ。
▼もともと(愛知県の)人口において「かに座」「いて座」は少ないとか、▼運転免許を取る人が少ないとか、▼仮に年2回ほど「運転免許の自主返納」を呼びかけるとすると、そのときにちょうどじぶんの誕生日が近い人は返納に応じやすいとか(※まったくの想像です)、そういう背景的な数字もないと、わからないということがわかります。ものすごく遠くは、田植えや雪かきなどで(特定の季節に)忙しいというようなことが「生まれ月」の偏りにまで影響していないとも言い切れません。それなりに地域差がありそうではありますよね。
・7月の呼びかけ例です(2014年)
http://www.sankei.com/region/news/140708/rgn1407080065-n1.html
> 高齢者ドライバーの運転免許証返納を促すため、高松市は7月から、返納者に交付する交通系ICカードに入金される電子マネーを5千円から1万円分に拡充した。
「かに座」のひとには響きそうですよね。
・11月の呼びかけ例です(2016年)
http://www.asahi.com/articles/ASJCJ41PTJCJUTIL00P.html
> 警視庁は16日、都内各地で注意を促すチラシを一斉配布し、「体調が悪い時は運転を控え、自信がなくなったら免許の自主返納を」と呼びかけた。
「いて座」のひとには響きそうですよね。
・NHK「納得できる免許証の自主返納を」(2016年12月27日)
http://www.nhk.or.jp/ohayou/digest/2016/12/1227.html
免許の更新時など、じぶんの年齢を意識いただきながら考えてもらおうといっても、しかし、目先の手続きで頭がいっぱいになっていると響かないんですよ。…たぶん。
・(公財)豊田都市交通研究所「まちべん」より「免許返納とその課題」(2017年7月20日)
http://www.ttri.or.jp/machi/pdf/20170719machiben.pdf
「自主返納」の制度は平成10年(1998年)から始まっています。
> (29ページ)
> 免許非返納者の数量化II類分析
ここでようやく分析らしい分析が出てまいります。(…前置きが長いっ。)これ以外はすべて、数を数えて比率を見ているだけであって、まったく分析ではないとわかります。
> (38ページ)
> 免許返納に関するキーワード
> (39ページ)
> 交通全般に対するキーワード
いわゆる自由記述の『テキストマイニング!』(…頻度を数えただけ! コレハヒドイ)ですね、わかります。
・[3469] 「数量化II類」とはにわ
> 1952年 「仮釈放の研究」
> (2変量だけで行うと)意味のない判別分析
> 「II類」なんていってないで
> 判別分析(教師あり学習としてのSVMなど)ですのん
> …かぽーん。(きらーん)
返納する見込みの有り無しを(機械学習の枠組みでいえば、既に返納した人のデータを訓練データとして)判別するですか。そういう“占い”みたいなことをしても「分析」ではないですよね。現に返納した人について、▼返納を決断した時期や、▼その理由の優先順位など、量的変数をばっちり調べてこないと何もいえそうもない(≒データが黙りこんだまま何も語ってくれない)ですよね。(※あくまで現時点での私見です。)
・「バイナリ分類のサポート ベクター マシン」MathWorksの見解です
https://jp.mathworks.com/help/stats/support-vector-machines-for-binary-classification.html
・YouTube 長岡技術科学大学(※研究室として公式の配信とのこと)
https://youtu.be/pjmqU5sHfMU?t=41s
> 視聴回数 1,342回
> 線形分離
> 空間を線形(まっすぐ)に分離する。
> 4次元以上は分断面が分離超平面と呼ばれるものになる。
まっすぐ! それはそれとしましてSVMを使うだけの我々、この空間の軸とする変量をよくよく選び取らねばなりません。所得や運転距離など明確に「量」である量的変数だけでなく、(しかたなく)「時期」「優先順位」などの(やや『変化球』っぽい)量的変数を使ってですね(略)…ま、何かは出てくるでしょ&(コインのおもてうらみたいな)まったくの“占い”よりはマシでしょ。そして、(本人が返納を決断するに至る)理屈はまったくわからないのだけれど「時期」こそが支配的であるということが示唆されたならば、もう(返納する、またはしない)理由なんてどうでもよくて、(返納を)いつ呼びかけると効果的かという、まったくそれだけのことになるのかもですよ。(※たいへん恐縮です。)
・政府統計の総合窓口「月別にみた年次別出生数及び率(人口千対)」(1947年から2011年まで)
http://www.e-stat.go.jp/SG1/estat/GL08020103.do?_toGL08020103_&listID=000001101883&requestSender=estat
http://www.e-stat.go.jp/SG1/estat/GL08020103.do?_csvDownload_&fileId=000005944859&releaseCount=3
・総務省統計局「生まれ月別の人口」
http://www.stat.go.jp/library/faq/faq02/faq02a13.htm
> 総務省統計局が5年ごとに10月1日現在で実施している「国勢調査」により、生まれ月別の人口を、生まれ月4区分(1〜3月、4〜6月、7〜9月、10〜12月)、男女、年齢別に調べることができます。
※ご存命かどうかも含めて「生まれ月別の人口」のほうを見ないといけないことがわかります。
「事故類型」では「出会頭」が『謎』であります。単に事故が多ければ「出会頭」も多くなるというわけでもないようです。いったいなにが起きているんだっ…いえ、ま、「事故類型」というもの自体が「卓越○○」であるので、事故の調べにおいて責任の所在を決定づける最大の要因を挙げているという理解ではございます。なお、「事故類型」には、2014年の数字で人身事故件数の多い順に▼「追突」、▼「出会頭」、▼「その他」、▼「右左折」、▼「横断中」、▼「車両単独」、▼「正面衝突」の7つがあるということです。死者数の多い順では「横断中:51」「車両単独:39」「その他:37」「出会頭:37」の順で、その次の「右左折:20」との間には1.8倍を超える差があるので、上から4つを『主な』と形容してもよさそうに思えつつ、「星座」といいながら『その他が多発!』と書いても意味をなさないので「その他」は省かれているという理解でございます。
これまた逆にいえば「その他」の占める割合がここまで大きいというのは、典型的な事故については防止策が尽くされているということでしょう。タイヤが外れて転がっていく事故や積み荷の落下など、いま最も防止すべきは「その他」なのだといって…『その他が多発!』といわれてもよくわからない(わからないから対策されず、その結果、事故も起きてしまう)のだという、そこに戻ってきます。
また、「その他」の事故は貨物自動車であろう(※その当事者は職業的な運転手であろう)との早合点からは、「星座」を使って交通安全を呼びかけることにほとんど意味がないとも思われそうではございます。むしろ、業務上の注意事項等に関して労働者個人の「生まれ月」を特定して呼びかけるということ自体が、してはいけないことでもあるわけです。「うお座」の運転手を不採用にすればいいとでもいうのでしょうか…とんでもない!(※あくまで私見です。)
・東京海上日動リスクコンサルティング「荷役災害と荷主の責任について」(2013年)
http://www.tokiorisk.co.jp/risk_info/up_file/201308281.pdf
他方で、遠因として「生まれ月」がありながら、身長など体格、学校の年間スケジュール(※教科書の「進度」が相対的に「早い」)、同期や先輩・後輩という人間関係上の立ち位置など、あらゆるものが広く薄く影響した結果、どうにも「うお座」のひとは不利であるということがあるのならば、運転免許の取得時において、そこを補うような座学や教習が追加されたいとも思われてゆくことになるのかもしれません。(※かなり気の早い私見ではございます。メッソウでした。)
・みなきけ!「Yes we can」のおかえりだっ!!(2009年1月)
http://d.hatena.ne.jp/keyword/Yes%20we%20can
http://nicoco.net/sm5689504
・[3174]
> 「Yes, we can.」がたいそうはやったのはおもしろいことでした。
> 12月に選んで年末に発表する「流行語」にあって、11月のあたまにデビューした語というのはたいへん有利で、▼流行したかどうかを十分に判定できるだけの期間が経過している(ウィンドウが適切[3076])、かつ▼流行のピークから日が浅い(流行したという実感が広く記憶されているライブ感のようなもの)、ということです。仮に、12月25日に突如『流行』したかのような語があったとしても、その年の発表には間に合わず、翌年の選考(『選好』?)では「なかったこと」扱いされるというわけです、たぶん。
> 子どもを含め、人の異動(小さくは「クラス替え」を含む)がある3月末をまたいで流行が続くというのも、なかなか難しそうですね。「季節要因」については[3132],[3142]も参照。
・川浦康至「わたしたちにとって誕生日とは何か」(2011年3月15日)
http://www.tku.ac.jp/kiyou/contents/communication/33/Kawaura_Yasuyuki.pdf
・日経DUAL「親は子に「生まれ月が早い、遅い」を意識させないで」(2016年9月13日)
http://dual.nikkei.co.jp/article.aspx?id=9031
※あくまで「この学校」では学校が責任を持つので心配しなくてよいですよ、ということですね。
> 月齢を考慮したクラス分けを導入したのはいつからでしょうか?
> 約60年ほど前からです。
> 目で文字を追うスピードが月齢によって異なる
> ただ読み慣れていないだけではなく、目を的確に送れないという動体視力の発達の問題があります。
> 無料会員登録すると続きをご覧いただけます。
> 無料会員登録すると続きをご覧いただけます。
…ぬわし!!(棒読み)ここまでしか見ていませんので、あしからず。
・(参考)愛知県警察「愛知県の交通事故発生状況」(2014年)
http://www.pref.aichi.jp/police/koutsu/jiko/koutsu-s/documents/h26_12aichinokoutuuziko.pdf
※「2014年の数字で」といって参照したのはこちらでございました。
・なぜか末永く参照できるフジテレビのブログです
http://blog.fujitv.co.jp/tokudane-official/E20150908001.html
> 「あくまでもこれは占いじゃなくて、過去10年間の死亡事故のデータを、職員2人が2か月かけて分析したものなんです。当たる当たらないじゃなくて、これをきっかけに交通事故に気を付けてくださいと言いたいだけなんです」
> 「失礼しました!」
> 「人件費を考えると何やってるんだって気はするんですけれど、データを洗っていく段階で、何か事故の傾向や対策など発見もあったはず。これ自体は啓もう活動の一環として話題になりましたから、データは他の形でも生かしてほしいなと思います」
「10年間」を束ねても傾向がわかるほどの件数ではないという、そこまで事故を減らしてなお減らそうという時の苦悩(なにをすればいいのか、かいもくけんとうがつかないよ!)というものにもフォーカスされていきたいと思われましょう。(「30年間」にまで延ばしてしまうと、これまた傾向などわからなくなるんですよ。…たぶん。「自動車の複数台保有」については[3514]を参照。)
・いまさらですが当時の反応です
http://nlab.itmedia.co.jp/nl/articles/1509/04/news107.html
http://www.excite.co.jp/News/bit/E1441340149437.html
> Twitter上では「当たってる」「今月は注意しないと」と参考にする人が現れている一方で、星座と交通事故の間に因果関係があるとは思えないなどの理由から、「非科学的」「次は血液型別が来るかも」などの反応も。
> 車が広く普及しているということもあり、12年間連続で交通事故死ワースト1位になってしまった愛知県警が発表した「星座から見た交通死亡事故の特徴」がネット上で話題になっている。
> 「ふたご座かわいい」
> 「ふたご座かわいい」
https://www.pref.aichi.jp/police/koutsu/topics/images/03hutago.gif
> 交通事故というと重いテーマを扱っているがこのデザインがなんだかカワイイ。報道によると県警担当者は「いろいろな対策をしてきたが、事故が減らない。星占いで、運勢を調べる感覚で安全運転に役立ててもらい、なんとか事故を減らせれば」とコメントしているという。
2016年6月に「7歳くらいの男児」という別のレポートが交通事故総合分析センターから出されるまでは、愛知県警察のPDFだけを見ていても、なんともわからなかったことを申し添えます。ひいては、自動車の台数、人口、交通量に対して、ここまで死亡事故を減らせているんだという、愛知県内で尽くされている事故防止への努力がまっとうに評価されていくことを期待するものであります。
・[3041]
> なんでも性別や利き手に帰結させるのは「血液型占い」並みだと思いますが、統計的に差があるのであれば、期待してよいのかもしれません。それでも、なぜそういう差が出るのかというメカニズムが解明されるまでは、本当の意味では期待してはいけない(狭くは採用や昇進に加味してはならない)ことだといえます。
・[3461] わたしたちは「血液型」をどのように理解しなおせばいいのか
> 組合せが無限であるとすれば、相関など調べようがないといって、「科学の進歩で、いずれは関係が明らかになる」とのナイーブな考えが明確に否定されるとわかり…いえいえいえ、本当でしょうかっ!?
※相関やあてはまりを調べる式や、それらを調べ上げた上で「精度」や「平均」を見ようとしたときの分母に「無限大」が入ってくるんですよ、の意。
・朝日新聞「生活道路でも速度違反監視 小型オービス、効果あり?」(2017年7月16日)
http://www.asahi.com/articles/ASK6Z2WB0K6ZOIPE002.html
> 県警は4月から新型装置2台を生活道路を中心に運用し始めた。従来の持ち運び式と違い、新たに撮影機能がつき、後から車を特定して取り締まることができる。その場で違反車を誘導する必要がなくなり、狭い生活道路や、誘導スペースのない幹線道路でも使えるようになったことが最大のメリットだという。
・朝日新聞「取り締まり情報、スマホに通知 死者数ワーストの愛知県」(2017年6月22日)
http://www.asahi.com/articles/ASK6P3PSBK6POIPE00G.html
> 県警は安全運転をしてもらおうと、「ヤフー」(東京)と連携し、交通取り締まり情報をスマートフォンに通知する全国初のサービスを22日から始める。
> ヤフー側から打診があり、実現した。当面は文字のみの通知だが、将来的に取り締まり対象の道路を地図中に表示できるようにする予定だという。
・2016年中の状況です(2017年1月1日)
https://response.jp/article/2017/01/01/287803.html
> 愛知県の交通事故死者数が、年間で212人に上ることがわかった。
> 年間200人を超える死亡事故が発生しているのは都道府県はほかになく、14年連続
※「しているのは都道府県は」は原文ママ。
> 交通事故死者数は、全国的に減少傾向にある。愛知県の交通事故でも、名古屋市内では約4割減少させることができた。
> ただ、それ以外の地区では、いずれも前年比で死者数を増加させ、結果的にはほとんど変化ない状況に陥った。
※「を増加させ」は原文ママ。
「交通事故死者数」(※「率」ではない)で都道府県を序列化して愛知県がワーストですという、そこに意味があるのかを問おうではありませんか。それはそれとしまして、ODデータみたいなのとの相関も見たくなってまいります。(きわめて事故とは無縁なドライバーと比べると段違いに)事故を発生させうる(リスクの大きい)ドライバーにあって、仮に運転距離や時間が長いか休憩が不十分だというようなことがあれば、取り締まりや速度を落とさせたり確認を増やしたりする道路設備等によって名古屋市内では緊張を強いられる一方、市外に出たら一気に緩むという…それでは確かに変わらないですよねぇ。(※まったくの想像ですが、こうしたことを確かめるにはODデータとの照合が必要であることがおわかりいただけましょう。)
・「平成28年中の交通事故死者数について 」
http://www.e-stat.go.jp/SG1/estat/List.do?lid=000001168544
http://www.e-stat.go.jp/SG1/estat/Pdfdl.do?sinfid=000031518193
全国でも、12月、10月、11月、1月の順に「月別死者数」が多いことがわかります。「人口10万人当たり死者数」(2014年)では、愛知県は「2.74」に留まっており、全国の「3.23」、あまつさえ千葉の「2.94」よりも低くなっています。ワーストは佐賀の「6.67」、福井の「6.16」、三重の「6.11」と続きます。あくまで「比」であるので、一概には何ともいえない数字ですが、この数字を一定以下に収めなさいというような『数値目標!』ひいては、その「達成」と「達成せず」を(序列化するのでなく『絶対評価!』で)評価していくような見かたへの転換が(マスメディアや県民の側に)求められているといえないでしょうか。本当でしょうか。
・最新の状況です(2017年7月18日)
http://www.asahi.com/articles/ASK7K65XXK7KOIPE01D.html
> 愛知県警は17日、今年に入って県内の交通事故死者数が100人になった、と発表した。昨年より10日早く、全国でも最悪のペースだという。
> 17日午前9時15分ごろ、同県あま市七宝町の市道交差点で、散歩中だった名古屋市の男性(83)が中型トラックにはねられ、死亡した。
※具体的な地点はわかりませんが、(あま市七宝町付近をストリートビューで見る限り)ほとんどの市道は狭く「30キロ」ではあるのですが、中型以下の車が抜け道として通りそうな道路網になっているのですよ。ゾッとします。
・[3026]
> 一方通行化のメリットは、(道路交通の専門家としては)いまさら問題にするまでもないほど明らかだという印象を上記からは受けます。しかし、2003年、一方通行化(道路の一方通行規制)に関してきちんとモデル化してシミュレーションを行なった上、現実の道路での規制状況と比較するという、たいへん意欲的な研究がされています。
> 自動運転があたりまえになれば、どんなに複雑な一方通行規制でも完全に順守させる(機械にさせる)ことが可能となり、理想的な状況に近づいていくのかもしれません。
・Google ストリートビュー あま市付近(※ニュースとは無関係です)
https://goo.gl/maps/UmpdEWrg4zv
https://goo.gl/maps/qbsnyE31UTt
https://goo.gl/maps/pKyCQnuHoL32
https://goo.gl/maps/Zo69yZGAMg42
https://goo.gl/maps/km3YkXsqTz82
> モーニング270円
高速道路や国道などとの接続に対して、当地の(市道を含む)道路網が見合っていないとの感触が高まってまいります。第1当事者としてドライバーに責任があるのは当然ですが、それはそれとしまして道路管理者(あま市それに愛知県)もたいがいですぜ★…といいたくなってきそうですよ。(※個人の感想です。)
・遡って2006年です
http://www.itmedia.co.jp/news/articles/0612/14/news027.html
> カナダの保険見積もりサービスInsuranceHotline.com
> 同社が集めた過去6年間の北米の交通データを基に、10万人のドライバーについて違反チケットの数や起こした事故の件数などを調べたところ、交通事故の予測において、ドライバーの年齢よりも生まれ月の方がずっと重要であることが示されたという。
ドライバーの年齢についてはいわゆる「バスタブ」であって、「若葉マーク」と「もみじマーク」を除けば差がないということなのでしょう。…ま、だからこそ「若葉マーク」と「もみじマーク」があるんですよ&そっちですよっ。(棒読み)
> 「保険会社は保険料率を決めるときに、住んでいる地域や車種など多くの変数を考慮しているが、皮肉なことに星座という最も重要な要素を見落としている」(同氏)
地域や車種さえわかれば、それ以上の多くのことが推定できるということですね、わかります。
> ※編集部注:統計的分析に基づくものであり、科学的に立証されたものではありません。
(この分析だけでは)「立証」されていないというのはその通りなんですけど(=データと分析結果からいえないことまで好き勝手に述べているところがまったくケシカランのですけど)、それはそれとしまして「統計的分析は科学ではない」とまでおっしゃっちゃいますかっ。ふーん。ほー。へー…
・ナショナルジオグラフィック日本版「鳥の卵の形にまつわる謎を解明、カギは飛行能力」(2017年6月27日)
http://natgeo.nikkeibp.co.jp/atcl/news/17/062600242/
http://natgeo.nikkeibp.co.jp/atcl/news/17/062600242/05.jpg
> 卵の一端がどれだけとがっているか(非対称性)と、どれだけ細長いか(楕円率)という2つの要素
「誕生日」を「r」と「θ」で表わそう的な話と似てはおります。「誕生日」を「シリアル値」で眺めているのは、卵でいえば「重さ」だけを量ったり、「容積」だけで議論したりするようなものです。我々はカシコイので! …動物の「かしこさ」を「脳の容積」だけで決めつけるですって?(適切な座標や表現を使わないと、まともな分析になりませんよね、の意。「2次元」と「ツリー」しか使わないなんて、きっととんでもない。)
> 鳥の飛行効率と移動能力を表す「ハンド・ウイング指数」
> 出生地から別の場所へ渡りを行う能力
※ジト目で京都大学「関節リウマチ」…いえ、柿岡地磁気観測所「Q11.地磁気は生物に影響を与えますか?」([3180])も参照。
> 卵の形は産む数や環境要因、巣の特徴などと関係がない一方で、「ハンド・ウイング指数」が最も高い、つまり最も効率的に飛べる鳥は、卵の非対称性または楕円率が最も高いことがわかった。
> 飛ばない鳥はいずれも丸くてとがっていない卵を産むという想定ができそうだ。
> ところがペンギンは、飛行能力の高い鳥に多いとがった卵を産む。
> 現時点での仮説は、「ペンギンは水中での力強い“飛行”に適応してきたからでは」というものだ。
こういう網羅的な研究を見てなお「統計的分析は科学ではない」といいますか、そうですか。…なんだかなぁ。(※網羅的でない場合には、まったく「立証」されてこないというのは当然でございます。我々「あたりをつける」などと称して意味不明な指標やサンプルを巧妙に選び取って…たぶんとんでもない。)
・[3496]
> 「なんばぁ・おぶ・ぴょんぴょん」
> わあぃうさぎですかうさぎですか?? 流しのうさぎとか渡りのうさぎとか飛ばしのうさぎとか…違いますってばぁ。(棒読み)ぴょんが1つ、ぴょんが2つ、ぴょんが3つ…「ぴょんぴょん」は複数形ですっ。
> ※「○○学者のホップさんが考案した指標!」などと…人名だと思ったですか、そうですか。
・[3460]
> 排水しないと渦を観察できないとか、円筒容器じゃないとダメなんてことはなくってですね(中略)シャワーから湯を出しつつ、浴槽の湯の中でシャワーをある深さ、ある角度で保持するとですね(中略)3秒くらいで直径2cmくらいの渦が発生し、3秒くらい継続しながら深さ5cmくらいまで水面から空気を吸い込んだところで急に消滅しますよ。本当でしょうか。その答えは、みなさま、ぜひお風呂で試してお確かめください。台風を上下さかさまに、水と空気を逆にしたようなものですかねぇ。
ま、そういう『おおらかな気持ちで!』(※「おおらかな気持ちで」は、いつかどこかで『(翻訳された)数学用語!』らしいですよ)…ペンギンの泳ぎは飛行だと、まったくもってナットクであります。(※個人の感想です!)
・…なぜに河合塾だし!「おおらかな気持ちで」の用例です(※実在の河合塾とは無関係です)
http://www.kawai-juku.ac.jp/hgreen/3rd-h-chugoku/tcr/MKaQMMwEXuIKWTBQMM-20/
> おおらかな気持ちで全体を見渡そう。どこにいるのか、どこへ行くのか、何が必要か、何をすべきか。
※ま、ちょっと古風ではありますよね。…ギクッ。
●都道府県警察におけるコンピューターの活用と研究への道(仮)
警察のかたが書かれたもの(論文に準じるもの)については、[3500]で「非行原因に関する総合的研究調査(第3回)」より「第8章 地域社会と少年非行の関連」(1999年3月)をポヤンと読み解いた気になってみたところでございました。(かなり古いものをいまさら読もうという話であり、たいへんメッソウでした。)
※北海道警察「ススキノ理論!」については[3150]を参照。
・愛知県警察「Q73 警察では、コンピュータをどのように使っていますか。」(2014年7月22日)
https://www.pref.aichi.jp/police/syokai/kids/qa/kagaku.html
> 警察がはじめてコンピュータを使ったのは、東京オリンピックが行われ、また、新幹線がはじめて走った昭和39年のことです。
> 最初は、コンピュータを使って、犯罪の件数や交通事故の件数を集計していました。また、昭和49年からは、行方不明者や指名手配者の発見のためにも使いはじめました。
▼データベースとして使ってます(⇔それ以外の使いかたは知りません! しなさいともいわれていません!)、ということですね、わかります。▼いわゆる「OA」としての利用はあたりまえすぎるので説明されず、また▼交差点の信号機の制御は、もともとの実装がコンピュータではないので、いくら置き換えによってマイコンや通信が使われるようになっても、「コンピュータを使って制御している」という扱いではないらしいということがうかがえます。(あくまで推定です。)
その限りにおいて、国鉄でいう「貨報集計用電子計算機」([3177])と、だいたい同じような経緯や時期でしょうか。
・[3177]
> ▼歴史的な順序として(略)▼「鉄道電話」(略)制度や態勢の変遷をまとめることが必要で、「電電公社の回線網の整備が遅れた地域(主に北海道)で、国鉄が公衆電報の取次を行なつていた」こと、家庭に電話が普及していない時代には公衆電報が使われていたこと、(北海道では)国鉄の駅に公衆電報の窓口があったこと、などを整理されるといいのだと思います。(一義的には業務用の専用回線でありながら公衆の通信にも役立ったというのは特筆に値すると思われます。)▼各装置の正確な正式名称や、当時の呼称と現在の呼称の対応付けがなされたいと欲張られます。少し調べたところ、「マルス101」、「模写電信」(きわめて初期のファクシミリ:「放電破壊式」の「テレプリンター」が採用されていた)、「貨報集計用電子計算機」(IBM製を買ってきて据え付けたが日本国内での保守の体制が代理店越しでいまいちであったとかなんとか=ごく当初の時期:いまでいうHDDのRMAで云々的なソレ)とわかりました。▼交換機の『ピー音』という「目先のモノ(実体)」にとらわれすぎという印象とともに、市外局番は…うそーん! (それなりに国鉄が電電公社に合わせたんでしょ)と思われました(『要出典』!)。
電話が普及しないと「110番!」もないですし、普及すればしたで、こんどは通信指令(110番を受け付けるセンタ)が大掛かりになっていきます。なんと、小湊鉄道の事務所にはいまでも、毛筆で書かれた「火災−119」との掲示があるようですよ。えー、どれどれ?([3266])…確かに『毛筆』ではあるけれども、ペンキだよね、これ。
・(先述)
> 「105人に5人」が若くして亡くなる(交通事故を含む)という、そこまで数字が大きかったのはだいぶ前ではないでしょうか。あらためて具体的な統計のほうなど参照してみたくなってまいります。
> 「電子サイレン」([3208])が普及しながら救急医療の体制が整ってですね(もっと略)。
交通事故そのものはそれなりの頻度で起きるけれども救急が手厚いという、そういう面も含めての「総合評価」がなされたいとも思いますが、これは警察・消防とも(じぶんたちでは)する権限のないこと(越境的なこと)ですから、国の研究所など上位や外部の者がそういう調査や報告をしていかなければならないと思われましょう。
・(山梨県)「交通事故連絡カード交付」「交通事故連絡簿備付及び活用」(1988年4月2日)
https://www.pref.yamanashi.jp/police/p_keimu/bunsho/documents/koutuushi11.pdf
> 交通事故連絡制度実施要領
ここでいう「連絡」とは、学校の担任のせんせいと保護者の間のソレと同じ意味であって、かの「連絡帳」が1回きりの1枚ぺらになりよってからに(略)往復もせず片道…それを「連絡カード」というんですよ。(※現在の読者の戸惑いを表現しています。)
> 前記に基づく交通事故連絡簿の整備は、交通課(係)においてこれを日々整備し、宿日直責任者にこれを引継ぐものとする。
「宿日直」も、むずかしいことばですのう。
> この要領は、昭和63年4月20日から実施する。
なお、1988年4月2日は土曜日です。なんと、1988年4月2日は土曜日です。まだ「週休2日」ではなかったんですねぇ@「懐かしい思い出」だよ。(※山梨県とは無関係です。)
翻って、愛知県警察「星座から見た交通死亡事故の特徴」に使われているデータは、県内での取り締まりや国の統計への報告などのためもともと(特別な調査ではなく通常の業務で=サンプルではなく全数が)記録されデータベースに蓄積されているデータ(項目)そのままであると見受けられますから、あくまで比ゆ的には、SQL文をちょちょいのぽぽーんとですね(大巾に略)にょほほほほっ…やり直しだッ。(棒読み)そのくらいのことではあると思いたいでした。奥の部屋のキャビネットから出して台車でまとめて運んできた台帳を机に積み上げてウンウン…いつの時代ですかっ&まさかねぇ。
※SQLな環境だけでぜんぶやろうなんて思っちゃいけないよ。データの集約や整形までだよね。その先はハレでも(ざーざー)アメでも(ごろごろ)アラシでも(ぴよぴよぴよ)うぃーあーざあーるういずえくせらー…ズ(ぱらぼーら)「R with Excel」だよね。んだんだ。(※一般的な認識ではございます。)
「星座から見た交通死亡事故の特徴」が1回限りの広報ではなく、あくまで研究につなげる取り組みであるのならば、2015年の6〜8月ごろに「星座から見た交通死亡事故の特徴」をまとめる2か月の工程を経て、担当のかたの頭の中にはデータに対する土地勘のようなものが培われたであろうと期待されましょう。▼現在は記録されていないけれども記録すべき項目として何があるのか、▼多変量解析などの手法を先に勉強して、それにかける(※)にはどんなデータ(構造)でなければならないのか、そのあたりを深めていくフェーズに進んでいただこうと、たぶんこういうわけです。(※在職しながら修論に取り組む人のイメージで想像しています。)ま、(フルタイムの修士学生より長い)3〜4年くらいで論文(修論のもととなる論文)が書けるといいですし、必ず書けそうな感じでもありますよね。(※あくまで勝手な想像に基づく個人の期待です。)
※かける:自前のデータを既製の分析プログラム等に入力して、プログラムに用意されている(メニューから選べる)分析を実行すること。サタケもしくは静岡製機「食味計とも呼ばれる簡易な分光計」([3519])に「うちでとれたコメ」のサンプルを「かける」(セットしてボタンを押す)のと同じですよ。
・「かける」
https://kotobank.jp/word/%E6%8E%9B%E3%81%91%E3%82%8B%E3%83%BB%E6%87%B8%E3%81%91%E3%82%8B-228593
> 鍋などを火の上にのせる。
> はかりに載せて重さを測る。
> 願い・期待をそこに置く。託す。
> 言葉による働きかけを行う。
> 検査・診察の場所・場面に置く。
> 相手に見えるようにする。
> あること・物のために費用・労力・時間などを費やす。
> 自慢する。
> …し始める。途中まで…する。
装置やプログラムを自慢しながら我々「ここに置いてください」と書かれた投入口みたいなところに(中略)とっておきの試料やデータをもったいぶって(さらに略)わざわざ費用・労力・時間などを費やすのだから、これはもうすばらしい結果が出ないといけないんだ&むしろ出るんだと言い聞かせながら「OKぐーごー?」などと言葉による働きかけを(以下略)からの「途中であわてて止めてみせる」ところまでが「かける」です!
・[3532]
> ハレでも(ざーざー)アメでも(ごろごろ)アラシでも(ぴよぴよぴよ)うぃーあーざあーるういずえくせらー…ズ(ぱらぼーら)「R with Excel」([3526])で、以下のようなソレを実行します。
・[3527]
> > 実は、かつてトヨタグループもそうでした。理論的な説明が中心の多変量解析の研修を行っていたところ、難しくて、技術者といえども実務で使いこなせなかった。研修の講座として学んでおしまいで、実践には至らない。それでは多変量解析を学ぶ意味はありません。
> いや、まあ、やっぱり、その、ハレでも(ざーざー)アメでも(ごろごろ)アラシでも(ぴよぴよぴよ)うぃーあーざあーるういずえくせらー…ズ(ぱらぼーら)「R with Excel」みたいなの、するんですね。わかりますわかります。
・JEITAの見解です
http://home.jeita.or.jp/page_file/20131205102559_7mSIbBVzr8.pdf
> 午後2時(春分、秋分)の太陽の光が十分あたっているところが受信可能となる設置場所の目安です。
> 午後2時の太陽の方向におよそ向け、右側か左側どちらかの方向へゆっくりと回転させ、テレビ画面の受信レベル表示が最高となる位置でパラボラアンテナの方位角固定用ボルトを固定します。
> パラボラアンテナの方向調整は、1度〜2度の精度で行う必要があります。
> テレビ画面に表示される数値やバーグラフは、テレビ内部でデジタル処理を行うため、パラボラアンテナの角度調整速度に対して、タイムラグがあります。このため、パラボラアンテナの方向調整は、極めてゆっくりと回転させてください。
> 極めてゆっくり
> 極めてゆっくり
> 主な都市の仰角と方位角
▼「主な都市」みたいなの、それに▼「「MEMO」と大文字で書かれて罫が引かれたページ」みたいなのキターっ&しかも2ページあるし!(棒読み)帝国書院「日本のおもな都市」については[3532]、「掲出高さ」と「仰角」については[2926],[3154],[3162]を極めてゆっくりと参照するのですよ、いいですね?(違)
…じゃなくてですね(略)パラボラアンテナの調整と同じくらいの精度で、つまりは太陽の向きを1分単位、1〜2度単位で扱うとなると、交通事故の発生時刻や自動車の進行方向(方位とこう配)も正確に記録されないと大きな誤差となってしまうわけです。そこまでのデータの蓄積が過去にはないので(※少なくとも5から10分くらいずれているだろう&向きの記録はない)、いますぐにはそのような分析はかなわないわけですが、やがてはデータがそろってできるようになっていくのだろうと期待されましょう。
※簡易には「日の出」「日の入り」を1分単位で扱いながら発生時刻も1分単位で(⇒「日の入り」と「夕刻の事故の発生時刻」の相関を調べる)…ですからデータがそこまで正確ではないのでちゃんとした相関は見えてこないんですよ。それならせめて聞き取りやドライブレコーダーの映像から「西日がまぶしかった(まぶしくてぼーっとした=逆ミーアキャット!!)」とわかれば「1」わからなければ「0」…うーん、こんな雑なことでいいんかなぁ。(棒読み)ま、現に起きた事故についてはよくわからなくても、夕刻の40分間くらいに赤信号を長くしたりわざと渋滞を起こさせたりして速度を下げれば、夕刻を避けて運転しようとのモチベーションも生まれ、これらの総合的な結果として夕刻の事故が大幅に減るなどの…そんなにうまくいくんですかねぇ。我々「逆ミーアキャット」については[3469],[3535]をむにゃーっと参照するですよ&我々も動物の1種ではあるということを忘れてはいけないのですよ。ひいては自動運転のためのカメラやセンサーも「西日でぼーっとする(場合がある)」んですよ。…その発想はなかった!(棒読み)
・われわれ「はやくおうちにかえりたい」ちかこおねえさん(いとうづのもりこうえん)のせつめいです(2005年9月21日)
http://www.itozu-zoo.jp/blogs/animal/2005/09/2204.php
https://ja.wikipedia.org/wiki/%E5%88%B0%E6%B4%A5%E3%81%AE%E6%A3%AE%E5%85%AC%E5%9C%92
> 夕方日が沈んでしまうと、規則正しい生活を送るミーアキャットたちは早くお部屋に帰りたくて仕方がありません。すると、その切り株の上に乗って、隣のキリンとシマウマの運動場をジィーーっと見つめるのです。なぜかというと、キリンとシマウマが見えなくなったら(お部屋に帰ったら)、次はミーアキャットがお部屋に帰れる番だからです。
・NTT-ATクリエイティブ「着雪防止塗料 HIREC-S(70) パラボラアンテナ70〜75cm または 指向性アンテナ0.54m2用」(24,000円)のイメージです(ぱらぼーら)
http://www.ntt-atcr.co.jp/item/originalproducts/item08.html
http://www.ntt-atcr.co.jp/item/images/HIREC-Spoint2.jpg
> 初期接触角 150°以上
> 在庫あり
※ハレでも(ざーざー)アメでも(ごろごろ)アラシでも(ぴよぴよぴよ)うぃーあーざあーるういずえくせらー…ズ(ぱらぼーら):じぶんの周りで何が起きていてもまったく気にせず所定の手順でAプログラムにBデータを「かける」ようす(ただし降雪時には感度が下がります)。
フジテレビの記事にある「職員2人」が、仮には配属直後の(研究室でいえば)M1みたいなひと(22)と、そのメンター役となるD2くらいのRAみたいなひと(26)ですと、おもしろいように分析がはかどると思うんですけど、どうなんでしょうかねぇ。そういうところが知りたいと思いました。模型や似顔絵の名人や防犯などの歌を作った人などと同じ扱いで「人もの」([3099],[3461])として報じられ(るように広報し)たりなさらないんでしょうか。
●朝倉書店「多変量解析実例ハンドブック」かく語りき(37)・(25)・(64)
今回の話題に関連して、「多変量解析実例ハンドブック」を紐解きます。(恐縮です。)
・「多変量解析実例ハンドブック」目次とキーワードです(2002年6月)
http://www.asakura.co.jp/books/isbn/978-4-254-12194-0/
・37. 青少年のスポーツキャリアパターンから見た心理的要因の因果モデルの検討
> Bandureの自己効力感モデル(self-efficacy model)
> 結果予期,有能感,勝敗に対する態度の因果的な関係のモデル化
> 小学校から大学までに体育の授業以外でスポーツ少年団,スポーツクラブ,学校の運動部等,定期的におこなってきたスポーツ種目を2種目まで回答させた.
> 小・中・高・大を通して長く続けた種目ほど重要であるという考えのもとに,各段階で行った種目に◎,〇,□,△の4つの記号と何もしていない場合には×印を付与し,各個人のキャリアをパターン化し,類似したパターンをまとめ,種目の違いを生かすと5つの型(同一種目継続型,異種目継続型,中断復帰型,離脱型,不参加型)の52パターンに分類することができた.
> キャリアパターン別の各心理的要因
運転歴の詳細を、運転目的(※「運転すること自体がカッコいいから」というようなことも選択肢に含めて)と組み合わせて、52くらいのパターンにすれば、同じ分析ができますよね。運転者のプロファイリングですよね。事故のリスクや「自主返納」との相関も出てきそうですよね。(因果まではわからなくても、とりあえず実用的な分析になりますよね。)
著者は東京工業大学の「社会理工学研究科人間行動システム専攻」(当時)とのことで、さすがでございます。さすがではあるんですけれども、分析法(計算法)だけあってデータに恵まれていないといいましょうか、社会調査のセンスがないっぽいですよ。この内容(『スポーツで自信がつきました!(ごはんがうまい!!)』)では、ふーん…で終わってしまいます。さあさあ分析のフレームワークは大いに参考にして、みなさま各々の課題に適用しようではございませんか。それでこそ朝倉書店「多変量解析実例ハンドブック」にこの稿が載っていることが活きてくるのですよ。
ほかに、(目次をぜんぶ見て)2つほど目に留まりましたが、ちょっと今回の話題からは離れる感じもございますので、あしからず。
・25. クラスター分析を用いた混合性結合組織病の細分類
> 膠原病のように,疾患の境界があいまいで峻別しにくい疾患では,Aという疾患単位に属する可能性が高いが,Bに属する可能性も否定できないということも少なくない.このような対象であっても,ウォード法に主成分分析や正準判別分析を併用すれば,境界部の重複を許したサブグループ化も工夫できる.
> k-means法と呼ばれる大集団の分類に適した手法は,凝集型の階層的手法といわれるウォード法と異なり,初めにk個のクラスターを決め,その平均値を基準として分類を進める非階層的手法の1つである.樹形図の形で所属が決まるウォード法と違って,この手法はクラスターの数を与えるごとに,メンバーを選び直すという特徴がある.この手法で無作為に8個のクラスターの核を決めて8群に分割する処理を反復したところ,クラスターのサイズが,あるときは14,24,29,29,37,46,47,78に,またあるときは8,15,18,26,44,56,64,73と症例モデルの初期配置によってその都度,大幅に変わることが観察された.この事実は,この集団を8群に分類するためにk-means法を使用してもウォード法の場合と同様,再現性のある結果が得られないことを示していると考えられた.
> ウォード法,k-means法による解析にはそれぞれSAS(version 6)のCLUSTER,FASTCLUS Procedureを使用した.
この章の著者は北里大学(のリハビリテーション学科)とリハビリテーションの専門学校の先生であるので(しかも2002年より前であるので)、このような処理をしたり、考えかたをしたりということだとうかがわれます。さあ、工学部(情報)もしくは理学部(数学)のかたなら、どのように説明して、リハビリの先生を納得させることができるでしょうか。みなさんで推理してみてください!
※きわめて平易には「【考えてみよう】「カモノハシくんはどこ?」」「【考えてみよう】全国和菓子協会「和菓子の分類一覧表」」([3524])も参照。
・64. 学術論文数データに関する分割表の対応分析
> レーダーチャート
> レーダーチャート
(いくら2002年とはいえ)いきなりレーダーチャートみたいなのキターっ!(棒読み)
> 単純な折れ線グラフやヒストグラムなどの視察からも,年度の経過に伴って各国の論文数が増加する程度や,国によって分野比率に差があることを読み取ることができる.また,AI(activity index)指標をグラフ化することで国ごとの分野別論文比率の違いを検討することもできる.しかし,単純なグラフを使うと微妙な差を見落としやすく,ことに比率の差や変化を明確に読み取ることは難しい.また比較したいカテゴリー数が増えるとともにグラフは非常に見づらくなる.対応分析を使い,分割表データの行変数・列変数のカテゴリーに適切な値を与えた結果を2次元座標にプロットすることで,カテゴリー間の差異がわずかであったりカテゴリー数が多くなっても,見通しのよい図示を得ることができる.また,プロットの位置関係に基づいて,2つの軸の意味を解釈するといったことも可能になる.
> 分割表データに対して対応分析を適用すると,分割表の行と列の各カテゴリーに適切な重みが与えられ,行と列の関係が少数の合成変数に縮約される.多変数データの持つ情報を少数の互いに直交する合成変数の変動で説明するという点で,対応分析は主成分分析と似ている.しかし,(略)ユークリッド距離の2乗(略)第α正準解である.(略)集約される程度を表すのに使われるのが各正準解の寄与,すなわち固有値の合計に占めるその解の固有値の大きさである.
そこのところの説明だけ(数学の答案みたいに)異様に詳しくても、のっけからレーダーチャートを見せられてのけぞってしまった現在のわたしたち、困ってしまいます。(棒読み)
> 対応分析の計算には,STATISTICAの対応分析プロシジャを利用し,座標の標準化法として「正準標準化」オプションを選択した.結果で示す図は,STATISTICAの出力を元にExcelで作成した.
うーん。著者が国立情報学研究所のセンセイなので、もっとうーん。それなら最初から主成分分析しさえすれば&分割表になってしまってからの合計や平均みたいな値を入れて「たへんりょーかいせきっ」…えーっ!!(棒読み)それでも、JISで定められた用語「分割表」が使われているのはさすがです! 「総務省統計局なるほど統計学園では「クロス集計表」と表記されています。」については[3528]を参照。あまつさえ「レーダーチャート」については[3398]を参照しないといけません。ゼッタイですよ、いいですね?(※一部の表現は演出です。)
・2016年の状況です
https://www.jstage.jst.go.jp/article/jsik/26/2/26_2016_009/_article/-char/ja/
> 大学における研究面のアウトプットと教育面のアウトプットが,大学の異なる側面を評価している(すなわち,大学を研究と教育の両方の次元から評価・診断することに意味がある)ことの確認。
> 研究面への投資(インプット)を表す変数としては,
> 研究の成果(アウトプット)を表わす変数として,
> 教育面への投資(インプット)を表す変数としては,
> 教育の成果(アウトプット)を表わす変数としては,
> 統計解析向けのプログラミング言語およびその実行環境であるR 3.1.0を使用した
> 研究と教育のアウトプットを表す変数間で相関係数を算出した。
> 研究のインプット変数群,研究のアウトプット変数群,教育のインプット変数群,教育のアウトプット変数群のそれぞれに対して主成分分析を実施し,第1主成分スコアを抽出して,それぞれ,各大学の研究のインプットスコア,研究のアウトプットスコア,教育のインプットスコア,教育のアウトプットスコアとした。
主成分分析を4つ、独立におこなっただけで、あとはプロットしさえすれば…えーっ!!(棒読み)
> 図1 研究と教育のアウトプットスコアに関する散布図
> 図2 教育のインプットとアウトプットスコアに関する散布図
※散布図は総当たりでぜんぶ並べないといけないね。うん。4C2=6だね。うんうん。
いまでも2次元でのプロットには強いこだわりをお持ちのようでございます。しかし、多様性を認めず(少数の合成変数で表現しきれると仮定して)要約して示す方法と「多次元的」というのは相いれないんですよ。…えっ、その発想はなかったですって?(※演出です。)「多次元的」というならクラスタリングを用いての「類型化」(いわば「大学の役割」の類型化⇒どの役割を担っているかで各大学や教員をプロファイリング!)に取り組まれるべきではないかなぁ。ちょうど52くらいのパターンでね。(棒読み)とてもではないですけど平面でプロットできる(見やすく図示できる)とは思えないね。うん。(現時点での見解です。)
・[3528]
> 「分割表」はJIS(日本工業規格)で定められた用語で、英語では「contingency table(s)」と呼びますが、総務省統計局なるほど統計学園では「クロス集計表」と表記されています。なんと、総務省統計局なるほど統計学園では「クロス集計表」と表記されています。(※2回いいました。)
・[3283]
> うーん。「cos βiとsin βi」で「説明変数が2つ!」といって「重回帰分析だっ!」というのが、どうも納得できません。「方向角βi」で「説明変数は1つ!」ではないんですか?
代わりに何をすればいいのかといって、うーん。
・「多重回帰分析と回帰不連続デザイン」
http://www.jil.go.jp/institute/zassi/backnumber/2015/04/pdf/012-013.pdf
> 設定5の「500万円」を「○○効果」と呼び,多重回帰分析の目的は,この500万円をできるだけ正しく推定することであるとする。
「研究のアウトプット」における『科研費効果!』みたいな「シフト」を観測…ぐふっ(略)。それはまた別の研究所のひとの仕事ですね、わかります。(たいへん失礼しました!)そもそもリンク先の本題は「多重回帰分析」ではなく「RDD」のほうです。(かさねて失礼しました!)
> Regression Discontinuity Design(RDD:回帰不連続デザイン)は,ミクロ計量経済学における統計的因果推論において,操作変数法や差の差分析と並んでスタンダードな分析手法の1つである。RDDの最も基本的な形は,観察可能な変数Vがある閾値を超えたときに社会的状況Xが不連続的に変化する(あるいはトリートメントXが導入される)場合において,その閾値前後でのアウトカム変数Yの不連続的な変化の大きさを推定することにより,XがYに与える影響を推定することである。
・「差の差分析」(「差分の差分法(DIDまたはDD:Difference in differences)」)
https://ja.wikipedia.org/wiki/%E5%B7%AE%E5%88%86%E3%81%AE%E5%B7%AE%E5%88%86%E6%B3%95
お金と時間が同時に関係する話なら、とりあえず経済学の門をたたかないといけないと思われましょう。たのもーぅ!(棒読み)
・(再掲)「獣医学分野における多変量解析の応用」獣医科学と統計利用(1981年)
https://www.jstage.jst.go.jp/article/jve1977/1981/6/1981_6_5/_article/-char/ja/
https://www.jstage.jst.go.jp/article/jve1977/1981/6/1981_6_5/_pdf
> 多変量解析法の理論が,行列算法の知識がないと理解しにくいこと,現在まだ十分には,コンピュータ利用に関する知識が普及していないこと,地方での大型コンピュータ利用に,系統的あるいは金銭的に困難性が存在していることなど
> 「どのようなデータを,どのように集めて,どのような解析法で,どこでどうしたらできるのかがわからない」
> データ例に示したような3変量以上,さらにデータが多くなるほど,データを客観的に要約することが困難となってくる.
> この問題を解決する手段が多変量解析である。変量間の相関関係あるいは類似性などを考慮しながら,P種の変量の持つ多面的な特性を,理解しやすい最少次元へ客観的に要約する手法である。
じぶん、意味のあること(データの採りかたや分析)をしているのかどうかというのは、常に吟味いたしましょう。…ギクッ。そこがいちばんむずかしいのですよ。
| |