・「資料の整理と活用」を学びなおす ・ツイッターに紛れて「鋭くさえずる人」を見つけるには
(約9000字)
「「ドスパラ調査」を読み解く(仮)」([3088],[3142])も事前に参照ください。本件ヤフーでは(単独の)調査が行われていないので、単に「報告」(データを用いた評論:レビューの類)だと位置づけられましょう。
・ヤフー「日本は2つの国からできている!?〜データで見る東京の特異性〜」(2016年3月8日)
http://docs.yahoo.co.jp/info/bigdata/special/2016/01/
> 一人の人が一年間に電車を利用する回数(※)を横軸、マイカー通勤・通学率を縦軸にとり、47都道府県をマッピングしたものです。
> 出所:
> 電車の年間利用回数は国土交通省旅客地域流動調査(2013年)と総務省統計局の都道府県人口(2013年)を元にヤフーが算出
> マイカー通勤・通学率は国勢調査(2010年)
> ※注
> JR、私鉄、地下鉄などを乗り継いだ場合、鉄道会社ごとに1回とカウント。行きと帰りは別々にカウント
> 東京の人は年間で何と800回以上も電車に乗っていることがわかりました。
これはひどい『簡単な割り算!』([3046])ですね、わかります!
・DATA.GO.JP「貨物・旅客地域流動調査 旅客地域流動調査 平成25年分」
http://www.data.go.jp/data/dataset/mlit_20150903_0151
・国土交通省「貨物・旅客地域流動調査 統計の作成方法」
http://www.mlit.go.jp/k-toukei/ryuudou-chousa/chousahouhou.html
> この調査に使用した原資料及び調査要領は次のとおりです。なお、この調査に使用したデータには、2地点相互間の輸送量が方向別に区分されずに合算されているものがありますが、この場合、2地点間の往・復数量は等しいものとみなして折半処理しています。
> 旅客鉄道(株)6社の平成25年度地域流動データ
・国土交通省「国土数値情報 交通流動量 貨物・旅客地域流動量データ」
http://nlftp.mlit.go.jp/ksj/gml/datalist/KsjTmplt-S05-d.html
> 集計表をもとに、都道府県県庁所在地等を結ぶラインデータを作成し、流動量を属性情報として付加した。
> 旅客地域流動調査の集計結果に示される、地域相互間旅客輸送人員OD量
> ■ 完全性/過剰・漏れ: 誤率0%
> 交通流動量の原典資料(発生・集中量、パーソントリップOD量、パーソントリップゾーン、駅別乗降数、旅客地域流動量、貨物地域流動量)と対応関係がとれないデータが存在すれば、それをエラーとする。
「統計の都合上」、定期券は定期券、きっぷはきっぷといって厳然と区別され、定期券に限れば、ほぼ「通勤・通学」を網羅できるとみなせます。漠然と「合計」を用いて「赤ちゃんからお年寄りまで」とするのは、ヤフーの検索ログの属性(推定された年齢や職業)への(レポートを書くチームからの)アクセスが許可されなかったからではないかと邪推しますが、いえいえ、そこは「しかじかで、通勤・通学の世代に絞り込んだログがほしい」といって、データ処理を『お願い』しなければならないでしょう。(そこをサボってはいけませんよ、の意。)
また、「通勤・通学の手段の比較」ということならバス(乗合バス)も入れないと対等な対照にならないだろうと思われます。
そして、生のODデータ(平たくは自動改札機による全量データ:駅別)が「都道府県」の「相互間」の「輸送人員表」に加工される段階では、なんと「都道府県県庁所在地等を結ぶラインデータ」に絞り込まれている、すなわち、例えば「東京−千葉間」といって、その実、千葉市内の駅と東京駅の間における、例えば総武快速線や京葉線の路線としての輸送人員という形に変換されている(もともと統計をとる目的を考えれば自然なことです)ことが想像されます。(正確には理解できておらず恐縮です。)
「千葉」といっても、千葉市外から千葉市へ通勤・通学される(ラッシュ時に千葉駅や西千葉駅などで降車される)流動は入っていないのではないか、あるいは、柏市から東京都内へ向かう流動は、「東京−茨城間」の(常磐線の)流動に合算されるのではないか(統計としては、常磐線の列車が「超満員!」で日暮里駅に(1本ではなく何本も)続々と到着し続けるところに関心があるわけです、たぶん:柏から乗ろうが水戸から乗ろうが日暮里駅の混雑をなんとかせねばという目的の上では区別する必要があまりないということかなぁ、と思われましょう、の意)、といって、とても注意深く見ないと統計を「活用」できないとわかります。
つまり、大都市圏ではラッシュ時に、ほとんどの流動が中心地(東京・大阪・名古屋・福岡・仙台・新潟・長野など[3023])へ向かうという前提で、その混雑をなんとかするばい(がんばるぞい≒できることには限界があるのであまり期待しないでくれるとうれしいな、のソレ)といって、方面ごとの流動を知りたいな、そうすれば、各路線をどのくらい増強すればいいのかわかるべさ、というのが「旅客地域流動量データ」だということだと早合点できましょう。とはいえ、横浜市やさいたま市に向かう流動も多いので、「対東京」だけでなく「都道府県間」をぜんぶ見ましょうということになっているのだろうと想像できましょう。
都道府県内で完結する通勤・通学の流動(通学のうちかなりを占める高校生の大部分や、小さな大学、市役所や学校への通勤、地元企業や工場への地元からの通勤)が、まるっと統計に入っていない(⇔「都心部の混雑緩和」という課題に対して必要とならないデータである)ことに…気づきたいなぁ、と思われないでしょうか。そうですか。(本当にそういうデータなのか確認できていません。恐縮です。詳しいかたにフォローいただきたいです。)
・[3023]
> 記事を読み返すと「同社」とあり、今回の分析対象が大阪近郊だけでなくJR西日本の「管内全駅」と読み取れます。大阪だけでなく、京都に神戸、奈良も岡山も広島も含んでの数字であることになります。同様に他の地域についてもJR東海の管内でいえば名古屋と静岡、JR東日本の管内では東京、横浜、埼玉と新潟、仙台、長野などが「飲める都心」でしょうから、ほぼ、東日本と西日本で半々、残りが名古屋、そして博多や小倉など、という比率で分布しているのではないかと想像されます。(あくまで想像です。)
都心(副都心や新都心を含む)で飲んでからギュウギュウの終電でくぬぎ山(あくまで比ゆです!)を越えて帰るというソレ(名状しがたいライフワーク…いえ、ワークライフバランス…いえいえ、ライフスタイルのようなもの)に疲れたら「とかいなか!」…いえ、「いなかみらい!」…いえいえ、「半(han)田舎暮らし!」(富里市[3183])だということです。本当でしょうか。そして、つくばみらい市や富里市に住んでもなお、やはり東京都内に向かって通勤・通学(仮に通勤は県内になっても、子どもの通学先は都内も候補になるでしょう:マイホームの近くにいい学校がありますか? とシビアに問われます)するんだということで、さほど、「セカイが真っ二つ!」というほどではないように(連続的に分布しているように)感じられてくるのではないかなぁ、といって、くぬぎ山のほうなど眺めてみます。
☆「資料の整理と活用」を学びなおす
このフォーラム(※)でも、先の冬休みには期間限定で「【徹底合格CP】できる!「資料の整理と活用」」と題した「まとめ読みのためのリンク」をトップページに設けてございました。このリンクの説明文には「身近なデータで「資料の整理と活用」を鍛えてバッチリ。11歳から13歳のかたへ贈ります。大きなかたもどうぞ。」と書いていたのですが、ご覧いただけましたでしょうか。
・[3142] インプレス「「スタバでMac」は都内だけ?」を読み解く(仮)
・[3143] 「エリア別集計」の落とし穴 / ほか
・[3088] 「ドスパラ調査」を読み解く(仮)
・[3102] 自由研究そしてポスターと実験ノート
・[3101] 「ドクターイエロー博士」を読み解く
・[3046] 「田植え休み」と視聴率〜68年目の学習指導要領
・[3099] 「分ける」はなし、「分けない」はなし
・[3081] 「2520億円!」を(ややトリッキーに)読み解く
・[3061] 「TOEIC」を「CEFR」で読み解く
・[3139] 「いつも異なる需要に最適化して電車を運行できるよう、ダイヤをリアルタイム生成するような時代」を読み解く(自)
※通常は「16歳以上対象」であります。
・「資料の整理と活用」
http://www.ajhs.wakayama-u.ac.jp/?action=common_download_main&upload_id=155
いま、既に企業等でバリバリの人にあって、▼自分は(学校では)勉強していない、▼簡単そうに見えても、きちんと勉強しないと(きちんとは)できないことなんだ、という認識を持っていただかないと困ると思っています。(見解は個人です。)
企業での「TOEICスコア」の扱われかたなど見ましても、かなり「エラい人」にあって統計や確率、ひいてはテストの設計など、ほとんど関心がないんだなぁ、とうかがわれます。いえ、「人事」が「人事に都合よく」決めた「ボーダーラインのようなもの」が「上がってきた」のでハンコを押した、それによって「人事」が「ひとりあるき」し始めた、とも読み解かれそうです。まだまだ「渦中の栗は痛い!」状態(※)にあり、後世、(社会学や法学の立場から)検証されていくのかなぁ、とオボロゲに期待されます。
※「渦中の栗は自分が渦中にあると気づけないっ! あまつさえ自分がうずしお…いえ、『ビッグウェーブと呼ばれる波』に乗っていると誤認されるっ!」「『渦中の外の渦外』から見れば痛いっ!」という気分です。(あくまで気分です。)
そして、狭い意味での「資料の活用」すなわち数学科の単元として、平均だけでなく中央値や標準偏差、正規分布や対数正規分布を学んで、対数グラフを描いて…という、どこまでいっても数学であるという一種『枠』(これを指して「第1種枠」などと…略)を飛び出さない範囲の勉強だけでは、まだ「資料の整理と活用」を完遂するには足りないとわかります。
レポートを書こうとして探して見つけて持ってきた統計が、いかなる目的で(Why)、いかなる主体によって(Who)、いかなる方法で(How)、いつ(When)、どこで(Where)、具体的には何を調べたのか(What)という、「新聞部!」もかくやというソレを読み解く読解力が、数学と同じくらい重要だとわかります。さらに、それぞれの項目において、自分がレポートでまとめようとしていることと整合が取れているのか、何か補う必要があるのか、見比べるというところは、高校までには授業としては取り上げない部分ではないかなぁ、と想像します。
統計の足りない部分を、自分たちの観測値で補って、というのはシミュレーション([3097])に片脚を載せてただちにズルッとすべるようなソレです。「ヤフー報告」を見て、そこに、レポートの筆者がズルッとすべって後頭部を「きょう打」したようすを見てとり、思わず「大丈夫ですか?」と「お声がけ」したくなるというのが、大方の(ツイッターではつぶやかないオトナの)見かたではないでしょうか、たぶん。
・[3097]
> この統計と別の統計(例えば他社の統計や、自分たちの実地調査で得られた部分的な観測値、あるいは経験的に知られている傾向など)を組み合わせ、「酔客が絡む事故では遅延時間は短くないが、朝ラッシュ時ほどには遅延時間に対する影響人員が少ない」のは本当かどうか(どのくらい本当らしいか)を検討したり、「事故が起きる日は立て続けに事故が起き、相互に影響し合って遅延時間が極端に増える」と仮定して、ならば「事故の発生確率」でなく「同じ日に複数の事故が起きる確率」を使わなければ正しく推定できないんだ、などと議論したりする、そうしたときに使うのが、モンテカルロ法などの手法(再標本化法)ではないでしょうか。
商学系の学部で(学部のうちに)何をどのくらい学ぶのかわかっていないので恐縮ですが、仮に、習っていない人のほうが多いからこそ、専門職大学院でこれに取り組むんだということだろうと早合点されます。(あくまで早合点です。)しかし、そこでの教え方が「エクセルでサイコロ!」だという…なんということでしょう!(見解は偏見で個人です。)
☆ツイッターに紛れて「鋭くさえずる人」を見つけるには
ツイッターな界隈で、「おもしろい」「わかる」「それある〜!」を除く内容をつぶやいているかたを探してみます。(恐縮ですが「紋切型」なかたは除きます。)
・ツイッター
https://twitter.com/nakaken88888888/status/707701521312395264
> 東京の検索が多いのは、ホワイトカラーが多いからかな/東京の会社で車通勤OKのところなんてすごく少ない。駐車場スペースを確保するのが難しい。駐輪場ですら難しいイメージある。
・ツイッター
https://twitter.com/Fragarach/status/707681785623089152
> ビッグデータってこんな高校生の宿題みたいなもんだっけ…
・ツイッター
https://twitter.com/Xatz/status/707679812765097984
> 二つというか、データの見方によって幾つもの動向に別れるのよね
・ツイッター
https://twitter.com/junkimarui/status/707607112164114432
> なんか特に発見もなんもないレポート過ぎて、ヤフーはこんなことのために顧客データを覗けるのかあとため息が出る。
・ツイッター
https://twitter.com/Sa1Kik/status/707400942249881601
> やっぱり八王子は東京じゃないは。
・ツイッター
https://twitter.com/pullphone/status/707550707692351489
> 3路線乗り継ぐのが通勤経路なら200日働くとして600回電車に乗ってるっていうカウントかこれ、そらそうなるよ
・ツイッター
https://twitter.com/SineWave_jp/status/707560793013821440
> まったく同感。これ↓の図2のグラフの書き方はイラッとくる。
・ツイッター
https://twitter.com/kohske/status/707549185294225408
> 図2が折れ線な時点で見る価値なしと判断して読むのをやめる
※「『不都合な折れ線グラフ』事案」については[3050]も参照。
・ツイッター
https://twitter.com/snow_rabbits/status/707545145143648256
> 東京は西部でも公共交通網がしっかりしてるし車を持ってても駐車料とか渋滞に悩まされるだけだからそりゃそうよ
・ツイッター
https://twitter.com/lhankor_mhy/status/707534360765796352
> この辺の地域ギャップで一番びっくりしたのは、「運転代行」を知らない都民がたくさんいたことだね。/ 世界の都市圏の中でも最大級の面積の東京圏。公共交通がなくなればいくつかの都市圏に分裂すると思う。
・ツイッター
https://twitter.com/fmktkch/status/707509295605096450
> ちなみにYahoo!で検索したことはほぼないのでそこんところも本当は宜しくお願いしたい。
・ツイッター
https://twitter.com/jakuon/status/707479071593107457
> 自動車メーカーへの関心が全国で一番低い東京でやるモーターショーが全国各地で開催されるモーターショーの中で一番規模が大きくて話題性が有るという矛盾。
・ツイッター
https://twitter.com/chabane/status/707464668391022592
> そこまで東京だけ違うもんか。都内で車持ってる人がレアなのは確かだけども
・ツイッター
https://twitter.com/kentarofukuchi/status/707462902580699136
> 聞いた話。電車の臨場感を再現するVRシステムの評価実験で、評価は悪くないものの、被験者みんな東北大の学生でよく聞いたら「最近電車なんて乗ってない」のがほとんどだったとか。
・ツイッター
https://twitter.com/call_me_nots/status/707453490277253120
> 「PCのみ」に限定した理由は何かね
・ツイッター
https://twitter.com/uto_0630/status/707433161236619264
> 多摩エリアは車社会ですが?
こういう検索を「かんたっち!」…いえ、「たっちすてぃっち!」…いえいえ、「わんたっち!」でできるかのような錯覚のできる検索UIをば…といって、六本木のほうなど眺めてみようと思いました。
・「たっちすてぃっち!」(1,680円)
http://www.amazon.co.jp/dp/B001FWY7UG
・Google Street View 「Base6」付近
https://goo.gl/maps/x6WAsdkSnru
CS(コンピューターサイエンス)の院生(ただしドクターに限る)からは、興味は持たれても応募や採用にはほとんど至らないということです。いやー、やはり目指すならMSRAですよねぇ、といわれそうです。本当でしょうか。
・インプレス「人工知能、機械学習の最前線では何が研究されているのか〜日本マイクロソフトがラウンドテーブルを開催」(2016年2月23日)
http://pc.watch.impress.co.jp/docs/news/20160223_744816.html
> 丸山氏は、従来のプログラム開発は、ものづくり的考え方に基づいたプロセスで行なわれており、プログラムが動作するためにどういう要件が必要なのかを、プログラムを作成する前に考えているとした。
> これに対して、機械学習を用いれば、入力と結果というペアを与えれば、自動的にプログラミングすることが可能になるという。
> さらに、強化学習を用いれば、システム作ったあとに、結果が求めるものではなかった場合、自動的にシステムを修正し最適化を行なえる。
> 丸山氏は、「例えば、顧客からシステムの作成後に『求めているものではなかった』と言われた場合でも、自動で修正できることになる」と述べ、機械学習はAIとしての利用だけでなく、そのほかにも素晴らしいポテンシャルを持った技術であるとして締めた。
※「ソフトウェアをきちんと作るというのは,きわめて知能的なことだ.したがって,ソフトウェア工学は,究極的には,人工知能と連携するしかない.」[3166]も参照。
・インプレス「撮影写真に洒落たコメントを自動的に生成〜米Microsoft Researchで最新研究成果を見る」(2016年3月7日)
http://pc.watch.impress.co.jp/docs/column/gyokai/20160307_746902.html
> 現在では、年間110億ドルの研究開発予算を投下。コンピュータサイエンスやソフトウェア工学の分野から、基礎研究および応用研究を行なう一方、大学の研究室などとの結び付きも強く、共同研究を行なうケースも増えている。
> Microsoft ResearchのチーフサイエンティストであるRico Malvar氏は、「Microsoft Researchには、Microsoftの全社員のうち、わずか1%の社員しか在籍していないが、Microsoftが取得するパテントの15%がここから出ている。中には、コンピュータウイルス対策の技術を活用しながら、エイズワクチンの開発に応用する技術研究も行なっている」としながら、「Microsoft Researchでは、研究プロジェクトの成功率は追求していない。また、ROIも追求していない。むしろプロジェクトのほとんどは失敗する。大切なのは早く失敗して、次の研究開発に活かすことである」と、基本姿勢を示す。
> 早く失敗して
> 早く失敗して
※失敗を失敗と認識できる「知見のようなもの」が先に身についていないと、意識して「早く失敗」することすらできない、自ずから「成長のようなもの」の「名状しがたい天井のようなもの」を自分(たち)でつくってしまうことになるともいえそうです。本当でしょうか。天井については[3006]、「認知の壁」については[3025]を参照。「研究室で焼きそば」については[3082]を参照。あわせて「視点を定めず全体をポヤンと見ると自然と浮かび上がってくる」([3168])もそれとなく参照のこと。(恐縮ですが、何と何をあわせて見るべきか(See Also)については、こちらから提示いたします。見たいものだけ見ているようではだめですよ、の意。もっと恐縮です。)
|