フォーラム - neorail.jp R16

いま問うA9のココロ
信号機のG現示の色がこんなにメロンソーダなわけがない
ATC・ATSの「Aの字」も出さずに効果音と動作を実装するには
「場内信号機 作り方」「信号機に名前をつける機能」とは


発行:2017/12/7
更新:2019/3/30

[3583]

【縦書きディープなラーニング(※表示は横書きです。)】 【鉄道と情報】

JR西日本「データ分析コンテストの開催」を遠目に眺める(談)


メカニズムの理解なくして「分析」と呼ぶべからず?(仮)
あえて大阪書籍「現代数理科学事典」(1991年3月)をひも解く(紐)

(約69000字)

 [3582]に関連する話題です。

・JR西日本「データ分析コンテストの開催」(2017年12月1日)
 https://www.westjr.co.jp/press/article/2017/12/page_11563.html
 https://deepanalytics.jp/compe/58

※おことわり:本件コンテストの実施に影響しないよう、チュートリアルを超えない範囲の言及に留めます。…というより、そもそも入賞者を左右させるほどの影響を(わたくしめが)与えうるわけがないと思って言及します。

 > 当社は株式会社****が株式会社****と連携して運営するデータ分析オープンイノベーションプラットフォーム「********」において、走行中の北陸新幹線車両台車部への付着する雪の量(以下、「着雪量」)を予測するモデル作成をテーマとしたデータ分析コンテストを開催します。

 「着雪量」というと数字にしか見えない(?)んですけど、つららですよね。つららって、小さなつららというか水滴の凍ったの(?)みたいなのがあると成長するってことですよね。むしろ降雨やスプリンクラーで濡れているから着雪していくんですよね。(※気象庁のページに「着雪注意報」の解説ございます。)この一連の(自然現象の)メカニズムについて実感があるのとないのとでは、大きな差がついてきそうです。一度とけた冷凍食品をもう一度凍らせないでください。霜がついた冷凍食品は食べないでください。…食べないよっ!!(棒読み)

 > 過去の気象条件・列車の走行条件と着雪量のデータを分析し、任意の列車の着雪量を定量的に予測するモデルを作成していただきます。これによる精度の高い着雪量予測を用い、列車の着雪除去の要否判断の一助とすることを目的としています。

 「データ分析コンテスト」なので、基本的には「あくまで数字」として見るだけで解ける(※「ドメイン知識」に頼ってこしらえた重みベクトルみたいなのとか場合分け(変数選択)みたいなのを入れるとかえってデータを活かせなくて大外れみたいなのが出てきて平均では悪化するというような)問題(および評価関数)になっているということですね、わかります。(棒読み)

 > 残り55日
 > 応募人数 18人

 > 解析手法

 複数選択ですね。なるほどねぇ。…実になるほどねぇ。(※次回は締め切り後に内訳を見たいと思いました。恐縮です。)

 > other 22.4%(11)
 > Neural Network 20.4%(10)
 > Regression 12.2%(6)
 > Deep Learning 10.2%(5)
 > Boosting 8.2%(4)
 > Extremely Randomized Trees 8.2%(4)
 > Linear Regression 8.2%(4)
 > Logistic Regression 4.1%(2)
 > Random Forest 4.1%(2)
 > Alternating Least Squares 2%(1)

※▼Alternating Least Squares:…テンソルてんそるぅ。▼Extremely Randomized Trees:…あなた使ってみたかっただけでしょ! リアルタイムデータじゃないんですからぁ。▼Neural NetworkおよびDeep Learning:観測点もデータの種類も少ないのにソレですかっ。▼Boosting:ハレでも(ざーざー)アメでも(ごろごろ)アラシでも(ぴよぴよぴよ)天気といえばアンサンブル学習☆すたぁ…ずぅ。気象庁のデータに頼らずにじぶんで天気予報しちゃうつもりですかっ&気象予報士は取ったんですかっ。▼各種線形回帰ございますみたいなの:それをベンチマークというのですよ。(※意図的に「ぜーんぶだめ! ぜんぜんなってないわ!!」みたいなのを演出しています。惑わされずにコレと思ったら実装してください&恐縮でした。)

 > 専門分野
 > Machine Learning
 > Time Series Analysis
 > Data Mining
 > Natural Language Processing
 > Computer Vision
 > Optimization
 > Information Retrieval
 > Database
 > Distributed Computing
 > その他

 うーん(略)。あまり「専門分野」に自信を持ちすぎているとだめっぽい課題ではありそうだと思いました。(メロン部…じゃなくて、「車両台車部」そのものの温度や列車の速度(風圧)という「JR西日本殿に起因する人為的な事象等!」を除き)自然現象が相手なので、ほとんど物理(シミュレーション)そのものみたいなアレだと思いますけど、そのためにはデータがぜんぜん足りてないっぽくないですかねぇ。…いやいやいや! だから推定させるんでしょ。とはいえ、「出たとこ勝負!」みたいなコンテストになってしまうと「食味計」([3519])からの「マルチ味度メーター」([3576])と同じレヴェルで(数理的に)はにわ!(※はにわはイメージです。ご乗車にはなれません。「イチゴメロン味」からの「卓越風」「風配図」「微地形」については[3403]を参照。)

 > 2017年12月5日(火)
 > 評価関数画像を正しい表記に変えました。
 > 精度評価は、評価関数「weighted mean absolute error(WMAE:重み付き平均絶対誤差)」を使用します。

 > 未来の情報は利用禁止
 > 予測対象日の午前4時に取得可能な情報のみ利用可とします。
 > 列車の着雪除去の要否判断の一助とすることを目的

 午前4時に判断して当日の人員数を調節する(主に減らす⇒別の業務や別の曜日に割り振る)ということですね、わかります。ナウキャストで急な降雪がわかっても人員配置が手配できないよっ。…そっちですね、わかります。着雪量がスプリンクラーだけで間に合うか間に合わないかという(以下略)おおっと。(※演出です。)

 > これ以外の列車は、金沢駅で折返し運転のため、金沢駅における着雪量は不明です。

 「御社」としては東日本旅客鉄道殿のことは知らない(上越妙高駅で下り発車時の着雪量というデータは東日本の管轄だ)ということでよろしかったでしょうかみたいな(略)。実は「【長野県・群馬県の全域に大雪注意報】」みたいな、きわめて簡潔なカテゴリー変数みたいなのとの相関がいちばん高いかもしれ(略)おおっと。(※演出です。そんな雑な話では話にならないよっ。)帝国書院…じゃなくて、東海テレビ「札幌から名古屋です」「大阪から那覇です」については[3533]を参照。

 > 乱数を利用したモデリングの場合の乱数シード(再現性確保のため、固定シードでのモデル推定にご協力下さい)

 > 気象学と鉄道オペレーションの両面に関わる分野なので、非常に難しい問題となっている可能性がありますが、皆様のアイデアや技術力・クリエイティビティを活かし、革新的な方法で解決策を見出し、鉄道オペレーションの品質を向上させていきたいと考えています。

 気温が0℃前後(略)おおっと。(※あくまで演出であり、ちょっと気象庁のページを探せば誰もが見つける「公知の」知見です。)そして、気象と鉄道は同じ省の所管でしょ。…その発想はなかった!(棒読み)

 > 副賞:鉄道会社ならではの副賞をご用意いたします
 > 副賞:鉄道会社ならではの副賞をご用意いたします

 > 副賞 西日本旅客鉄道株式会社関連施設のスペシャルアテンド

 …ゴクリ。(違)賞金だけで200万円も用意しなくても、東日本旅客鉄道殿がわざわざ豪雪地帯と呼ばれる新潟で運行してきた上越新幹線、わざわざ豪雪地帯と呼ばれる新潟で運行してきた上越新幹線(…なぜに2回いうし!)で得られた知見を融通してもらいさえすれば、とりあえず間に合う話ではあるわけですよ(=そういう意味では現に間に合っていて「切迫感」がない、の意)。そうでなくても統計数理研究所(統数研)「共同研究スタートアップ」([3330])を活用なされば、本質的には「無料で」(※「む」にアクセント)課題は解決することが明らかであるので、むしろ「本職のかたの応募は無効です」とか「発表会」での発表も採点の対象にするとか、ひいては「達成型」の評価といいましょうか、「金賞」とかを決めるんじゃなくて、「合格証」を授けるような、あくまで研修っぽい評価(※応募者の採点)のしかたにしないとですよね。…その発想はなかった! K府立大「高校生懸賞論文の審査」については[3564]を参照。

・Google てっぱく「東日本旅客鉄道殿がわざわざ豪雪地帯と呼ばれる新潟で運行してきた上越新幹線」のイメージ、「わざわざ豪雪地帯と呼ばれる新潟で運行してきた上越新幹線(…なぜに2回いうし!)」のイメージです
 https://goo.gl/maps/NVe495iV3Cv

・YouTube 北陸新幹線「糸魚川駅」通過です(2016年1月24日)
 https://youtu.be/wmNecNFKE4U?t=2m50s




 映像のいちばん最後、くもったレンズに大きな水滴がポヤンとできる(ついたのでなく「できる」)ところがみどころですぞ。(棒読み)

・YouTube 北陸新幹線「新高岡駅」通過です(2016年1月24日)
 https://youtu.be/HNBjxxHT228?t=2m7s




・北國新聞「新幹線に付く雪の量を予測 JR西、コンテストで募集」(2017年12月2日)
 http://www.hokkoku.co.jp/subpage/K20171202303.htm

 > 参加者は過去の気象データや走行区間の地理データなどの提供を受け、来年1〜3月に金沢駅を出発する車両が富山駅到着時に付着している雪の体積を予測するモデルを作る。

 > 応募は来年1月末まで。同2月中旬に入賞者を決定する。

 …!? 来年3月分の予測の精度は問わないというか、そもそも西日本管内の北陸新幹線、3月の雪はアレだと、そもそもアレだから3月に雪の予報が出たら人員を張りつけますよと(略)おおっと。(※あくまで演出です。)偏見かもですけど、北陸先端大で3年目くらいのひとみたいなひとに「地の利!」みたいなのがありそうな分析課題に思えてきそうです。さあさあ金沢駅にマイカーを乗り付けて入場券を2時間おきに1枚お求めになって&駅員さん駅員さんいぶかしげ! 上から下までジロリ(中略)実物を1度も見ずに予測モデルだけいじるというのも、なんだかなぁ。「よく観察し」というのは、先入観がー(↑)というのとは別のことだと思うんですよ。うん。(※個人の感想です。)

・名状しがたいじゃい…いえ、「北陸先端大 バス」検索結果のイメージです
 https://www.jaist.ac.jp/top/access/
 http://www.jaist.ac.jp/misc/mail-list/jaist-ml/JAIST-ML-FAQ01.html

 たとえば、きみが北陸先端大へ行くとする。いろんな乗りものや道すじがある。…ドラえもんの有名な図を反転したみたいな図ですよね。(違)

 > 昔発行された昭文社の地図で、「北陸先端科学奇術大学」と誤植されたものがあるんですよね。

 MS-IME(※大文字)がー(↑)…ぉぃぉぃ!! あなたATOKでカナ入力ですね、わかります。(※ATOKは推察です。やーい一太郎な文化圏ーっ。)「放送大学学園様」([3406])…じゃなくて、「放送大学学園法に基づく放送大学」からの「沖縄科学技術大学院大学学園法に基づく沖縄科学技術大学院大学」については[3566]を参照。わあぃじゃい×す! さあさあ超サイバーな岡本太郎記念現代芸術振興財団公認商品「ぱらぼーら!(きらーん)」(※仮名)についても[3566]を参照するのですよ。

・Google ストリートビュー 北陸新幹線「福井駅部高架橋」付近の「止マレ 止マレ」のイメージです
 https://goo.gl/maps/orKCUGnrFDL2

・テーブルマークの見解です
 https://www.tablemark.co.jp/inquiry/qa_reishoku.html

 > 何らかの温度変化を受けて凍結状態が緩むと、食品中の水分が表面に出て霜や氷となります。霜がたくさんついた商品は、品質が劣化している可能性が高いので、お召し上がりになることはおすすめできません。

 > 冷凍食品は食品の組織を壊さないよう急速凍結をしています。一度解凍したものをご家庭で再び凍結させると、ゆっくりと凍る「緩慢凍結」となり、食品の組織が破壊されて品質が損なわれますので、再度凍結させることはおすすめできません。

・YouTube JR西日本(※公式です)
 https://www.youtube.com/watch?v=V9Bry8py4yA



 http://www.westjr.co.jp/press/article/2014/11/page_6430.html
 http://www.westjr.co.jp/press/article/items/141119_00_hokuriku_taisaku.jpg

 > 北陸新幹線では、高架橋上や高架橋下に雪を貯めるスペースを設けており、積雪が多いときには、夜間に線路上の雪を除雪作業車で除雪します。なお、一部の豪雪地区では、スプリンクラーや高架橋を覆うシェルターを設置しています。

 > (図より)
 > 貯雪スペース
 > 軌道をかさ上げ

 > 列車や除雪作業車で除雪

 いわゆる「一定間隔で走らせ続けることが最大の除雪です!」みたいなのですね、わかります。

・YouTube 北陸新幹線「飯山トンネル」付近(※開業前)
 https://youtu.be/5aO0g2GY_xE?t=36s




・スーパーえむジンせんせい「Rと時系列(1)」
 https://www1.doshisha.ac.jp/~mjin/R/Chap_33/33.html

 > 時系列データにトレンドを含む場合は、差分操作で線形関係のトレンドを除去することができる。

 > 時系列では、平均、自己共分散 (autocovariance)、自己相関 (autocorrelation) と呼ばれる統計量がある。

・日経BigData「データの自己相関を調べる」
 http://business.nikkeibp.co.jp/atclbdt/15/recipe/102100010/

 > キャベツへの支出は前日のデータと相関することがわかる。このような、自己相関がある時系列データで回帰分析を行うと、決定係数が非常に高く出る場合がある。こういった場合の回帰モデルは有用とは言えないので注意しなければならない。

 > 統計分析は正規分布を仮定していることが多いのだが、自己相関があるデータは正規分布とならない場合がある。そのため、時系列データの場合は、前処理を行ってデータを仮定に合わせる必要がある。時系列解析においては、このような前処理を行わずに、回帰分析等を行うと、非常に見栄えのよい結果を得られる場合がある(例えば、日経平均との相関が0.9等である)。

 > もちろん、そのようなこともあるかも知れないが、経済データや社会におけるデータにおいては、実際はかなりまれである。多くの場合、ヒストグラムを描いて正規性をチェックしたり、差分をとったりすると、途端に通常のデータと同じになる。時系列データの性質と処理方法を知っているだけでも、誤った解釈を招きかねない分析結果を生むことを避けられるのである。

 「「いちご」「キャベツ」「きのこ」の間では「いちご」を摂ったので「キャベツ」は摂らなくていいんだとはいえない」については[3398]を参照。

・かみつたセンセイ「ブースティング」
 http://ibisforest.org/index.php?%E3%83%96%E3%83%BC%E3%82%B9%E3%83%86%E3%82%A3%E3%83%B3%E3%82%B0

 > 代表的なアンサンブル学習の手法で,クラス分類問題を扱う.

・あえてウィキペディアで「テンソル」を引いてみる(談)
 https://ja.wikipedia.org/wiki/%E3%83%86%E3%83%B3%E3%82%BD%E3%83%AB

 > ベクトル空間のテンソル積の元としてテンソルを定義する

 > おそらく工学でテンソルが最も活用されているのは応力テンソルとひずみテンソルだろう。これらは2階のテンソルで、4階のテンソルである弾性率テンソルによって一般の線型的な素材に関連づけられている。

 > 物理学者や技術者たちはベクトルやテンソルが(勝手に選べてしまうような)座標系に左右されない概念としての重要性を認識した。同様に、数学者たちは座標表示することで簡単に導けるようなテンソルの関係があることを見いだしている。

 > 現代流の成分によらないベクトルの概念によって、成分表示にもとづく伝統的な(しかし、初学者にベクトルの概念がどんなものかを教えるには有効な)取り扱いが置き換えられるように、この取り扱いは成分にもとづく取り扱いをより高度な考え方によって置き換えることを目的としている。

 並べ替えただけで、なんかわかりやすげ〜(↑)な感じに見えてくるんですけど。…気になります!(違)


☆メカニズムの理解なくして「分析」と呼ぶべからず?(仮)


 ほかのコンテストも眺めてみます。(恐縮です。)

・「気象データによる鉄道支障予測」のイメージです(2014年6月26日)
 http://www.opt.ne.jp/column/service/detail/id=2329
 https://deepanalytics.jp/compe/2
 https://deepanalytics.jp/compe/2?tab=compesummary

 > 応募人数 48人
 > 評価はAUC(Area under the curve)を使って行い、AUC値の高い予測を提出した参加者様を上位とします。

 > 「気象データによる鉄道支障予測」の入賞者3名は、それぞれ、(1)変数選択、(2)モデル、(3)後処理に工夫をしていました。

 …あたりまえすぎるって、こうですかっ。(棒読み)2位のかたがまともです(アンサンブル学習の素性としてなるべく毛色の違うのを並べて…ですよね)。3位のかたの「(じしょー)変数選択法みたいなの」がモデルベースであればスバラシイ。しかし実務では1位みたいなひとが「インテリジェントエイヤ!!」…うーん。あくまで初期ですけど、コンテストの実施者が「素」で「みなさんのお知恵をお借りできれば」みたいなテイストで講評している(ようにしか見えない)のって、…なんだかなぁ。

 「データ分析コンテスト」の目的は、応募要項のあちこちに断片的に書かれている通り、「再現性」「汎用性」のある方法を(模擬)提案してほしい(=そういう提案ができるような人材が育ってほしい)ということにある…と読めました。今回のデータでたまたま評価関数がわずかによかったといって、この(評価関数でいう)1位のかたのような方法を(応募者に対する総合評価として)1位とみなしてしまうことは、きわめてアレだと…思うんですよ。(※思うだけです&恐縮です。1位そのものはおめでとうございますです。ええ。)

 翻って、▼「評価関数」を絶対視する(リニアに応募者の評価とする)のはアレだと、▼「評価関数」のランク分けみたいなの(「不合格」とする線引きなど=ベースラインそのものでない)をしたうえで、▼「くふう」をきちんと採点していただきたいのだと、たぶんこういうわけです。いわば、ほぼ明治大学「5つの評価項目」([3564])みたいなのそのまま、「小論文」が「データ分析」に代わっても同じように「採点」してほしいと、そういうわけです。

[3041]
 > なんでも性別や利き手に帰結させるのは「血液型占い」並みだと思いますが、統計的に差があるのであれば、期待してよいのかもしれません。それでも、なぜそういう差が出るのかというメカニズムが解明されるまでは、本当の意味では期待してはいけない(狭くは採用や昇進に加味してはならない)ことだといえます。

[3574]
 > 「風雲! 衣笠城の支城」([3564])も思い出していただきながら、理科の模型みたいな地形でメソッド…じゃなくて、メソγスケール(南西から北東へ約10km)な天気のメカニズムがよくわかるとはこのことだよ。(棒読み)

[3399]
 > 現実の事象のメカニズムを考えないまま機械的に(略)実装して『1丁あがり!』というのも、…なんだかなぁ。

[3425]
 > > 数ある身近な発光現象の中で,雷ほど未解明な課題が多く残っているものはないのではないだろうか。地球上で1秒間に40〜100回も起きているといわれる雷放電は,その電荷分離のメカニズムの主因が氷晶とあられの摩擦であるということさえ,明らかになってきたのは比較的最近のことである。実際の絶縁破壊電圧が単純な理論よりも1桁以上小さい理由も,はっきりしていない。
 > > ところが,この15年余りの間に,状況は大きく変化してきた。まず1989年,地上の高感度カメラによって偶然,スプライトと呼ばれる中層・超高層大気(高度50〜90km)で発光する新たな放電現象が発見される(図1)。
 > > 一方,地上では誘雷実験が成果を挙げ始める。特に注目すべきなのは,落雷に伴うX線・ガンマ線の検出に成功したことである。後に誘雷だけでなく,自然落雷でも確認されるこの事実は,絶縁破壊メカニズムの解明につながる可能性があるとされる。

 それどころか反物質については[3580]を参照。

[3180]
 > 「相関がみられる」だけでは、あくまでそれだけで、どうしてそうなるのかというメカニズムの解明が待たれます。

 じぶんが気まぐれに集めたデータだけで、さらにじぶんで決めつけただけのわずかな(一部分のみを説明する局所的な)仮説が検定で棄却されなかったというだけでは、まったくメカニズムが解明されたとはいえないというわけでございます。

[3283]
 > つまり、何がわからないかといって、その実、▼明らかに「平均値」を一律に適用して概算して問題ないとみられる「道路の改良が十分に進んだ地区」について、本稿の重回帰分析をゴリゴリと行なう理由(必要性)がわからない、ということだとわかってきます。

[3564]
 > (目上の者が)賞を懸けて(目下の者の)論文の出来栄えを競わせて高みから見物する(※)イヴェントのことを(もっぱら文系でいう)「懸賞論文」というのですよ

 > あくまで「コンテスト」というのであればですよ(大巾に中略)取り組みを通して達成すべき単元の体系を明確化しながら(=それがそのまま採点の基準にもなる※=)「課題部門」と「自由部門」を並べて設定されたいと思えてきそうです。

・「The 3rd Big Data Analysis Contest」
 https://deepanalytics.jp/compe/48

 賞の設定や審査員それにチュートリアルの提供など、全面的にエレガントだと思いました。ほかのコンテストがどのような運営をしているかということを見ることもできない(思いもよらない)ようではアレだと思いました。

 > 解析手法
 > Random Forest 19.4%(300)
 > Boosting 19.2%(297)
 > Neural Network 16.3%(252)
 > Regression 12.2%(189)
 > Linear Regression 9.4%(145)
 > Cross-validation 4.3%(66)
 > Support Vector Regression 2.3%(36)
 > Support Vector Machine 1.8%(28)
 > Bagging 1.6%(25)
 > other 13.5%(208)

 「Cross-validation」って、(この並びでいう)「解析手法!」なんですかっ!!(棒読み)ふーん。ほー。へー…

[3514]
 > ほかのひとが「ですます」で書いているのを見ていない(=誌面を読んで中身の理解をするだけで注意力を使い果たして、細かなニュアンスにまで気が回っていない=)かのように「すべき」といいながら、しかし「と思う。」とまとめちゃうひとって、いますよねぇ。しかも、それ、記事のあらましそのものじゃありませんこと? …ギクッ。「読書感想文」にあらすじだけを書くひとって、いますよねぇ。(※表現は演出です。東京急行電鉄とは無関係です。)

[3528]
 > > 1. テスト(Test)
 > > 2. 検証(Verification)
 > > 3. 適格性評価(Qualification)
 > > 4. 証明(Certificate)
 > > 5. 監査(Audit)
 > > 6. 照査(Review)

 > ▼データ(統計)に対するマナーという面からも、▼論文(研究)としての再現性という面からも、データを「クラスタリングしてみた」で終わることや、恣意的な分析結果を振りかざして見せることは、許されません。

 > 前述した「正解データとのクロス集計表をつくりましょう」というのは、ここでいう「2. 検証(Verification)」あたりのことをいっています。

 なお、小湊鉄道(※実名)の風速計については[3504]、京成電鉄の「雨量計・風速計・地震計・積雪量計」については[3545]を参照。わたし、まったくの部外者ではありますけれども、これまで風速計については「切実感」をともなって(資料などを)見るようにしてきましたので、「データ分析コンテスト」の題材として(ほかのいかなる数字ともまったく同類の、ただの数字として)鉄道沿線の気象データを見ようということには、無意識のうちに反発を感じてしまうのかもしれません(※という意味では、既に先入観なしで分析に取り組めるための資格のようなものは喪失しているという認識にございます)。そこはそういうものだと思って割り引いてお読みいただければと思います。(※お気になさらずコンテストなさってください、の意。)

※先入観ゼロで、「高度なデータ処理!」として各種技法を鮮やかに使って見せるコンテストとしては有意義なんだといいきかせながら、それなら「データ処理」といってよ(研究や調査でいう「分析」「解析」とは違う言葉でいってよ)という気持ちになってきます。(あくまで気持ちです。)「強風警報システム」については[2552]を参照。

[3543]
 > このPDFでおっしゃる『特徴』って、単に「最大値」とか「卓越○○」を採ってきただけっぽくないですか&それを『特徴』といいきるのはちょっとねぇ。(※見解です。)

 > 「卓越天気」からの「雨か雪」については[3540]を参照。

[2988]
 > もっと合理的に風速に応じた運転規制を行なうとすれば、音圧における「等ラウドネス曲線」のような考え方で、車両の形状や重量、線路に対する風の吹込み角度などのもろもろをいっさい勘案した「等転覆限界曲線」のようなものを作っておき、列車ごとに異なる運転規制をするということにしていくことが望まれます。

[2989]
 > 「風向角」がキーワードで、これまでの「風速がンmだから大丈夫orダメ」という(気象の専門家から見て)素人っぽい発想ではだめなのだということがわかります。

[3481]
 > じぶん、風の研究なんてしたことないんですけど、風って、すごく気になる(=きわめておもしろい)現象ではあるんですよね。研究すればよかったのかしら。(…いまさらっ。)

・日経BigData「鉄道支障予測コンペの入賞者たちは、予測モデルをいかにして作りあげたか」(2015年1月19日)
 http://business.nikkeibp.co.jp/article/bigdata/20150116/276336/

 > 今回は話を分かりやすく整理したいので、2つの観点で見て行こう。
 > 今回は話を分かりやすく整理したいので、2つの観点で見て行こう。

 じぶんがわからないから簡単にしましたとしか読めません! …なんと、じぶんがわからないから読者も同じくらいわからないだろうと決めつけましたみたいにしか読めません!! …あざっす!!!(違)

※あざっす:もちろん賢明な読者諸君は喜んでみせるに違いないだろうし筆者のあなたは楽でお互いにウインウイン([3323])みたいなのですけど、こんな記事を書いていていいんですかね、の意。

 > ざっくりと相関や分布を確認し、クロス集計などによって定量的な関係の強さを評価することが大切だろう。

 そのための主成分分析とかk-means法とかって、あるじゃないですかぁ。主成分回帰(PCR)とPLS回帰(PLSR)については[3572],[3576]を参照。

 > 2位入賞者は4つの異なるモデル(ランダムフォレスト、ニューラルネットワーク、サポートベクターマシン、ロジスティック回帰)を組み合わせた、「アンサンブル学習」と呼ばれる手法を選択した。各モデルのパラメーターや、各モデルに対する重み付けなどは、得られたモデルの予測精度が上がるように細かく調整しており、「探索的なアプローチ」ということができるだろう。次回、これらの手法の解説をする予定だ。

 どの記事が「連載第2回」なのかわかりませんでしたっ。…なんだかなぁ。もしかして「予測分析コンペの入賞者たちが使ったのは、アンサンブル学習とディープラーニング」だったりしませんよね。…うわぁ。


(12月19日に追記)

 コンテストの説明が更新されたとのこと。

・(URLは同じ)
 > 12月15日(金) 提供データ(積雪深計データ)の説明とルール(数理モデル作成方法の制限)を更新しました。

 > 既存研究を参考にする場合は、ソースコード内、もしくはreadmeファイルにて、参考文献として明記してください。ただし、特許を含む手法に関してはご利用をお控えください。

 あたりまえでしょ&最初は書いてなかったんでしたっけ。いえ、これが書いてなかったので、きわめてプログラミング競技みたいなもの(※持ち込み不可の試験! すべて暗記に頼る試験! …みたいなの)だと思っていたんですけど、あなたがた本気でアイデアを200万円で買い取るおつもりですかっ。…なんだかなぁ。

[3485]
 > なにしろ京都なんでぇ(略)何食わぬ顔で桜餅と称して、各々けっこうバラバラなソレを食わせる(※どこぞのアレを「完こぴ!」するなんてプライドが許しません!)といって、こりゃあいっぱい**されたわい。(違)この、いくら時代を経てもあまり規格化されない感じ(変わり続ける感じ)こそが関西風…いえいえいえ、そこまでいえませんってば。製菓学校で「これが桜餅だッ」といわれてお手本を見せられながらつくらされたのが採点されるというセカイとは、かなり趣が異なりそうですのう。製菓だけを学ぶのと、(本式の)彫刻を学んだ人がお菓子の材料で彫刻するのとは、かなり違いますよね。いえ、桜餅には彫刻しませんけど、1枚たりとも完全に同じものなどない桜の葉の合格と不合格(※形が崩れたものなど)の判定など、なかなか美的なセンスが問われそうですよ。本当でしょうか。

 本件「データ分析コンテスト」は、あくまで製菓学校なんだと理解しました。

[3330]
 > 統計数理研究所「共同研究スタートアップ」
 > > t検定について ****/鉄道総研

 > 詳細を伏せた結果、やさしそうなテーマに見えてしまうということもあるかもだ!

[3519]
 > 鉄道総研が「t検定」について、わざわざ統数研に相談してまで解きたい問題って、いったい、どんな問題なんでしょうねぇ。

 コンテストのページで挙げられている鉄道総研報告(2015年)が「t検定」だったらどうしようかと思って参照しました。(棒読み)

・「軌道上の雪質を考慮した車両台車部の着雪量予測手法」(2015年1月)
 http://bunken.rtri.or.jp/PDF/cdroms1/0001/2015/0001003893.pdf

 > 本研究では,着雪量を精度よく予測するために

 じゃあ「精度」の定義が出てくるかといって…ギクッ。

 > 予測値と測定された着雪量との間には比例関係が見られ,相関係数は0.86,残差の二乗平均誤差は0.008m3であった。
 > 二乗平均誤差が小さい方が予測精度は高いため

 うーん。(明示的に)クロスバリデーションはしていない(※)ということです。「精度」というからには、着雪量の推定値はしかじか、そこを「雪落とし作業」が「必要」「不要」の「2水準!」みたいにして、そのあたりはずれで「TP」「FP」「TN」「FN」を見ていくんだというイメージが浮かびますけど、そうではなくて「比例関係」で「相関係数」だということなんですよ。ふーん。ほー。へー…

※「インテリジェントエイヤ!!」でこさえた予測モデルで、過去のデータぜんぶに対して予測値を出してみせ、その全体を評価しているわけです。先に「変数増減法による重回帰分析」で予測に効きそうなやつ(!)を取り出して、それ以外は捨てたということなんですよ(※実際には「盛岡」だけを除外してます=ほとんどぜんぶ使ってます)。おおらかな気持ちでは、先に選んだ(「盛岡」を除く)地点での観測値からつくった「重み」を使って、これとは別に予測してみせている、この2段階の流れがクロスバリデーションの『ようなもの!』ではあるわけですよ。しかし、実は「盛岡」も0.05くらい効かせて「大曲」はアレだとか(略)そういうのを網羅的に試しながら(先に「変数増減法による重回帰分析」で選び取ってしまうのでなく)予測値を評価していくという「明示的な」クロスバリデーションは行なっていないということなんですよ。うん。(※0.05とかいうのはまったくてきとーです。それに、本来のクロスバリデーションというのはそこじゃないっ。)

※もちろん賢明な読者諸君はお気づきだろうが(違)本報告の貢献は、「図7」を得るために模型で実験したところにあるんですよ。予測もしてみせたのはおまけみたいなものですよね、わかります。

・「適合度の評価」MathWorksの説明です
 https://jp.mathworks.com/help/curvefit/evaluating-goodness-of-fit.html

 > 適合度の統計量
 > 残差分析
 > 信頼限界と予測限界

 > データの大部分の変動性を説明でき、高い確度で新しい観測値を予測可能

 > 一般に、グラフィカルな方法ではデータセット全体を一度に表示でき、モデルとデータの関係を広い範囲で簡単に表示できるため、グラフィカルな方法は数値的な方法よりもメリットがあります。数値的な方法では、データの特定の特徴に絞って注目し、通常はその情報を単一の数字で要約することを試みます。実際には、データと解析要件に応じて、両方のタイプを使用して最適な近似を決定する必要がある場合があります。

 もうちょっとグラフィカルなほうがよかったりしないんでしょうかねぇ。(※あくまで素人です。)

 > 物理的意味のある近似係数の抽出が目的であるのに、モデルがデータの物理特性を反映していない場合は、結果として得られた係数は役に立ちません。この場合、データが何を表すか、データがどのように測定されたかについて理解することが、適合度の評価と同様に重要です。

 ここですよね。このために金沢駅で入場券を2時間ごとに1枚、買うべきなんですよね。(違)


(12月23日に追記)

 このコンテストに副題なんて、最初からついていましたっけ。(見落としていたのだと思います。…たぶん。)

 > コンテスト概要 〜車両にくっつく雪だるまの身体測定コンテスト〜
 > コンテスト概要 〜車両にくっつく雪だるまの身体測定コンテスト〜

 うーん。気象庁「着雪注意報」の説明はみんな読むんですよ。実質的なスタートラインはそこにある(※気象庁のページをじぶんで参照できる、の意)のに対して、ずいぶんアレな副題ではないですかねぇ。(※感想には個人差があるというひともいます!)

[3251]
 > 何も読まずに、ぜんぶ口頭ですって? とんでもない!
 > 回覧板や立て札を毎朝、見ているからダイジョーブ、ダイジョーブ! …などと

 > 立て札の内容が…いえ、社長の朝礼の内容が日に日におかしくなっていく、と読み替えてゾッとするのが現代的な読みかただろうと思われます。「文書主義」([3084])によって、立て札の「履歴」(バージョン管理!)がバッチリ、記録されていさえすれば、どこからおかしくなったのかを後から「検証!」できるんです!

[3091]
 > ものの名前は短いほどプリミティブ(基本的、原始的、最小単位で原理的な、の意)で、頭にゴテゴテと「盛」れば「盛」るほど「盛りナントカ」([2908])…いえ、何か限定的な、より狭い界隈でのみ通じるものになっていきます。

 > 「本格研究」やら「産業論文」やら、といったものもあるにはありますが、うーん、とうなります。そう呼んで、「自分たちにもできる!」という気になっていただかないと、まったく取り組まれもしないので、あえてそう呼んでいる、という、実に「上から目線」な実情もありましょうが(※)、しかし、「本格中華!」は中華なんでしょうか。「本格イタリヤン!」と称しながら「当店イチオシ!」が「昔ながらのナポリタン!」であったりしては、限りなくイタリアンでないように感じます。(感想は個人です。)ナポリタンの大盛り…いえ、いくら「盛」っても、研究は研究であり、論文は論文であります。

 「データサイエンス」というのも同じことで、「データサイエンス」と名乗れば半額!! …いえ、(『本式の』)サイエンスが備えるべき何かを備えなくてもいいんだというようなふーちょーには感心しないなぁ。(※表現は演出です。)

・「着雪」というのだから、トンネル内の湿度、トンネルの構造(単線か複線か、斜坑はあるのか)、列車が出入りしたときの気圧の詳細な変化を知りたいよね

・YouTube 「Science of Fog Formation」(2017年12月6日)
 https://www.youtube.com/watch?v=QkRqjcO1ROk




・静岡県総合教育センター「小学校理科 観察・実験集」より「雲をつくってみよう 発展」
 http://www.center.shizuoka-c.ed.jp/curri/cpc/Web/kannsatujikennsyuu/index.html
 http://www.center.shizuoka-c.ed.jp/curri/cpc/Web/kannsatujikennsyuu/04/C2-6.pdf

 > 小学校の理科教育では、子供が身近な自然を対象として見通しをもって観察・実験などを行うことにより、自然を追究する能力や態度、自然についての認識を形成していくことに特徴があります。問題解決の活動を通して、自然について感じ、考え、自然の性質や規則性について実感することにより、自然を愛する心情や問題解決能力、科学的な見方や考え方が育つようにすることが大切です。

 > (全略)

 > 最後になりましたが、研究を進めるにあたって、御協力をいただいた皆様に心よりお礼申し上げます。

・NHK「雲を作る実験」のイメージです
 http://www2.nhk.or.jp/school/movie/clip.cgi?das_id=D0005401260_00000

 > 雲の発生の実験を行い、雲の発生には気圧、気温、湿度の変化が関係していることを知る。

 (「着雪」のメカニズムをよく理解し、かかる物理法則に基づく予測を行なうためには、)どんなに簡単そうなデータであっても必ず実測値(=じぶんで測らなくてもよいが推定値ではだめ)を用意しなければいけないんですよ、うん。(棒読み)自慢できそうな装置にばかり関心があって、つまらない装置で測定されるデータに無関心というのは感心しないなぁ。

※そういう用意のないまま、つまり一種の「(データセットの)完全性」のないままこさえた予測モデルなんて、甲羅の割れかた(占い)みたいなものなんですよ。見かけ上、「精度」がよいとかなんとかいっても、まったく占いなんですよ。そんなことをしていてはだめだよね。んだんだ。(※見解です。)

・しょくん! ウィキペディアのお時間だッ。おもうぞんぶん(略)「物理法則一覧」
 https://ja.wikipedia.org/wiki/%E7%89%A9%E7%90%86%E6%B3%95%E5%89%87%E4%B8%80%E8%A6%A7

 少なくともウィキペディアにすら載っているレヴェルの「物理法則」とやらに堂々と反する推定値を平気でのうのうと出しよる予測モデルをこしらえちゃうようなひとはだめだね。これはゼッタイだね。(※見解です。)

[3543]
 > 装置やプログラムを自慢しながら我々「ここに置いてください」と書かれた投入口みたいなところに(中略)とっておきの試料やデータをもったいぶって(さらに略)わざわざ費用・労力・時間などを費やすのだから、これはもうすばらしい結果が出ないといけないんだ&むしろ出るんだと言い聞かせながら「OKぐーごー?」などと言葉による働きかけを(以下略)からの「途中であわてて止めてみせる」ところまでが「かける」です!

 トンネル内の湿度と気圧の詳細な変化を知りたい、これはもう、ぜひとも知りたいのですよ。トンネルに出たり入ったりするから「着雪」が大きくなるのではなかろ(略)おおっと。(※あくまで演出です!)

・「トンネル内の空気の流れと温熱環境を予測する」(2015年9月)
 http://bunken.rtri.or.jp/PDF/cdroms1/0004/2015/0004006344.pdf

 > トンネル内空気とその周囲の覆工コンクリートを含む地盤(湧水を考慮)

 > 計算には空気流動シミュレーションの入力条件に加えて,熱移動に係わる空気や水,地盤などの物性値,外気温・湿度や地盤周囲の境界条件,列車走行に伴う発熱量などを与える必要があります。

 所望の計算に対しては、湿度計の応答性が悪すぎるのではないかと(略)おおっと。(※表現は演出です。)

・ウィキペディア「湿度計」
 https://ja.wikipedia.org/wiki/%E6%B9%BF%E5%BA%A6%E8%A8%88

・TDK「電子式高分子湿度センサの構造と原理」説明のイメージです
 https://product.tdk.com/info/ja/products/sensor/sensor/humidity/technote/tpo/index.html
 https://product.tdk.com/ja/products/sensor/sensor/humidity/technote/tec00002.png

 > 容量変化型湿度センサ素子はリニアリティに優れ、相対湿度0%RHからの計測が可能です。
 > しかし、その一方で、0%RHにおける静電容量が数100pFと大きく、また0%〜100%RHでの静電容量変化幅が数10pFと小さいので、小さい容量変化を拡大することと、大きなゼロオフセットを相殺することが同時に必要となるため、回路は非常に複雑かつハイコストになり、また定期的な較正が必要となるなどの欠点があります(図4)。

 > 感湿素子のインピーダンス湿度特性(周波数別)
 > AC1V at 25℃

 > 20Hz
 > 100Hz
 > 1kHz
 > 10kHz
 > 100kHz
 > 1MHz

 ぬおー…(略)。


(1月7日に追記)

 > 残り24日
 > 応募人数 56人

 なるほどねぇ。…実になるほどねぇ。(棒読み)

・NEXCO東日本「つららん棒」とはにわ
 http://www.e-nexco-tech-service.jp/details/nmn-007.html
 http://www.e-nexco-tech-service.jp/img/details/nmn/nmn-007-photo01.jpg

 > 迅速なつらら・雪庇処理によりお客様の安全走行を確保!
 > アルミパイプ製4段伸縮自在式構造で、先端のアタッチメントを交換するだけでつらら処理、雪庇処理を行えます。

 ほぉお!(略)

 > 実績(販売・施工・導入)
 > 当社:139基(北海道、東北、関東、新潟支社管内)
 > 他道路会社:113基(NEXCO中日本、NEXCO西日本)
 > 民間会社等:73基(メンテナンス、舗装)

 JR殿はお求めになっておられないとの理解でよろしかったでしょうか。(棒読み)

・その他の「雪氷管理」のイメージです
 http://www.e-nexco-tech-service.jp/area/snowy-road.html
 http://www.e-nexco-tech-service.jp/img/details/neh/neh-004-photo01.jpg
 http://www.e-nexco-tech-service.jp/img/details/neh/neh-004-photo02.jpg

 > 移動気象観測システム(インテリジェント・ウェザーカー)
 > 移動気象観測システムは、(株)環器・(株)TMSとの共同開発製品

 おおー!(以下略)

 https://e-nexco-engiho.co.jp/wp-nexco-e/wp-content/uploads/2017/04/weather.pdf

 > 前方散乱式による1S出力の視程計
 > KP整合機能

 キロポストですね、わかります。位置補正地上子って、こうですか? わかりませーん。(棒読み)

 > 10Hzでのデータ取得が可能

 > 超音波風向風速計
 > 気象庁検定取得可能

 > 気温計

 > 路面温度計
 > 高感度な狭視野タイプにより路温変化を把握

 > 前方散乱式視程計

 > カメラ
 > 民生のデジタルビデオカメラを採用し安価で高画質

 カメラかく語りき! やっぱり画像データもほしいよね。んだんだ。(棒読み)