(約8000字)
[3286]に関連して、「迂回率」を少し詳しく見てみます。研究っぽい話題ですから、稿を分けることにいたします。
※研究っぽい話題としては「手の動き」[3246]の続きです。
・(あらかじめ参考)「疑り深い」
https://kotobank.jp/word/%E7%96%91%E3%82%8A%E6%B7%B1%E3%81%84-440146
・「方向角による格子状道路における2点間の迂回率の予測」地理情報システム学会(2014年)
http://ci.nii.ac.jp/naid/40020346034
http://www.gisa-japan.org/dl/22-1PDF/22-1-37.pdf
市川市経済部のほうのかたの論文のほう…とのこと。おおー。しかし、▼単著でゴリゴリと、▼(他の方法との比較なしに)重回帰分析ですと、…パチっ。おお、いまや「最大うたぐりモード!」のスイッチが入ってしまったようです。…疑うぞう。すべてを疑うぞう。(恐縮です。)
> しかし,これらの研究成果を応用して,直線距離の平均値に対する経路距離の平均値の割合を,各道路の直線距離に乗じてその経路距離の予測値とすることには疑問がある.以下の研究に見られるように,経路距離を直線距離で除した迂回率が一様ではないと考えられるからである.
「疑問」という強烈な語を用いて述べるほどには疑問(※)ではなく、こう、▼突出する「外れ値」だけ特別な対応をすれば、▼あとは平均値でいいんだという(実務上の)発想ではないんですかねぇ。
※たぶん、そこまで強烈な印象が出るとは思われずに「疑問」と書かれているのだろうと推察します。強弱は別として、ここに未解決の課題があるんだという「新規性」の主張であるのですから、こう、理想的には「**に加え**を考慮することによって、**を実現できると考えられる」など、もっと「提案手法のありがたみ(有用性)」を明示的に述べていただきたいかなぁ、と思われました。
> 格子状の道路において,ある地点から見た別の地点の方向角から,その地点間の迂回率を予測するため,方向角を説明変数とし,迂回率を被説明変数とする重回帰分析のモデルを本稿は提案する.
なぜ重回帰分析なのか、わかりません。
基本的な理解をおさらいしますと、以下のようになるかと思います。
・パラメータが明らかでない現象(の観測値)を、直線や曲線にあてはめたい→回帰分析→2次元以上なら『重』回帰分析(多変量解析)
・パラメータの決定のメカニズムがそれなりに明らかであれば、仮の直線や曲線(関数)をシミュレーションすればよい
・道路網は、迂回率を『高度にマネージメント!』しながら構築・改良されてきた(はずである)
・「目標値」としての「平均値」を一律にあてはめることは妥当ではないか
・「目標値」をあてはめるのが妥当でない、道路が未改良の地区などを検出して、例外扱いすることを目指すのが先決ではないか
つまり、何がわからないかといって、その実、▼明らかに「平均値」を一律に適用して概算して問題ないとみられる「道路の改良が十分に進んだ地区」について、本稿の重回帰分析をゴリゴリと行なう理由(必要性)がわからない、ということだとわかってきます。
> (全略)
> 非格子状の道路の位置が分析結果の利用に影響する.また,鉄道駅からの距離と非格子状の道路の延長との間に何らかの関係があるとは思えない.
「非格子状の道路」といっても、▼古い街道に由来する県道や国道など(どの区間を取ってもぐんにゃりぐんにゃりしている、Y字路がある)、▼意図して駅前まで短絡させた「県道○号***停車場線」の類、▼住宅地や工業団地の外周道路(アウト*ーンもどき=外周だから「あうと」だ! …などと略)など、それぞれ異なる理屈で成立した道路であるはずです。
※道路の名称のテキスト解析でラベリングだっ…などと(略)。
もっと画像処理に寄るならば、直線成分を検出して、おお、このエリアには格子状道路が、いかほどの密度で存在するぞ★、という処理をなさったほうが適切であったりもしないでしょうか。
とはいえ、本稿では重回帰分析を用いる推定手法が提案されているので、そこに沿ったことをコメントしないと、二度とお声がかからない何か的なアレがコワくなってきます。(恐縮です。)
> 寄与率R2は,迂回率の観測値の分散に対する重回帰分析の迂回率の予測値の分散の比である.
> 迂回率の観測値の分散は,各道路の迂回率とその平均値との差から算出されるから,各道路の迂回率をその平均値と同じであると予測する場合の分散のうち,予測値で説明できるようになった程度を寄与率R2は示していると解釈することができる.
> つまり,各道路の迂回率をその平均値と同じと予測する場合の残差を,寄与率R2が1である領域では予測値ですべて説明することができたことを意味し,寄与率R2が0である領域では予測値で全く説明することができなかったことを意味する.
はひ?
・「はひ」のイメージです
http://nlab.itmedia.co.jp/nl/articles/1508/06/news134.html
http://image.itmedia.co.jp/nl/articles/1508/06/l_kontake_150806aria01.jpg
・「迂回率の観測値の分散」
・「重回帰分析の迂回率の予測値の分散」
・「各道路の迂回率とその平均値との差」
・「「各道路の迂回率をその平均値と同じ」であると予測する場合の分散」
…ぐふっ。以下のように読み取ります。
・迂回率について、「観測値」と「予測値」がある
・「観測値の分散」は、それ以上の説明は不要
・R2は「観測値と予測値で分散が一致」する度合い(中間の説明は不要ではないか?)
> 最小二乗法により,現実の市街地において計測した迂回率と方向角βiから,パラメータA0,A1,αを推定する
> 迂回率を被説明変数とし,cos βiとsin βiを説明変数とする重回帰分析により,パラメータA0,c,dを推定することができる.
うーん。「cos βiとsin βi」で「説明変数が2つ!」といって「重回帰分析だっ!」というのが、どうも納得できません。「方向角βi」で「説明変数は1つ!」ではないんですか?
> 鉄道の両側で別々の区画整理が実施されることが多いため,図2から図4のように鉄道駅から鉄道の方向を基準としてπ/2ラジアン以内の領域毎に分析する.
これは妥当です。さらには、格子状の道路と、鉄道の線路との角度で、▼集落や団地のほうが古くて鉄道が新しいのか、▼鉄道にあわせて開発されたのか、も扱えそうです。
> 各鉄道駅を中心とする半径750mの円周と道路中心線が交わる位置に点Qiを作成した.ArcGIS Network Analystにより経路距離を算出した.
なるほど、図2〜4に打たれているすべての点が「点Qi」なんですね、と、わかるまでに時間がかかりました。「ArcGIS Network Analyst」が使えない立場のかた(=私も含みます)としては、Googleの経路検索などを手動で使って値をもらってくれば、似たような実験をして遊ぶ(=学習する)ことができましょう。
> 分析対象となる点Qiがないか,または度数が15未満(回帰変動と残差変動の自由度の和が14未満)である場合には,その領域を分析対象外とした.
> 成田,舞浜,海浜幕張,千葉ニュータウン中央,印旛日本医大,高麗川,伊勢原,唐木田,二宮,北鎌倉,鎌倉,逗子,田浦,横須賀,京急久里浜
え゛ーっ。それって、かなり『残念な駅!』ではないですか? …そうですか。▼駅前に大きな施設があって公道がない、▼ちょうど750mあたりのところを崖や海岸などがぐるりと囲んでいる、等々ということですね。
※わあぃ赤い電車で三浦半島崖めぐり。***赤い電車で三浦半島崖めぐり大好き。…京急油壺マリンパークすいぞくかん学園でボクと握手!([3174])
・Google ストリートビュー 「京急久里浜駅から直線で750m」付近
https://goo.gl/maps/H4MDWV97jpL2
https://goo.gl/maps/NRfzDK4gJQm
https://goo.gl/maps/ZeQrojDLJaF2
https://goo.gl/maps/S9Nv2HVkUDD2
※「点Qi」をとれないからといって『残念』とまではいいきれないことがわかります、の意。土地の区画が大きい(細分化されていない)というのは、むしろ、よいことではないでしょうか。
・個人のブログ「岬めぐり」(2007年1月17日)
http://dendenmushimushi.blog.so-net.ne.jp/2007-01-17
> 油壷・城ヶ島から毘沙門・剱崎にかけては、なかなかみごとな海岸美が楽しめるはずである。(略)歩いているが、必ずしも道が繋がっているわけではない。
> 小浜というところでバスを降り、さっそく海岸沿いに行こうとすると、たちまち立て看板に阻まれる。ここもそうなのだ。岬めぐりをしていると、しばしばこんなふうに終末処理場に行き当たる。下水の終末処理の責任がある自治体は必ず自分の町のどこかに処理場を設ける必要があり、その立地に狙われるのが人家から少し離れた、海に排水するのに便利のいい岬なのだ。
> ここの処理場は、岬の陰に隠れるようにしてあり、そこへ至る道を車が出入りする関係者(車)以外立ち入り禁止状態にしている。看板のご指示に従って「迂回」すべく畑の間の道を探りつつ行く。昇り降りを繰り返し、処理場のいかめしい門を過ぎても、なかなか岬には到達できない。雨崎への道は「完全に遮断し」たままであるらしい。その点において“看板に偽りなし”らしいが、それもいかにも愛想のない話である。
あまりにどこからでも容易に海岸に到達できるような道がありますと、海岸の立ち入りの可否もよくわからなくなります。仮に禁止の場合に、そこら中に看板をば…というくらいなら、そもそも道を作らず、道の終点で看板を立てるだけで済ませたいとも、思われるかもしれませんね。(まったく想像です。)
「論文のほう」に戻ります。
> 点P’から点Qiまでの直線距離は,UのA1倍(A1>0)であるとしよう.
立体交差やループ道路、通行止めや一方通行規制など考えない限りは、1>A1>0ではないですか?
観測値と予測値をプロットした、どのくらいあてはまったのかが見えるグラフ(図)がほしいですね、わかります! 結果全体を1枚で示す簡潔な図があれば、4ページにもわたる「膨だい!」な「表1」は不要です。
> 分析対象とした579領域のうち432領域で,F検定によって仮説「c = d = 0」が有意水準5%で棄却された.
> F検定によって仮説が棄却された領域を見ると,寄与率R2は0.230(小手指駅を中心とする方向角0.50から2.03ラジアンの領域)から0.991(検見川浜駅を中心とする方向角5.46から0.61ラジアンの領域)まである.
詳しく見ないうちから、えーっ、京葉線にあわせてキレイに造られているはずの検見川浜駅がアレですか、小手指駅と同じグループに入れられてしまうんですか、と、ちょっと(かなり)ギモンが高まってまいります。
…と思いましたが、確かに検見川浜駅の周辺は、こう、『あざとい曲線!』([3162],[3165])の道路だらけであったとわかりました。どこからどこへ行くにも、団地や商業施設の敷地を横切って進まない限り、かなり遠回りになるわけです。この「(歩行者と自転車に限り)敷地内を通り抜け」というのが、本稿では考慮されていないということですね。
・Google ストリートビュー 「美しくもあざとい道路」「公園のほうなど通り抜けたい」「駅は見えている」付近
https://goo.gl/maps/NBd47ZKZkUs
https://goo.gl/maps/FLWsgcVpo7Q2
https://goo.gl/maps/Q62nYmaVwXC2
・東芝「MT(マハラノビス・タグチ)システム」
http://www.toshiba.co.jp/tde/hin/hin_mt.html
http://www.toshiba.co.jp/tde/img/hin/09.jpg
http://www.toshiba.co.jp/tde/img/hin/10.jpg
> 正常領域から異常領域に向かうにつれ、マハラノビスの距離は大きくなり、異常加減を判断する事できます。又、異常と判断された場合、どのデータ(項目)が異常となったか解析が可能となります(項目診断)。
> 非常に便利な手法ですが、データが不十分だったり、適用の仕方を間違えると誤った答えが出ます。得られた解が正しいか、オリジナルデータでの検証が重要となります。
「劣化」を「道路が未改良である度合い」または「後年の道路付替えで迂回率が悪化している度合い」と読み換えれば、それなりにそのまま応用できるのではないかと錯覚できそうです。(あくまで錯覚です。)
いえ、あーすればこーすればと思ってしまうのはさておき、「論文のほう」に即さなければなりません。改めて戻ります。
> 格子状の道路において,ある地点から見た別の地点の方向角から,その地点間の迂回率を予測するため,方向角を説明変数とし,迂回率を被説明変数とする重回帰分析のモデルを本稿は提案する.
> 首都圏を対象として,鉄道駅から一定の直線距離にある地点について,このモデルを適用する.この重回帰分析において推定されたパラメータを示すことにより,方向角と直線距離から経路距離を予測することができることを示す.
はひ?
・格子状の道路の内側、すなわち、点P’から見ての方向角で、「点Qiたち」(点Qiは15個以上ある)との相互の「経路距離」を…といって、これは何を推定していることになるんでしょうか?
格子状の道路の内側が一様であるか、一様でないか、を定量化したい(ある係数1つで代表させたい)のだとすれば、方向角だけで説明できるとは思えません。面積あたりの交差点の数が、(道路網をXYな座標にぺたっと貼り付けた上で)水平方向、垂直方向のどちらかで偏りがあるかないか、…そもそも、ほとんどの場合は(意図して)一様にするべく(道路を)「格子状」にするんではないですかぁ。やだなぁ。
・ウィキペディア「マンハッタン距離」
https://ja.wikipedia.org/wiki/%E3%83%9E%E3%83%B3%E3%83%8F%E3%83%83%E3%82%BF%E3%83%B3%E8%B7%9D%E9%9B%A2
https://upload.wikimedia.org/wikipedia/commons/thumb/0/08/Manhattan_distance.svg/2000px-Manhattan_distance.svg.png
格子状の道路は、どの最短経路を通っても、同じ経路距離になるんだという前提でよいはずです。(格子状の道路の中心部に円形の公園などあったりしますとアレです。)
・格子状の道路の終点(駅から最も遠い点)を点Qiとするなら意味がわかりますが、鉄道駅Pから750mで切って点Qiをとっているため、おかしな推定(無意味な推定)になりませんか?
> 重回帰分析で仮説「c = d = 0」が有意に棄却された領域では,有意にPQi間に格子状の道路があると考えられる.各道路の迂回率をその平均値と同じであると予測する場合の分散のうち,予測値で説明できるようになった程度と解釈される寄与率R2は,これらの領域では0.230 から0.991 を示した.これらの領域では,迂回率が一定であるとするよりも,式(3)により方向角から予測した各地点の迂回率を用いる方が,直線距離から経路距離をより良く予測することができる.
R2が1になることはないとして、どこで「切る(切られる)」かというのは、有意水準を決めれば決まることであり、この分析で「0.230」になったというのは、▼有意水準を「5%」にしたことと、▼分析に用いたデータ(首都圏の鉄道駅)に依存したものである、と理解しました。
棄却されなかった147領域について、まったく考察されていません。
・かみつたセンセイ([3181])「F値」
http://ibisforest.org/index.php?F%E5%80%A4
表にある「TP」「FP」「FN」「TN」のすべてを見渡して考察しなければいけません。TとF(「真の正解」)をまったく問わず、Nとされた147領域を考察せず、わあぃPが432領域! …といっているに等しいということです。(恐縮ですが事実です。)
・奥村晴彦「ROC曲線」
https://oku.edu.mie-u.ac.jp/~okumura/stat/ROC.html
> 与えられた値をどこで切っても,TとFは完全には分離できません。
> ROC曲線下の面積(Area under the curve,AUC)は分類器(分類のアルゴリズム)の性能の良さを表します。0から1までの値をとり,完全な分類が可能なときの面積は1で,ランダムな分類の場合は0.5になります。
579領域を、25.4%(147領域)と74.6%(432領域)に分ける分類器(※あえて分類器と見る場合)というのも、かなりアレだなぁ、大丈夫かなぁ、と、割合を見ただけで心配になってくるような気がしないでもありません。(これはあくまで気のせいです。読者がそんな心配をしなくてよいように考察を尽くしてくださいね、の意。)
なお、この「論文のほう」に対して疑義があるなどと申し立てるものでは決してなく、これから取り組もうという時に、こんなことを考えながら「スキなく」詰めていきたいですね、と一般化した話題であります。あしからず。同じ著者のかたの今後の展開にも期待します。
|