フォーラム 個人情報保護方針 | 利用規約

「情報と鉄道」「ユニバーサルデザインと鉄道」「社会と鉄道」がテーマのフォーラムです。(16歳以上対象)

ご利用状況について
このフォーラムについて
機能の改廃等について

(※新規の掲載はお受けしていません。)

全角と半角、大文字と小文字が区別されます。

検索の代わりに:
キーワード (索引)もどうぞ。


【自由研究】の話題

 → 茨城県内で必要な「主論文・野帳・掲示物」とは? 【詳細】(2017/10/19) NEW!
 → 【自由研究】の記事一覧(新着順)


【研究ホワイトボックス】

研究を楽しく「追体験」! 真っ白のキャンバスに虹色の未来を描く方法、教えます。



[3707]

研究ホワイトボックス(35) 複雑なデータと「対話」するには〜郵便番号データを例に(R編)

列車 発想 建物 マップ 数学 主成分分析 散布図 クラスタリング 町名 朝日


「j日市(じぇいかいち)」「n本松(えぬほんまつ)」
【フリフリポテト】ちょいと「R」よ高機能関数電卓よ(談)【大崎ThinkParkTowerあり】
なんと「郵便番号データ」に「グラフ理論」を(再)
「郵便番号データ」を『多変量らしい』多変量データたらしめるには(仮)
ランダムどーん(仮)
「R with Excel」(再)
「R with Excel」より「rpart」「rpart.plot」(再)
「R with Excel」(再)


(2019年5月24日に追記)

・近年®「複雑なデータ」の用例です(2018年6月7日)
 https://trend.nikkeibp.co.jp/atcl/contents/feature/00069/052800004/

 > 多層パーセプトロンでは、層の数を増やすと複雑なデータも簡単に分類できるようになる。その理由を大まかにいうと、それぞれの層がそれぞれの役割を持って分類を行うからだ。

 …この続きは有料です。(※ジト目で棒読みしてください。)

 https://atos.neorail.jp/photos/led/led00251.jpg

https://atos.neorail.jp/photos/led/led00251.jpg

 https://www.sankei.com/life/news/190410/lif1904100016-n1.html

 > この年「渋谷109」がギャル路線に衣替え、JR埼京線延伸で来やすくなった埼玉方面などから続々と渋谷へ、ギャルやギャル男が集まりました。

 「この年」とは平成8年です。

※「近年®」:ちかごろみやこにはやるもの、の意。

 「複雑なデータ」とは、簡単には分類できないデータのことだとわかります。そういうとき、わたしたちが「簡単に分類できない」と思うのは、そのデータが「複数の分類に確率的に所属するようなデータ」だからなのですよ。たぶんですけどね。

 ここでは日本郵便「郵便番号データ」を使い、簡単には分類できない「複雑なデータ」が、いかにして「簡単には分類できない」のかを実感的に理解していきませう。

 「R編」([3707])では、「郵便番号データ」がいかに「複雑なデータ」であるかを理解します。そのままでは単なる辞書的なデータ(一定の項目が一定の順序で並んだデータ)である「郵便番号データ」をさまざまな方法で“分解”し、多変量データとして扱います。フリーの統計解析環境「R」を使用すれば、高度な数理的手法を簡単に扱えることを体験してください。

 「MySQL編」([3708])では、「郵便番号データ」をデータベース(RDB)にインポートして、基礎的な集計を実行します。高度なプログラムを書くことなくSQL文だけで多くの処理ができることを実感していきます。一般的なデータベース入門では説明が端折られたり“禁じ手”とされるような「スロークエリ(実行時間が非常に長いSQL文)」を積極的に活用します。基本的に同じSQL文を2度とは実行しない(いわば“使い捨て”でもある)「対話的データマイニング」ならではのデータベース(MySQL)の活用法をデモンストレーションします。

※この記事は2018年10月、2019年1月、2019年5月に断片的に記したものを無理やり1つにまとめたものです。過度な期待はしないでください。

・(2018年11月19日)
 http://must.c.u-tokyo.ac.jp/sigam/hiki.cgi?%C2%E820%B2%F3%B8%A6%B5%E6%B2%F1%BE%B7%C2%D4%B9%D6%B1%E9%CD%BD%B9%C6%2F%A5%CF%A5%F3%A5%C9%A5%A2%A5%A6%A5%C8

 > 世の中ではデータサイエンティストの育成が急務となり,社会人のリカレント教育を推し進める動きや,大学内でデータ分析を専門に行う部署を設立する動きが加速している.一方で,データ分析に不慣れな人は,専門的な知識がないとデータ分析を行うことは難しいと考えていたり,データ分析のためのツールを導入すれば,ツールが分析してすべての結果を出してくれるという誤解を抱いているケースが多い.そこで本チュートリアルにおいては,データ分析とは何をすることなのか,どうすればデータ分析ができるようになるのか,を最も基本的なところから説明するとともに(以下略)

 …「するとともに」構文みたいなのキター!!(※恐縮です。)


(2018年10月7日)

 ずっと以前にも遊んだことがあったと思いますが、改めて遊んでみようという話題でございます。

[3540]
 > 地名なんて、あとから決まるんですよ。人が住むから地名が必要なんですよ。…その発想はなかった!(棒読み)

 > > わあぃ地名の好みは別として、新しく郵便番号が振られるなんて、とっても賑わいっぽいと感じられてきそうです。

[3044]
 > 郵便番号辞書で遊んでいた時のこと、地名の文字の連接を、もとの分布確率を保ったままランダムにつなぎかえて…というつもりがプログラムのミスで、やたら長くなんでもかんでもつながってしまったのでした。駅名でいえば「溜池山王」どころか、それに「王子」「子安」「安善」が連なって「溜池山王子安善」になるようなものです。文字数に上限を設けなければ「溜池山王子安善光寺山北八王子安善…」などとループしていく始末です。また、ソートすれば「山形県米沢市アルカディア1丁目」が出てきて、わあぃ(以下略)

 うわあぃ!(※悲鳴です。)

[3326]
 > > 最近では、素データがインターネット等で公開されていることも多く、そのようなデータを入手して活用することもできる(適当に検索して探してみると良いだろう)。

 > ぬおー。「素」で『素データ』へのビスケットが足りないのではないかねキミぃ

[3699]
 > …そんな操作をしなくてもぉ〜♪

 > はい☆ピッピッのピーっさ。(もっと違)

 > > エラー!

 > えーっ!

[3543]
 > 装置やプログラムを自慢しながら我々「ここに置いてください」と書かれた投入口みたいなところに(中略)とっておきの試料やデータをもったいぶって(さらに略)わざわざ費用・労力・時間などを費やすのだから、これはもうすばらしい結果が出ないといけないんだ&むしろ出るんだと言い聞かせながら「OKぐーごー?」などと言葉による働きかけを(以下略)からの「途中であわてて止めてみせる」ところまでが「かける」です!

 費用のかからない、しかも失敗してもなくならないデータだからといって、その実、油断は禁物ですぜというのが日本郵便「郵便番号データ」であります。

・日本郵便「郵便番号データダウンロード」
 https://www.post.japanpost.jp/zipcode/download.html

 > 読み仮名データの促音・拗音を小書きで表記するもの

 https://www.post.japanpost.jp/zipcode/dl/kogaki-zip.html

 > 全国一括
 > (1,687,378Byte)

 https://www.post.japanpost.jp/zipcode/dl/kogaki/zip/ken_all.zip

 > 全国一括のデータは12万件あるため、一般的な表計算ソフト等では全データを読み込むことができない場合があります。
 > 本データファイルには検索ソフトは含まれておりませんのでご承知ください。

 そのくらいはじぶんでできるもん☆のほうなどおつけして&しつれいしました。ちょっとしたエディタで開いていちばん下までスクロール(略)124236行あることがわかります。

 https://www.post.japanpost.jp/zipcode/dl/readme.html

 > 郵便番号データに限っては日本郵便株式会社は著作権を主張しません。自由に配布していただいて結構です。

 ほぉお。…こうして「中目黒の小松菜に関するお店」みたいなの([3576])が世にあふれるのだと、たぶんこういうわけです。(棒読み)

[3704]
 > > 名古屋駅周辺のほうれん草に関連するお店
 > > 岡本太郎記念館周辺のラーメンのお店

[3673]
 > > 佐原・水郷にあるラーメン(拉麺)のお店22件のランキングTOP20を発表!

 https://tabelog.com/saitama/A1103/A110301/R7275/rstLst/MC/
 http://www.myoei.co.jp/templates/jsn_corsa_pro/images/myouei/kurumaya/tenpo/niiza_01.jpg

 …そっちは『新座駅のおすすめラーメン』ですよぅ。だから無造作に撮った写真でもタンク車が写るんですね、わかります。(※恐縮です。)

[3674]
 > > 東京都のパイナップルチャーハンに関連するお店

 東京都のパイナップルチャーハン!!(違)

[3576]
 > いくらデータベースに「中目黒」と「小松菜」があるからといって、さも「きょうは中目黒で小松菜。」みたいな…うそーん。

 がびーん…じゃなくて、ぎゃふん! 両手でぎゃふん! えいっ。(※表現は演出です。)

[3521]
 > > 39位 鉄道駅数
 > > 56位 長時間ネット利用率(中学生 2時間以上)
 > > 59位 ラーメン店数
 > > 73位 無線LAN普及率(家庭内)

 > 『平成時代!』における地域間での差(=地域の特徴)や、この30年のうちでも目まぐるしく変化しているようすなどを『よく(じゅうぶんに)』表していそうなのは、このあたりかなぁ。…このあたりかなぁ!!(棒読み)

 > 『変な業態!』の店が「たけのこ」…そういうことになってくる直前の、つまり「この30年」のほぼ全域にわたって、よく特徴が出ていそうなのは「ラーメン店数」っぽいですよね。そういう意味では「ラーメン店数」もまた、時限的な有用性しか持たないといえます。いえ、そもそも、よほど普遍的な指標を除けば『賞味期限!』のある指標ばかりなのではないんですかねぇ。…ギクッ。▼「すかいらーく」については[3436],[3455]、▼JR九州「ミスタードーナツと呼ばれるジャンル!」については[3413],[3458]などを参照。こういう1970年ごろからの業態は2000年までの30年でだいたい変化が終わっている(≒落ち着くところに落ち着いている?)のではないか、逆に「牛丼店」などは、まだ15〜20年分しか変化が見えていないという…そういう(時間的に)両側から挟まれて(&いま分析するなら)「ラーメン店数」なんだと、たぶんこういうわけです。ここをもう1段「抽象化」するなら、「外食産業の新業態『n年目』!」みたいな…ゲフンゲフン。ちまきでも桜餅でもラーメンでもステーキでも酸素でも宇宙食でもなんでもござれっ&ハハー!(※かなりボウロンですので、うのみにせぬよう。)「【食べる桜しょうゆ味】焼いてないから焼きおにぎりじゃないもん! お姉ちゃん風ふきすさぶ隅田川上空をうじうじと仰ぎながら「桔梗屋菓子目録」(1683年)を遠目に浮かべる(談)【カザンオールスターズ特設ステージあり】」については[3485]を参照。

 …ぜぇぜぇ。(※表現は演出です。)

 > 逆に、「『よく』表してはいない」というのはどういうことかといいますと、▼どの時代でも激しく変化しそうだよね、▼常にふらふらしているので誤って地域の特徴だといってしまいそうだよね(=ある時点に限れば確かに地域の特徴ではあるけれども、定常的な特徴なのかというと、ぜんぜん違うよね)…みたいなの(?)でしょうか。

 再び郵便番号データです。

 > 全国地方公共団体コード(JIS X0401、X0402)
 > (旧)郵便番号(5桁)
 > 郵便番号(7桁)

 > 都道府県名
 > 市区町村名
 > 町域名

 Rにインポートしてみよー。(棒読み)1と3と7,8,9と6の列を使おうかな。(もっと棒読み)…だが断る!

※メモリ不足で読めません! 『前処理!』でファイルを小さくしないと読めません!!

 …SQLサーバーにインポートしてみよー。そうそう、さいしょからそうすればいいのよ。(※表現は演出です。)

・「都道府県名」と「市区町村名」が異なって「町域名」が同じという「町域名」がいくつあるかカウントしてみよー
・「町域名」の隣接関係(同じ「市区町村名」にあるもの同士)と、別の「市区町村名」にある同名の「町域名」との関係をグラフ(辺リスト)で表現してみよー

 あ、じゃぶじゃぶ。

・インポートがタイムアウトしました
・インポートがタイムアウトしました
・MySQLは衰退しました(…してません!!)
・MariaDBがこちらを見ています(違)

 ええーっ。ちゃんと使える環境を用意して出直してきます&すんません。(※「MySQLとか一通り」については[3708]を参照。)

 いますぐRで遊ぼうというかたは県別のファイルを使いなさいってこった。

 https://oku.edu.mie-u.ac.jp/~okumura/ajax/yuubin2/

 > x = read.csv("24MIE.CSV", header=FALSE, fileEncoding="CP932")

 これだね。

・「MJ文字情報一覧表」
 https://mojikiban.ipa.go.jp/1311.html

 > 部首(参考)
 > 部首欄には部首番号を記した。『康煕字典』の部首の通し番号により、1から214までである。

 これだけ使いたいんですけど、ケッタイなXMLを目的にあわせたCSVに書き換えるか、1文字ずつAPIで引けとおっしゃる。


☆「j日市(じぇいかいち)」「n本松(えぬほんまつ)」


 結局、プログラムをじぶんで書かないといけないときたもんだ。

町名の
文字数
頻度(%)
1260.028
24371146.728
33019032.274
41140112.188
552115.571
621582.307
75700.609
81930.206
9540.058
10200.021
1160.006
1220.002
1610.001
(計)93543


 ほぅ。1文字の町名というものは9文字の町名よりも頻度が少ないとおっしゃる。下記の通り、絶妙な条件で抽出しているので、ならびにそもそも郵便番号が単独で割り当てられない町名はごっそり除外されているので1文字の町名(大字)が少ないということでしょう。ま、そこに駅や郵便局ができるかといって、しょーじきそれはないなみたいなー(諸事情により略)そういう意味では除外するほうが適切だと考えます。(※恐縮です。)

214
310
44
52
61


 町名をランダムに30個くらいつくってみせるとき、このような内訳にすればよいとおっしゃる(※四捨五入したら31個になっちゃいました)。長いほうから見て1,2,4ときて、8,16じゃなくて10,14だというのがミソです。そういう16みたいな割合の2文字の町名の末尾に「町」とか「台」とかついて3文字になるのがそういう割合であるってことですね、わかります。(※全国ごちゃまぜの分布であります。あしからず。)

※もとより3文字の町名としてのみ成り立つ「洋光台」みたいなのが『31ぶんの8』の割合であって、『31ぶんの2』の割合で「日野」でも「日野町」「日野台」でもいいみたいなのが『「日野」もありだけどここは「日野台」だ』みたいにして3文字になるんだというような理屈を想像してください。

鹿島富士見町
鹿島代々木町
鹿の谷山手町
野幌代々木町
茂尻新春日町
幾春別千住町
布礼別市街地
茂辺地市ノ渡
青山奥四番川
江差港北埠頭
美馬牛市街地
歌登上徳志別
歌登志美宇丹
白滝上支湧別
丸瀬布上武利


・「流山新市街地」
 http://www.city.nagareyama.chiba.jp/business/1006720/1006721/1006733/1006760.html

・いうなれば「東京代々木町」
 http://kyouiku.higo.ed.jp/kiji2/pub/default.phtml?p_id=1190

・北海道の各地に「代々木町」
 http://www.kitanihon-oil.co.jp/pc/essay/mera-tonden3.htm

 試される6文字だよ北海道らしい町名とはこのことだよ。…中野富士見町じゃないよ?(※恐縮です。)

女満別眺湖台
女満別夕陽台


 …MMB! MMB! そっちは女満別夕陽台ですよぅ。

(n=268951)

32973
9761
5311
5098
5064
4579
3717
3704
3090
2706
2619
2458
2329
2305
2101
2096
2082
1891
1886
1843
1744
1695
1506
1477
1470
1394
1370
1370
1354
1354
1348
1342
1335
1267
1266
1244
1206
1190
1172
1167
1140
1117
1078
1072
1054
1038
1030
1023
1016
960
940西
922
915
897
894
879
860
859
859
851
845
800
797
786
779
778
757
753
750
749
745
744
741
733
732
698
694
687
676
672
669
668
664
654
653
653
640
636
623
612
609
603
597
597
594
593
590
587
586
581
581
578
577
577
575
574
569
565
551
551
550
547
543
538
531
531
527
524
516
498
476
473
469
467
466
462
458
453
451
447
436
435
434
434
433
432
429
427
426
426
422
421
420
412
412
409
405
404
402
400
399
398
397
396
394
386
385
385
376
370
369
367
365
357
346
341
340
338
336
335
332
327
326
326
324
320鹿
320
315
312
312
312
311
308
308
304
303
301
300
300
299
297
293
292
284
282
282
281
281
278
278
276
275
273宿
269
258
257
257
255
251
249
248
246
240
237
235
234
230
228
228
224
224
223
217
217
214


※ぜんぶで2307個の文字列が出現しました。そのうち225番目までを表示しています。

 うーん。どうしてもといえば「MJ文字情報」のAPIを2307回、つごう2307回ほど事前に呼んでおけば済むということです。…それはちょっとなんだかなぁだなぁなんだよね。(※見解です。)わたしたち、部首がどうのこうのというのは後回しにしませう。

 ▼「以下に掲載がない場合」「の次に番地がくる場合」を除外、▼数字を含む町名は無視(「/[0-9]/u」)、▼括弧の内側の文字列は除外(なぜか残る「/、/u」「/)$/u」も無視)、▼ひらがな・カタカナは「のがヶノ之」だけ許可(「/[ァ-ネハ-ヴー・]/u」「/[ぁ-かき-ねは-ん]/u」)、▼狭い地域には2つとない「国」「城」「宮」は除外*(※恐縮です=それは別口で考えたい、の意)、▼「/条[東西南北]*$/u」「/区$/u」「/一円$/u」は除外して、さらに▼「AA町BB」「AA町CC」を「AA町」1つと「BB」「CC」に分けて計上したのち、1文字単位での『町名頻度!』(町名が同じでも自治体が異なれば別物としてカウント)を出してこーい&降順でソートして上から225つまで持てーい。(棒読み)

*「/(空港|学園|公園|団地|駅|国|城|宮)/u」みたいなので見てます。「/[東西南北甲乙丙丁]$/u」「/^[東西南北上中下]/u」も都合により除外します。そして「埠頭」と「農場」と「第一」みたいなのがあったよといいながら、そこは直さずそのまま@なんてこったい。

※「アルカディア」とか「あいの里」とかユニークすぎるのをほとんど除外できます。(※まことにメッソウではございます。)

 うーん。同じことを2文字の連接で調べたのプリーズっす。

(n=175408)

1709田町
1127本町
1020新田
804原町
802山町
739新町
673野町
653川町
603屋町
539木町
505島町
447清水
446栄町
433寺町
395東町
389西町
369久保
366八幡
355谷町
354中町
347山田
335井町
326南町
323浜町
323が丘
298日町
297崎町
294川原
283和田
277元町
275田中
275見町
270屋敷
264和町
262春日
262内町
260上町
244生町
237幸町
234北町
232大野
228沢町
228口町
218河原
216場町
207吉田
203緑町
202園町
201岡町
199津町
198温泉
198松町
196泉町
195下町
193本郷
191旭町
189馬場
187吉町
187塚町
186古川
186番町
185野田
180河内
179神町
177葉町
176天神
175水町
170高野
170前町
169住吉
168手町
166末広
166橋町
165大谷
162尾町
162小路
162朝日
159戸町
158小野
157水沢
157松原
155市場
154出町
153浦町
153昭和
153ノ内
152江町
152小山
144太田
143高田
141幡町
141日市
138子町
138富士
137谷地
137広町
134柳町
134瀬町
134池町
134嵯峨
132明町
132ノ木
131坂町
131倉町
131畑町
131小川
129平町
129衣川
128池田
127港町
127石町
127平野
126常盤
126前田
126小田
125地町
125大和
125深草
123田原
123神田
121保町
119花園
118曽根
117中央
117大町
117部町
116錦町
116里町
115寿町
115山崎
115諏訪
113大久
112村町
111千代
111鳥羽
110根町
109弥生
108大沢
108大原
107代町
107門町
107桜町
107山中
107神明
107福田
107新屋
107大島
106瀬戸
106郷町
106前沢
105川内


※2文字の連接の文字列の種類は42968個になりました。そのうち151番目までを表示しています。

 うーん! つまりこうですか? わかりませーん!!

1020新田
447清水
369久保
366八幡
347山田
323が丘
294川原
283和田
275田中
270屋敷
262春日
232大野
218河原
207吉田
198温泉
193本郷
189馬場
186古川
185野田
180河内
176天神
170高野
169住吉
166末広
165大谷
162小路
162朝日
158小野
157水沢
157松原
155市場
153昭和
153ノ内
152小山
144太田
143高田
141日市
138富士
137谷地
134嵯峨
132ノ木
131小川
129衣川
128池田
127平野
126常盤
126前田
126小田
125大和
125深草
123田原
123神田
119花園
118曽根
117中央
115山崎
115諏訪
113大久
111千代
111鳥羽
109弥生
108大沢
108大原
107山中
107神明
107福田
107新屋
107大島
106瀬戸
106前沢
105川内


・ざぶとん5枚だよ山田君。地名にも人名にも見えるとはこのことだよ
・堂々6位「《お好きなお名前》が丘」は完売御礼でーす(棒読み):出現頻度が同じレヴェルの文字列をくっつけるとおかしいとはこのことだよ

 http://members.interq.or.jp/service/domain/images/address.gif
 https://gigazine.net/news/20150421-gonbei-domain-new-gtld/

 > 「一体何に使うんだ?」というような中2病テイストあふれる独自ドメイン900種類以上を必殺技のように有効活用できる「ゴンベエドメイン」まとめ

 > エンジニアとしての実力を見せつける「.engineer」
 > エンジニアとしての実力を見せつける「.engineer」

 へー…

 > GIGAZINEの「gigaz.in」やAmazonの「amzn.to」と同じような独自ドメインの短縮URLを「Bitly」なら設定可能。

 ほとんど短くなっていないんじゃありませんこと? あらあら、まあまあ!(棒読み)

・わあぃ「j日市(じぇいかいち)」!!
・さすがに「嵯峨」「鳥羽」は勝手に名乗れないけれど、「衣川」「常盤」あたりは微妙だと思うわ(※表現は演出です)
・「川内」より下位には「士見」「之内」「吉祥」など、3文字以上の町名から『変なところ!』を切り出したでしょみたいなのが混ざってくる

 なるほどねぇ。…実になるほどねぇ。

[3666]
 > > 静岡県の富士川と新潟県の糸魚川あたりを境にして、東側は50ヘルツ、西側は60ヘルツの電気が送られています。

[3601]
 > 鍋奉行みたいなひとが、家庭ごとのてきとーな味付けよりコレ! といって、服でいえば既製服、最初からタレになってる瓶入りのタレみたいな
 > 既製服

 > …あなた難しい言葉を使うのね。(棒読み)

・(再掲)「既製服問屋街発祥の地」(千代田区)付近のイメージです
 http://www.kanko-chiyoda.jp/tabid/751/default.aspx
 https://goo.gl/maps/wPHB2QQ28Hy

 > 太田道灌が江戸城の鬼門除けに柳を植えた

 > 土手のそばには古着などを扱う露天が設けられ、江戸市中の古着マーケットの一つとなりました。

 なあに、ちょいと川のほとりまで古着をいっちょう、みつくろいに行ってだなぁ…ココジャナイ。「川→舟→市」という連想をたどらずとも「川=市」くらいの短絡があるのですよ。本当でしょうか。「あすは半ドン。けふは大橋の金物屋でチーズおろし。」については[3601]を参照。(違)

 https://trendy.nikkeibp.co.jp/atcl/column/15/1062745/010400003/?P=2
 https://trendy.nikkeibp.co.jp/atcl/column/15/1062745/010400003/03_px400.jpg

※あすは土曜日だから気取った料理でもつくるかね&おっとチーズおろしがだめになっちゃってるよ、の意。

 > チーズ用の料理道具といえば、最初に頭に浮かぶのは「チーズおろし器」ではないでしょうか? チーズ用の料理道具の中でもチーズおろし器はダントツで種類が豊富。

・「半ドン」大塚商会の見解です
 https://www.otsuka-shokai.co.jp/events/its/it-column/2017/0705.html

 > 土曜日の社食の食事が丼もの中心だったことに由来
 > 薩摩藩士の中村半次郎が部下に与えた午後休みに由来

 …選べ!!(棒読み)ゼッタイこれじゃないやいみたいな選択肢をひねりだしてみせるなどの…なぜに大塚商会だし。(棒読み)

・ポ「半ドン」
 http://www.nhk.or.jp/po/zokugo/330.html
 http://www.nhk.or.jp/po/media/150410_handon02_h500.jpg

 > 1972年(昭和47年)半ドンで賑わう銀座の様子 写真:共同通信社

 ほぅ。

 https://www.vector.co.jp/soft/win95/art/se252990.html

 …そっちはほせいド〜ンですよぅ。(※恐縮です。)

 > MassiGra

 …MassiGra!!(棒読み)

 https://dictionary.goo.ne.jp/thsrs/3268/meaning/m0u/

 > ★適当と思われる物を選ぶ。
 > ▽ゴルフの賞品を見繕う
 > ▽酒のつまみを見繕ってくれ

 > 「見繕う」は、相手の好みや注文にあわせて物を選んで調える意。

・(再掲)Google ストリートビュー 朝倉市「日本発祥の地 卑弥呼の里 あまぎ」前
 https://goo.gl/maps/JExQvGyeABK2

・このフォーラム「発祥の地」とはにわ
 https://neorail.jp/forum/nph-forum_4.cgi?mode=find&word=%94%AD%8F%CB%82%CC%92n&cond=and&prev=200&sort=desc

[3375]
 > 各種「発祥の地」ございます…といって、ここにまさる「発祥の地」はなさそうだとかなんとか。

・(再掲)「新田開発」
 https://kotobank.jp/word/%E6%96%B0%E7%94%B0%E9%96%8B%E7%99%BA-82285

 > 江戸時代,ある一定の時期に検地を受けた土地以外に新たに開発された耕地または集落を,田畑,屋敷などの区別にかかわりなく新田と総称し,この開発を新田開発と呼ぶ。

 > 耕地開発は日本に稲作が定着した弥生時代よりいかなる時代にも奨励されてきたが,けっして直線的に増加したわけではなく,いくつかの画期をもっていた。それは条里制施行時代,戦国時代〜近世初頭,明治30年代の3画期である。

 開発しても洪水とかあるんでしょ。(※恐縮です。)

・「衣川」とはにわ細道
 https://ja.wikipedia.org/wiki/%E8%A1%A3%E5%B7%9D_(%E5%B2%A9%E6%89%8B%E7%9C%8C)

 「○衣川」といって、その実、洗濯と水浴びにちょうどいい川があるのよみたいな&しつれいしました。

 https://ja.wikipedia.org/wiki/%E3%83%AD%E3%83%93%E3%83%B3%E3%82%BD%E3%83%B3%E7%99%BE%E8%B2%A8%E5%BA%97

 …なぜにロビンソン百貨店だし。(※途中の文脈を大巾に省略しています。)

・いま問う「j日市(じぇいかいち)」のココロ
 http://php.net/manual/ja/function.date.php

 > j
 > 日。先頭にゼロをつけない。
 > 1 から 31

 ふっふーん(諸事情により略)31日市っ! …なんだかなぁ。(違)

 https://twitter.com/opera_park/status/959242906618900480

 > 今月は2日連続「一の市」!

 なぜにポップタウン住道オペラパークだし。…なぜにダイエーグルメシティだし!(棒読み)

・「常盤」とはにわ
 https://ja.wikipedia.org/wiki/%E5%B8%B8%E7%9B%A4

 > 永久不変な岩の事
 > トキワのもりはトキワシティの北に位置する森。

 うーん。(違)

・町名の2文字目以降で「○町」と連接するケース:27872回/1079個
・「町」を除く2307個の文字(1文字)の後ろに「町」がつくのは1079個ある(つかないのと半々)

 「大町市」…じゃなくて、いきなり「AA市本町」みたいなのは除くということです。しかし「(合併前の)BB町CC」が混ざっています。(※恐縮です。)

・「大町市」とはにわ
 https://ja.wikipedia.org/wiki/%E5%A4%A7%E7%94%BA%E5%B8%82

 > 千国街道(松本街道)の宿場・大町宿として整備され物流の中継地点として栄える。
 > 1954年(昭和29年)7月1日 - 北安曇郡大町・平村・常盤村・社村が合併して発足。

 なるほどねぇ。…実になるほどねぇ。「千葉市千葉区」とか「千葉1丁目」とかってないんですよ。ええ。(※そんなことはきいていない。)

・やってきました大橋の金物屋。
 https://goo.gl/maps/P2xca9Lq5VL2

 意味的に「千葉1丁目」とは、「千葉城」から橋(「大和橋」)を渡ってすぐの「本町3丁目」のことかっ&ココなんやなっ!(※表現は演出です。)

・もじゃ! …その名も「やまとばし不動産」。
 https://goo.gl/maps/ZLUXJas5aLw

 しつれいしました。(棒読み)

・Google ストリートビュー 「千葉高架水槽」付近
 https://goo.gl/maps/YhPPPxgCkxu
 https://www.pref.chiba.lg.jp/suidou/jousui/bunkaisan/chibakouka/

 > 完成後70年が経過した現在でも、現役の水道施設として活躍しています。

 おおー。(以下略)「高架」という語の使いかたが現代の感覚とはちょっと(かなり)異なっている気がするよ。「高いところにつくった水槽」って意味だよね。(※恐縮です。)

・町名が3文字以上で、末尾が「町」でない、末尾の2文字:22772回/9652個

776新田
277が丘
161久保
154屋敷
100川原
97中央
91和田
85河内
78谷地
76小路
76之内
69日市
66ノ内
62葉台
61市場
60ノ木
59清水
58ノ上
58山田
57見台
56山台
55河原
53ノ下
52反田
47野原
46本木
45本松
45ノ口
45曽根
44中島
44郎丸
43ノ沢
42井田
42原田
42ノ川
41温泉
40本郷
40町中
38田原
38垣内
37の里
37光寺
37田中
37川内
36野台
35の沢
35陽台
35野々
34野田
34馬場
34須賀
34野川
33木沢
32在家
32野沢
31生田
30士見
30の内
30野山
30の台
30音寺
29前田
29本通
29中野
29丁目
28代田
28松原
28楽寺
27ノ浦
27小屋
27野浦
26ヶ丘
26法寺
25井川
25野目
25町通
25明寺
24の上
24中山
24ノ前
24上野
24道上
23和台
23井沢
23生野
23尾台
22の出
22津川
22瀬川
22保田
21の森
21原野
21ノ谷
20山下
20田川
20海岸
20之上
19木田
19道下
19野谷
19王寺
19願寺
19山手
18岸通
18条通
18稲田
18野木
18沢田
18井戸
18大野
18吉田
18野井
17高田
17茶屋
17川台
17福寺
17興野
17田部
17原台
17一色
17牟田
16ノ原
16子沢
16川目
16木山
16本柳
16長根
16光台
16橋通
16の木
16小野
16島田
16町上
16野辺
16風台
16田新
16浦郷
15町田
15日向
15田野
15興寺
15子田
15田島
15田台
15野口
15花寺
15井谷
15田郷
14吉台
14の丘
14田沢
14田下
14久田
14川端
14善寺
14養寺
14神田
14田上
14ノ坪
14谷口
14木台
14南台
14田山
14飛地
14美台
13本杉
13野尾
13谷内
13の杜
13野上
13野地
13町目
13海道
13野島
13野瀬
13之郷
13之口
13井原
13之瀬
13ノ瀬
13之原
12大平
12東山
12福田
12賀野
12井野
12稲村
12沼田
12山崎
12石田
12の神
12ノ目
12下田
12島台
12町原
12鹿野
12恩寺
12木原
12別所
12々木
12新保
11和通
11山口
11の川
11農場
11田代
11木野
11田前
11栗山
11の口
11木平
11沢山
11神前
11林寺
11小山
11中村
11佐野
11谷沢
11津屋
11町下
11ノ山
11幡台
11御堂
11長谷
11大谷
11之浦
11冶屋
11田免
11東触
10平沢
10の山
10豊田
10川上
10の浜
10古川
10坂本
10ノ神
10山沢
10盤台
10谷川
10寺沢
10八幡
10子堂
10神明
10木戸
10間田
10倉台
10の浦
10平台
10野下
10野内
10鳥居
10田和
10正寺
10羽根
10部田
10松台
10田井
10津原
10安寺
10多田
10町畑
10田口


※頻度が10以上のものを表示しています。

 うーん。…うーん! 数えかたを変えたので「山田」の順位は下がっちゃいましたっ。(棒読み)「口」の字と「田」の字と「井」の字がぐるぐる回り始めました。だから山田やすんでいいですよね。(※表現は演出です。)中間にはさまってる2文字じゃなくて、この2文字で終わりになる町名(この2文字だけで町名になっているのではなく、頭に何かついているもの)を数えたということです。わあぃ▼「n本木(えぬっぽんぎ)」それに▼「n本松(えぬほんまつ)」。▼いかにも「日当たり良好」っぽい「Y光台(わいこーだい)」「K南台(けーなんだい)」(詠み人知らず)みたいなのが全国にたくさんあるらしいとわかります。(※個人の感想です。)

※同一市区町村につき同じ町名は1回だけ計上していますので、別の市区町村にそういう町名があるということです。

・「詠み人知らず」とはにわ
 https://kotobank.jp/word/%E8%AA%AD%E3%81%BF%E4%BA%BA%E7%9F%A5%E3%82%89%E3%81%9A%E3%83%BB%E8%A9%A0%E3%81%BF%E4%BA%BA%E7%9F%A5%E3%82%89%E3%81%9A%E3%83%BB%E8%AA%AD%E4%BA%BA%E7%9F%A5%E3%82%89%E3%81%9A%E3%83%BB%E8%A9%A0%E4%BA%BA%E7%9F%A5%E3%82%89%E3%81%9A-406695

 > 作者が不明か、またはそれを明らかに示しにくい事情があるときに記載する語。

 > 明らかに示しにくい事情があるとき
 > 明らかに示しにくい事情があるとき

 …や〜だなぁ! さるおかたが詠まれたんですよぉ@ぜんぶいわせないでよぅ。もう〜。(※超訳。)

 https://ja.wikipedia.org/wiki/%E3%82%88%E3%81%BF%E4%BA%BA%E3%81%97%E3%82%89%E3%81%9A
 https://forest.watch.impress.co.jp/docs/shseri/copyright/1009258.html

 …身もフタもない。(棒読み)

・「しこな」「いみな」とは
 https://kotobank.jp/word/%E5%9B%9B%E8%82%A1%E5%90%8D-1330014

 > 平安末期の《類聚名義抄》には〈シコナ,イミナ〉とあり,あだ名のことで,自分の名の謙称である。
 > 〈四股名〉は江戸時代からの当て字である。

 その場限りの「××とでも呼んでくれたまへ。」専用! わあぃジョン・スミスぅ。(違)

 http://dic.nicovideo.jp/a/%E3%82%B8%E3%83%A7%E3%83%B3%E3%83%BB%E3%82%B9%E3%83%9F%E3%82%B9

 > 英米人なら知り合いのジョン・スミスくらい一人や二人は多分持っているのものである。

 ぬふっ。(以下略)

23456
0.1440.5070.1780.0950.052
0.3840.270.1920.1010.037
0.3660.3050.1540.1020.049
0.3830.2940.1410.0980.053
0.3770.3260.1380.0940.046
0.3760.2950.1520.1120.051
0.2460.2790.3240.1030.036
0.4240.3010.1310.080.038
0.350.3470.1650.0770.048
0.3210.370.1870.0690.034
0.3630.2410.2460.0950.038
0.4480.3010.1380.0610.028
0.4110.3020.150.0860.04
0.410.2370.170.1250.036
0.420.3210.1370.0680.036
0.190.3730.2020.0930.083
0.4390.2770.1220.0890.062
0.3080.3510.1640.1050.038
0.2690.3860.2040.0860.034
0.2030.2540.2690.1570.069
0.3550.3830.130.0880.033
0.4280.3170.1450.080.021
0.3290.3010.2080.1080.048
0.2010.4160.2090.1060.056
0.2270.2690.1970.1630.101
0.0070.3770.1640.1660.148
0.1560.6420.1150.0680.012
0.450.2630.1490.0890.026
0.2710.2620.180.1750.09
0.4160.290.1670.0860.023
0.5110.2650.1320.0630.024
0.3220.3840.170.0840.027
0.340.3870.1390.0830.037
0.3430.4110.1360.0660.039
0.4260.2950.160.0810.024
0.4520.2770.1170.0630.038
0.1880.2940.1830.1770.109
0.3780.2590.1730.1390.042
0.4930.2410.1370.0730.045
0.2250.3620.2130.1350.051
0.2680.4090.1640.0880.055
0.3720.3630.1620.060.034
0.4680.2790.160.0540.028
0.2530.3040.1940.160.061
0.3720.3160.1390.10.055
0.3550.3690.1340.0820.048
0.3220.4040.1640.0770.027
0.4960.3060.1270.0460.021
0.4140.2970.1760.070.033
0.4290.2260.1570.1210.051
西0.0480.1280.3610.2260.143
0.3770.3210.1410.1070.041
0.2950.3050.2830.0840.015
0.3390.3190.20.0850.048
0.3410.2930.1610.1360.054
0.3250.360.1510.0990.042
0.540.2520.1260.0530.015
0.2420.3680.1540.0770.118
0.0360.1230.3690.2350.143
0.3350.3230.2160.0720.04
0.380.3030.1820.1010.031
0.3460.3590.1910.0690.022
0.4780.3090.1250.0660.016
0.3730.2670.1730.1310.032
0.4180.1710.1570.0620.091
0.540.2670.0940.0510.036
0.2580.4130.1570.090.066
0.3190.3490.1930.0920.042
0.3250.3170.2150.1070.021
0.3710.340.1420.0920.045
0.2870.3260.1370.1210.102
0.0030.4740.2810.1470.073
0.460.2740.1920.0510.015
0.3940.2410.1510.1270.046
0.3130.4080.1370.0780.027
0.3480.2490.1680.140.067
0.180.3310.2360.1180.078
0.3970.3680.1120.0760.041
0.3830.3050.1720.0840.041
0.0390.1470.390.2070.155
0.0690.1110.3290.2570.157
0.2460.4970.1930.0520.006
0.2560.3070.1930.1310.093
0.4890.2050.1280.1090.05
0.260.3570.2170.1070.031
0.280.2590.2390.1320.064
0.0050.5310.2170.1410.08
0.5690.2370.1130.0520.022
0.3080.4530.1170.0930.021
0.320.4220.0830.1030.057
0.4010.3920.1230.0540.015
0.1360.3670.2010.1390.093
0.2650.4020.1980.0950.035
0.4140.2810.1340.080.037
0.5150.2320.1260.0590.035
0.3320.2260.2750.1280.027
0.2470.4690.1170.0880.049
0.3150.3870.1960.0720.024
0.4710.3040.1310.0510.024
0.3770.3220.1720.0670.034
0.3170.3150.1640.1050.074
0.4190.2560.1560.0870.048
0.3330.3780.1090.1180.057
0.4140.3690.1160.0660.028
0.1430.4350.2850.090.035
0.5160.2560.1550.0540.01
0.4780.250.1510.1040.014
0.550.2730.110.0480.018
0.3430.3010.1850.1030.044
0.3270.3120.1740.120.06
0.3070.2870.1360.1450.071
0.380.3470.1830.0570.024
0.4970.2620.1270.0550.041
0.390.2750.10.0950.097
0.4880.2840.130.0620.019
0.4140.3330.1170.1050.019
0.1630.4710.1520.0990.085
0.2080.4160.1830.1010.052
0.2980.3860.0890.0830.12
0.3170.2930.1390.1220.074
0.2630.2390.1470.2650.065
0.3110.2710.1290.1210.106
0.2750.5780.0850.0320.015
0.2680.3320.2180.1410.036
0.5060.2360.1570.0670.028
0.2230.3140.1990.1560.104
0.3730.3970.1640.0440.017
0.4610.3290.1020.0860.015
0.5210.2730.120.0330.033
0.280.2910.1770.1450.054
0.310.3760.1540.1060.048
0.4180.2970.1360.0940.044
0.3760.2560.1910.1240.048
0.3230.4080.1380.0690.041
0.5380.2840.090.0550.012
0.3430.2250.0970.1480.095
0.2260.3870.1490.1280.047
0.2320.5880.0910.0540.021
0.3850.3330.1430.080.035
0.4460.2790.1480.0990.026
0.3180.2560.0920.140.104
0.4110.3330.1240.1020.029
0.4570.4120.0710.0380.019
0.240.4150.1670.080.063
0.2820.4250.150.0660.044
0.220.2620.1980.1340.13
0.0990.4070.2640.1230.077
0.3590.2850.1760.1360.045
0.4130.3480.1240.0770.032
00.4720.340.1220.048
0.4360.2530.1680.1030.03
0.1810.3570.1860.1560.068
0.4760.2570.1280.0980.038
0.4040.3210.1740.0730.023
0.2080.3760.2030.1470.053
0.4820.2510.0930.0850.062
0.2520.2990.1840.1740.075
0.2490.2960.2440.1710.036
0.4920.2370.1360.0850.037
0.4490.2590.1650.1050.019
0.2490.4230.1730.0920.033
0.5010.3160.1170.0570.005
0.5970.2080.1180.0550.016
0.3730.4510.1040.0590.011
0.5640.2720.0980.040.023
0.3590.350.0790.1290.044
0.3710.2590.1560.10.056
0.2930.2280.1570.1480.151
0.2230.4230.1730.0890.068
0.2240.4390.1850.0720.072
0.0660.1080.1930.1390.211
0.480.3240.1310.0550.006
0.3160.3250.1560.1350.055
0.4180.3540.0890.0770.031
0.580.1790.1420.090.006
鹿0.4120.2870.1780.0690.041
0.3440.3410.1780.10.019
0.3140.340.1370.1110.044
0.2530.3170.2120.160.048
0.1890.4260.1280.1730.08
0.4260.2310.1060.0640.074
0.5880.1580.1960.0290.006
0.3640.360.0910.0550.101
0.2140.3340.2630.1230.042
0.4770.260.1480.0720.036
0.4260.320.1420.050.013
0.4220.3290.1230.0930.02
0.3430.390.130.1070.02
0.440.3130.1170.0830.027
0.3680.2810.1670.0840.067
0.2960.2260.0880.2490.104
0.4230.2730.1330.1190.034
0.3630.4790.0860.0550.014
0.5070.2250.1730.070.021
0.4790.3650.1060.0320.014
0.0960.2770.1950.1630.209
0.3450.4130.1460.0680.021
0.5270.2880.0820.0680.025
0.3630.2840.1690.0760.05
0.3020.4170.1980.0580.025
0.5040.1990.1490.1010.036
0.1670.3820.2470.1090.076
宿0.520.2930.1540.0220.011
0.3270.3460.160.0890.052
0.3140.3950.1010.120.058
0.2570.3420.1870.0860.093
0.4670.2960.1750.0390.012
0.3060.1960.3020.1290.051
0.320.3480.10.1520.056
0.2530.1240.3490.1730.084
0.3590.3710.1530.0770.032
0.4350.2970.1540.0930.016
0.4580.3380.1290.0540.017
0.430.1310.3210.1140.004
0.2940.2550.3280.0980.026
0.470.2480.1710.0730.034
0.3610.3350.1780.0570.009
0.4960.2680.110.0660.048
0.0920.610.180.070.039
0.3260.3210.1920.1250.031
0.2630.170.2860.2280.045
0.0630.0670.1260.1390.278
0.3410.3870.1710.0920.009
0.2630.3550.1940.1110.06
0.4770.2710.1920.0420.019


 うーん。chomeitankanji2vecとでも呼んでくれたまへ。…はひ!? 長久手市にお住まいのラジオネーム「ちょうきゅうめい」さんと電話がつながっています。ちょうきゅうめいさーん!(違)

 http://yokoshibahikari-kankou.com/wp-content/uploads/2017/04/4b8c5856840c0ab87f74e6a5e818fb28.docx

 > 台本

 まさに台本だよ。それWordのファイルを載せちゃいますかっ。(棒読み)
 
 http://www2.nhk.or.jp/school/movie/outline.cgi?das_id=D0005150386_00000

 …『outline.cgi』!!(違)

 > 長い名前によって起こる笑いを主題とした古典落語の一節
 > 長久と長命を合わせて「長久命」

 …えー、コホン。(大巾に中略)▼町名に出現する文字1文字(単漢字)ごとの、▼l文字(えるもじ)の町名に出てくる確率ー(↑)みたいなことを言っています。(2〜6だけとってきて:1から16の合計で正規化してある)▼5次元のベクトルですね、わかります。

※「p文字目(ぴーもじめ)に出てくる回数」じゃなくて「l文字(えるもじ)の町名に出てくる回数」を数えています。posじゃなくてlenですよ。ええ。たわしを握りしめてください。(違)

 https://kotobank.jp/word/%E3%83%87%E3%83%BC%E3%82%BF%E3%82%AF%E3%83%AC%E3%83%B3%E3%82%B8%E3%83%B3%E3%82%B0-668511

 > データベースの中から誤りや重複を洗い出し、異質なデータを取り除いて整理すること。
 > (略)有用な相関関係やパターンを探り出すデータマイニングなどに役立てることができる。

 そもそも「郵便番号データ」はぜんぶ実在の町名ですから最初からキレイなんですけれど、「データクレンジング」の説明の後段にある通り「有用な相関関係やパターンを探り出す」ために(都合のよい)何らかの処理(変換や集計)を前もって行なっておくということです。やっぱりたわしですね、わかります。

※たわし:磨くのに力が要る、の意。

 https://neorail.jp/forum/uploads/chomeitankanji2vec.tsv

※このファイルでは「札幌から那覇です」みたいな順番になってます。このあと判明するミスは修正済みです。

 ここまで『前処理!』すれば「R」に持っていけそうだと思いました。(※感じかたには個人差があります。)


☆【フリフリポテト】ちょいと「R」よ高機能関数電卓よ(談)【大崎ThinkParkTowerあり】


・(個人のブログ)「Excel等のデータをサクっとRに持って来る方法」(2011年12月17日)
 https://teramonagi.hatenablog.com/entry/20111217/1324106862

 > お客さんから飛んできたExcelのデータをちょいとだけ捌きたい、例えば送られてきたそのデータをもとにヒストグラムを見てみたい、あるいはC++で書いたモンテカルロの結果をファイルに吐き出したのでその分布を見てみたい、統計量を計算したいけどExcelには荷が重い・・・そんな状況を考える。

 > クリップボード経由でデータを引っ張ってこれることに気がついた。

 簡単で間違いがないのがこれです。ファイル経由だとうっかり別のファイルを読み書きしてしまうおそれが高まります。(※そういうことが起こるくらい「ちょいとだけ」=「いますぐ見たい」といって焦っている、の意。)

 > Rを高機能関数電卓のようにも使えますよというそんなお話でした。

 わあぃ高機能電卓。***高機能電卓だいすき。(※本当です。)

 ハレでも(ざーざー)アメでも(ごろごろ)アラシでも(ぴよぴよぴよ)うぃーあーざあーるういずえくせらー…ズ(ぱらぼーら)「R with Excel」([3526])のお時間ですぞ!(※表現は演出です。)

■「R with Excel」(再)

Excelからコピーしたデータを
Rに取り込み
mydata47=read.table("clipboard",h=0,row.names=1)
# コピーしたデータの1列目を
# 行名として使う
相関行列をつくるround(cor(mydata47),3)
# 正しくできたことを確かめます
RからExcelに
相関行列の表をコピーする
write.table(round(cor(mydata47),3), file="clipboard", sep="\t")


 > V2 V3 V4 V5 V6 V7
 > 大 5311 0.366 0.305 0.154 0.102 0.049
 > 通 668 0.246 0.497 0.193 0.052 0.006
 > 界 8 0.375 0.500 0.125 0.000 0.000

V2-0.0330.0090.0070.0310.019
V3V4V5V6V7
V3-0.542-0.384-0.256-0.213
V4-0.289-0.171-0.141
V5-0.038-0.067
V60.087


 うーん。まいっか。…『まいっか』!!(棒読み)

■「R with Excel」より「rpart」「rpart.plot」(再)

ライブラリを読み込みますlibrary(rpart)
library(rpart.plot)
rpartを実行するmyrpart471 <- rpart(V2~., mydata47, minsplit = 3)
# データフレーム「mydata47」のうち、
# V2を目的変数(従属変数)、
# それ以外を説明変数とする回帰です
# 変数名(列名)を定義していない(ヘッダーがない)場合です
rpartの実行結果を
rpart.plotでプロットする
rpart.plot(myrpart471, type = 2, uniform = TRUE, extra = 1, under = 1, faclen = 0)
# プロットされた図を右クリックしてコピーや保存をします
RからExcelに
rpartによる分割結果の表をコピーする
write.table(myrpart471$where, file="clipboard", sep="\t")
rpartによる分割結果で色分けした
多変量相関図(散布図行列)を描く
library(mclust)
clPairs(mydata47, cl=myrpart471$where)


 うーん。

 https://neorail.jp/forum/uploads/rpart_v2_by_v3-7_n2307p6_chomeitan.png

https://neorail.jp/forum/uploads/rpart_v2_by_v3-7_n2307p6_chomeitan.png


 「V5」と「V6」、つまり▼「4文字の町名に出る確率」と▼「5文字の町名に出る確率」はどっちでもいいよ(それよりは▼「3文字の」と▼「6文字の」のほうで見るよ)と、事実上の「CART®」([3575])であるところの「rpart」がおっしゃる。(棒読み)

n=2307V2の平均ラジオネーム「ちょうきゅうめい」さん
n=216533町 薬
n=33524川 山 橋
n=15376口 雲 八 二 家 春 楽 端 当 久 粟 剛 後 附 吾
n=16174太 岩 納 信 香 利 頃 払 油 枝 脇 泥 綾 柿 側 芝
n=409369大 通 伏 見 双 麻 生 篠 平 福 新 琴 田 戸 合 が 原 丘 …
n=366142盤 子 円 西 路 百 珠 苗 下 水 中 の 温 泉 滝 砥 常 上 東 南 日 前 …
n=14969.2界 渓 移 似 屯 茨 雁 芸 術 駒 簾 舞 藻 臼 紙 岬 榎 追 澗 汲 蛾 眉 桔 梗 直 稜 郭 苔 湊 鈴 蘭 …


 うーん。芸術の森…じゃなくて、山から川を橋で渡って町に行けば薬が処方してもらえるといいました。(違)6文字の町名に出る確率がいちばん漢字ごとに違うからと言って、そこばかり過大に着目して分割していませんかねぇ。ソートしたやつをじぶんの目で見たときには「町」と「台」が同じグループに入りそうだと思ったんですよ。ええ。「rpart」では「台」は「n=409」の中に埋没しましたけれどもね。…まったくだわ。(※表現は演出です。)いえいえいえ、「V2」すなわち出現頻度を説明せよというのが無茶なんですよ。出現頻度の大小と無関係な軸みたいなので見たいんですよ。…なんてこったい。

 改めてV2からV6だけ入ってるデータをコピーして使います。

■「R with Excel」(再)

Excelからコピーしたデータを
Rに取り込み
mydata48=read.table("clipboard",h=0,row.names=1)
# コピーしたデータの1列目を
# 行名として使う
主成分分析を実行するmycmp48 <- prcomp(mydata48, scale=TRUE)
主成分分析の結果のサマリーを表示するsummary(mycmp48)
# 各主成分の累積寄与率が表示されます
k-means(k=10)を500回実行して
ベストな解を出す
mykm4810x <- kmeans(mycmp48$x, 10, nstart=500)


 主成分得点(mycmp48$x)を使ってk-meansしていることに注意。

PC1PC2PC3PC4PC5
Standard deviation1.25761.15881.06010.95410.20338
Proportion of Variance0.31630.26860.22480.18210.00827
Cumulative Proportion0.31630.58490.80970.99171.00000


 うーん。第1主成分から第4主成分まで見なさいとおっしゃる。ま、ぜんぶ使ってk-meansしてみますアリガトウ。

kBCSS / TSS
50.610
70.758
100.835


 うーん。

・第1主成分から第5主成分までを使ってk=10のk-meansした結果で色分けしながら、元の変量V2〜V6の散布図行列とPC1〜PC5の散布図行列を見比べてみる(談)
 https://neorail.jp/forum/uploads/pca_n2307p5_kmae10_by_pc1-5.gif

・(参考)「フリフリポテト」味の素の見解です
 https://park.ajinomoto.co.jp/recipe/card/707241/
 https://park.ajinomoto.co.jp/wp-content/uploads/2018/03/707241.jpeg

 > (1)A、B、Cはそれぞれ混ぜ合わせる。
 > (3)紙袋に(1)、(2)をそれぞれ加えて、袋ごと軽くふる。

 ほぅ。(違)

n=2307ラジオネーム「ちょうきゅうめい」さん
n=15蘂 丙 尿 航 鰕 個 榿 解 裾 淳 泓 髭 審 特 眠
n=94温 嵐 舌 紫 幣 以 耕 眺 抜 学 九 幾 鳴 鉱 峨 湧 涌 軍 蛯 埠 条 殻 婆 極 寧 斜 修 祥 途 務 弟 右 峯 藍 甲 衛 蛎 艘 苦 厨 荘 害 嬉 浄 噌 聖 苧 参 霊 院 将 猟 樟 忽 這 侭 掃 乗 蕗 醍 醐 虻 象 隅 勧 炮 祖 栖 樅 冥 刑 録 違 卜 弐 秦 與 伽 栂 終 読 嵯 各 投 号 臣 輿 菴 突 超 蜻 蛉 導 還
n=129西 東 南 首 蘭 女 那 梁 納 築 狗 最 雪 北 湖 雄 濃 陵 京 加 唄 英 峰 静 樫 磐 支 笏 聚 兜 碧 倍 朱 暑 衣 旧 爺 姉 様 幹 蔦 誉 陸 歴 著 刺 泥 鷺 李 陀 厩 算 続 笊 卒 児 椛 雀 摂 待 竪 巽 機 兄 亦 胆 采 断 郡 酉 隣 鮪 等 賢 蒜 構 革 管 秤 鯲 回 処 潜 因 楯 図 艮 禄 拍 申 鵠 莚 壬 溜 血 鏑 縁 塀 伎 箪 祗 竺 枯 専 茄 了 念 祓 挙 巾 桟 悲 薙 璃 秩 歓 巡 泙 釆 列 閣 遍 脊 椥 莵 欽 維 濱 汀
n=325移 曙 鱒 堺 紛 暁 砺 必 睦 楓 稔 走 彰 槍 昔 酪 送 蕨 宍 霞 鉛 球 羊 蹄 産 盃 股 寅 椴 返 標 禽 活 鳶 殖 芭 蟠 譲 蔓 得 萠 画 統 箙 鼈 沸 貰 崩 鞘 楮 蕉 雛 淋 袰 驫 舮 舛 鯖 底 膝 枋 駮 應 埖 肴 民 鎖 毒 臥 煤 叺 卦 抱 鎚 狄 榴 唯 載 瘻 閖 君 蕪 翌 程 瓶 瀞 衡 竃 箟 懐 鰄 塙 披 桁 蟻 埋 濡 及 乱 葎 狸 抓 葹 到 鮨 点 擶 朧 梺 俎 釿 其 遅 煎 筵 燧 桙 衝 橲 甕 仮 澳 陦 耻 壺 胄 旱 啼 担 鮒 跿 息 捻 粗 烟 樛 操 荊 椅 櫻 枕 功 城 冑 贄 凍 衾 栢 閏 佛 粂 屏 萬 級 磑 笄 剃 濤 乞 着 菫 逗 糟 壗 捲 鏥 汰 国 敦 孟 毎 薦 萄 局 畉 鮖 蜷 鶚 滅 亟 禿 鮭 爼 寮 瀧 糺 旨 蝉 賑 哲 垈 棡 舂 鉋 伺 篶 寂 皐 穏 交 廣 椋 殊 櫨 蜆 鵺 鈍 郊 駈 圦 饗 券 堕 斧 舗 雅 鰹 桴 祠 邦 設 枅 槙 鮠 嶬 醒 庇 笋 枳 撰 質 秬 朋 編 杤 乎 炬 宵 劫 鷆 桾 窟 筱 狂 觜 哉 耀 柤 鵲 椣 摘 枌 且 扱 鰈 盾 徐 樮 杙 歎 桷 矯 像 忰 箆 鈑 伐 遙 堪 絡 匹 坏 稼 賞 肩 粒 胸 弩 臘 窓 匝 呰 齋 岨 幟 駅 糘 宛 粭 畭 整 買 苞 蒋 禎 侈 鯆 碆 渭 檮 鞭 蜑 濠 曰 感 藏 頸 禮 惠 鋤 餘 窄 沈 硴 莎 滴 礬 掻 裳 滞 飫 餠 假 岻 泡
n=24蘇 湿 獄 候 澱 鱈 鍔 柧 轌 晦 把 縦 扣 閨 頬 亜 甥 罧 珍 菟 擬 祁 垢 徴
n=618大 通 川 盤 見 双 子 山 円 町 麻 生 篠 路 太 平 新 琴 屯 田 戸 百 合 が 原 丘 珠 苗 穂 雁 来 下 郷 里 和 本 水 車 月 寒 中 石 芸 の 森 小 金 定 泉 白 野 常 真 駒 内 上 岩 別 沢 井 手 葉 幌 地 明 日 風 稲 前 口 清 庵 入 宇 賀 浦 絵 紙 恵 榎 分 縄 船 澗 札 部 安 海 岸 木 鍛 治 堀 釜 神 亀 桔 梗 浜 美 畑 古 武 場 五 雲 志 島 昭 鳥 陣 八 幡 二 末 鈴 住 瀬 銭 高 岱 松 館 家 千 代 台 鶴 鉄 根 乃 花 園 万 人 出 ノ 深 弁 才 天 丸 御 三 晴 元 村 紅 頭 弥 若 相 朝 色 奥 勝 桂 潮 津 光 江 長 橋 信 香 春 望 洋 桃 竹 居 潭 華 砂 文 楽 兵 正 門 鞆 屋 茶 知 利 仲 丁 母 萌 市 阿 徹 仁 々 紀 布 興 音 尺 馬 主 連 草 端 喜 多 陽 樺 之 浪 苑 佐 空 流 成 林 府 依 開 向 協 呂 土 登 番 進 無 留 辺 鹿 社 初 菊 岳 夕 菜 願 達 都 栗 茂 波 世 丑 良 奈 卯 曲 嘉 能 化 十 沖 礼 受 一 王 羽 矢 比 須 心 我 奔 練 形 黄 樹 角 工 対 鴻 滑 道 伊 寄 不 動 智 池 榊 唐 磯 隆 敷 当 梅 乙 摩 鷹 綿 街 老 愛 階 気 輝 虹 久 七 四 六 軒 宕 荒 建 呉 峠 姫 茅 熱 熊 鮎 畳 河 在 早 間 影 束 目 炭 名 冷 笠 淀 曽 羅 脇 方 夫 梨 司 婦 意 桝 体 詰 ヶ 杜 事 会 寸 総 峡 恩 報 源 舎 鬼 霧 売 裏 軽 垣 満 仙 法 樋 科 止 境 洗 計 鎮 保 洞 景 虎 財 庫 荷 昌 鵜 所 蓬 莱 飛 屈 勢 校 調 外 公 旅 祢 貴 刈 剛 養 跡 魚 後 散 火 琵 琶 裡 左 諏 訪 釈 迦 孫 妙 枚 助 徒 桶 覚 冶 堅 師 先 寺 葛 蔵 紺 舘 品 割 官 匠 龍 堂 砲 如 宜 鼻 蒔 薬 組 州 者 巻 廿 郎 庄 烏 刀 蓮 伝 量 織 迎 蛸 辰 積 槌 善 蒲 邸 坊 豆 童 慶 反 灰 味 菖 性 廻 観 与 雑 狭 干 猪 備 附 役 放 菩 膳 塔 染 彦 慈 同 仏 杏 兎 惣 箱 薮 鴨 綾 迫 禅 要 柿 揚 欠 駄 殿 葭 檀 鐘 踊 半 斉 領 袖 器 飼 鍵 額 普 壇 弓 歩 庚 権 側 判 午 命 芝 仕 杭 僧 奉 菱 甚 具 身 竜 式 勘 精 宅 段 夜 応 姓 少 辻 播 磨 槇 溝 戊 己 鼓 柚 壱 筋 稗 氷 請 順 肥 食 鉾 閑 蜂 曾 氏 此 父 義 玄 拾 勒 戒 済 模 麗 釘 般 牟 旦 飾 護 射 稱 泪 笥 夢 … 鋸 服 畝 聞 翠 瓢 騨 講 頂 替 柑 尊 竈 難 職 阪 耶 悦 隊 薩 鯛 杁 予 藁 沮 樒 銘 覧 覇
n=557界 渓 伏 福 似 茨 栄 沼 米 旭 湯 澄 滝 砥 豊 藤 柏 幸 緑 舞 青 厚 谷 富 星 置 有 塚 岡 柳 赤 坂 浅 倉 崎 舟 臼 尻 尾 港 吉 直 苔 湊 広 杉 並 盛 歳 銅 時 宝 陰 的 忍 塩 祝 錦 張 碓 丹 共 芳 雨 近 永 咲 桜 瑞 寿 守 恋 増 輪 飽 辛 牛 横 芦 毛 運 貝 黒 牧 取 採 益 帯 卸 沿 実 岐 阜 立 斗 年 遠 越 巴 渡 鳩 延 網 呼 樽 糠 糸 植 啓 徳 払 声 宗 萩 落 発 親 癸 葦 油 扇 渚 更 訓 弘 淵 萱 堤 枝 床 節 友 笛 袋 焼 度 料 片 鷲 漁 乾 関 押 昼 狩 嶺 振 冬 群 畔 位 飯 朗 添 好 重 細 粟 符 桧 瓜 苅 濁 折 姥 差 鴎 吹 鶉 今 種 昇 檜 俣 櫓 扶 桑 珊 余 銀 然 厳 座 杵 継 板 俵 冠 班 玉 箸 畠 秀 苫 力 頓 秋 沓 鴛 又 鯉 弦 全 栃 速 露 撫 蔭 杖 去 負 貫 荻 桐 互 室 笹 渋 晩 骨 育 背 湾 薫 打 奴 筑 暮 帰 塘 雷 周 隠 縫 乳 行 付 虫 潟 萢 込 筒 堰 狼 兼 嶋 庭 独 狐 面 楢 坪 禰 喰 党 櫛 引 窪 是 鮫 洲 澤 柵 際 漆 鎌 持 切 宿 繁 浮 巣 除 菰 柴 照 房 鍋 用 條 釣 鰐 垂 掛 顔 胡 強 薄 渕 槻 夷 竿 蒼 夏 鉢 蛇 犬 鶏 懸 数 柄 蓼 曳 架 獺 袴 剣 麦 芋 妻 簗 繋 腹 椚 籠 穀 霜 鶯 宮 摺 壁 只 両 帷 起 箕 搦 穴 諸 賊 耳 鴬 升 次 尼 鼠 肝 菅 拝 梶 燕 旗 監 朴 給 皿 貞 猫 斎 隈 杢 嶽 論 翁 髪 瓦 茎 蛭 楡 蓑 休 炉 踏 筆 甫 悠 皆 粕 伯 鴉 鰭 棚 椿 指 蚕 腕 潤 綱 櫃 鈷 酒 鍬 剥 戻 妹 鑓 芹 薗 篭 印 椹 梓 吾 廟 馳 脛 碁 叶 鴇 貢 絹 鯨 借 宰 漢 至 橿 経 帳 椎 鐙 硯 串 冨 楊 戌 亥 逆 併 笈 思 爪 儀 轡 簑 祭 過 籾 電 怒 箇 肘 員 随 配 結 狢 甘 挽 珂 寛 県 挾 箭 狹 祇 健 疋 墨 楚 楠 傍 示 埜 蚊 橡 施 糀 颪 杓 勅 吐 祐 検 求 埴 淡 麹 隼 佃 机 匂 易 魁 鰺 當 緒 葵 鱗 則 莇 杣 鵯 刎 晒 頼 嫁 俊 汁 謡 甑 降 炊 曇 滋 伍 書 戎 禾 黍 粉 貸 湫 包 嵩 恒 鼡 芙 蓉 玖 言 策 可 鋺 孝 瘤 柊 巨 副 鰯 棒 鯰 涼 仰 粥 肱 磧 柘 尋 閉 櫟 堵 柞 藺 綺 酢 灘 私 筈 謝 彼 介 案 写 邑 揖 苣 闇 碕 酌 垪 許 熟 潴 浸 饒 識
n=266汐 銚 任 材 緋 問 巳 紋 珸 瑤 瑁 已 優 稀 弄 獅 鰔 棄 舸 煙 層 莫 鞠 敏 烈 倫 素 勲 鳳 羨 異 漉 属 朔 障 牡 枇 賽 籏 塞 傘 鉈 駿 臨 吸 麁 吠 蝦 椌 塒 現 霄 粧 茗 亘 理 卑 薔 薇 叔 廼 詠 凰 狙 商 餌 鉦 糖 戈 鞦 兀 叉 暘 蒄 賜 榧 坦 湘 勿 尚 戦 免 蟆 墓 賤 熨 酸 奨 頤 範 皮 埓 圷 馴 収 猯 蕎 錫 鵤 晃 墾 接 教 笂 棟 語 栽 征 遣 葺 脚 靱 犢 習 奏 業 碑 豪 鋼 舳 限 礎 営 稽 蝶 晶 顕 叡 響 紡 答 例 閤 峅 娚 飴 繩 剱 緤 咋 誠 恐 茱 尉 椙 陶 鼎 税 伴 祈 捨 袈 裟 研 訶 孕 萸 墹 廊 橦 旛 康 溪 莨 敲 劔 惟 凪 泰 完 談 鶇 崗 枠 汗 效 凧 億 噴 麩 莪 梛 幼 績 鯏 漕 皷 爾 注 慥 便 欲 靭 坤 皀 莢 弾 樵 也 猩 滕 轆 轤 換 卓 錺 芒 撞 耆 佳 伶 章 遇 茸 責 客 渦 腐 崇 呪 籟 孑 復 甸 鈩 掎 膚 忌 鬮 淞 杼 敬 薪 警 固 涯 縢 棯 令 装 楼 浴 硫 饌 拳 勺 救 姪 亭 坑 駛 祷 俗 眞 尽 栴 催 琳 碩 葱 悟 刃 筌 繰 矼 渠
n=96術 蛾 瑛 討 第 砿 奮 沃 壮 瞥 鳧 希 宏 苺 梹 榔 鐇 嗽 饅 虚 橇 箒 覆 皇 鳰 儘 域 剰 季 縊 帽 鋏 巌 艀 秣 蜘 犀 伸 奇 窕 倶 鬚 雌 非 斑 再 猷 史 承 睡 蟷 螂 縞 籔 褒 邇 焔 魔 杠 閻 曼 楳 岼 故 珀 融 招 急 蔀 湛 椒 委 國 衙 檪 誓 辱 昧 庖 猛 猴 篝 病 災 栩 刷 裁 薊 絶 后 告 値 朶 枦 諫 菓
n=183央 簾 藻 岬 追 汲 眉 稜 郭 泊 函 忠 幕 士 基 線 釧 自 由 拓 頃 未 字 表 勇 橘 昆 沙 歯 歌 威 麓 毘 博 厘 政 作 郛 讃 足 株 団 農 憩 瑠 占 男 猿 停 稚 芽 庶 鏡 類 弗 螺 集 趾 供 鐺 呑 造 蛍 茜 悪 腰 螢 蟹 柱 鎧 杷 餅 岫 提 往 丈 労 鍜 蟇 轟 侍 畦 鞍 嚢 転 記 鎗 針 残 幅 緩 鰍 枡 鈎 鋳 蛤 埣 物 圃 笑 躰 駕 陳 盆 逢 短 蓋 韮 碇 彩 遊 鞁 筏 囲 梵 綴 防 始 梯 憧 塗 硲 句 於 騎 倭 埼 鴫 医 榛 触 藪 蕃 使 典 改 荏 企 帆 逸 称 寝 曹 為 躬 破 軸 斐 眼 燈 礫 灯 朽 勾 畷 榑 芥 退 窯 但 筬 密 帖 蠣 削 琉 撲 紹 餉 潰 帝 禁 毫 礒 店 詫 筥 紐 酘 泗 姶 頴 娃


 「町」と「台」が同じクラスターに入ったのだし(※しかし「n=618」の中に埋もれたけれど)、これでよかったのかね。(棒読み)確かに「V6」(「6文字の町名に出る確率」)の高い低いで輪切りにして、あとは「V2」または「V3」の高い低いで輪切りにしたようなクラスターができているように見えるわアリガトウ。つまりは「いきなりCART®」で見えるのとだいたい同じことが見えたということですね、わかります。(棒読み)無理やりにでも何か違う見かたをといえば、「V5」と「V6」の散布図で見て原点からの角度みたいなので表現してもいいのかしら。(…えーっ。)

 まったくランボウではあるけれど、ここから「n=618」と「n=557」のあわせて1175個の漢字だけ使ってテキタウな町名を生成してみせればいいのかしら。あまりバリエーションがない気もするけれど、いくつできるのかしら。(※表現は演出です。)

 https://keisan.casio.jp/exec/system/1161228811

 > 異なるn個のものからr個を選んで並べる順列の総数nPrを求めます。

n=1175順列
r=21,379,450
r=31,618,094,850
r=41,896,407,164,200
r=52,220,692,789,278,200
r=62,598,210,563,455,494,000


 ええーっ。

 https://www.thinkpark.jp/about/outline.html

 そしてなんと16文字「大崎ThinkParkTower」が混ざっていたのでぜんぶやり直し。…がびーん。よもや「郵便番号データ」に全角英字が入っているとは思ってもみなかったとはこのことだよ。消防のGISなどにも全角英字で入っているのかしら。(※恐縮です。)

 遡って上掲のファイルは修正済みです。

※「駅」「国」「宮」それに「農場」「埠頭」も除外して、単漢字では「n=2286」になりました。

 この直前の表では、「n=618」のところから「T h i n k P a r o w e」といって、11個ほど減ります。ほとんど影響はなさそうですよ。ちなみに12文字あるというのは「木内虫幡上小堀入会地大平」でした。(棒読み)

 https://kotobank.jp/word/%E5%8D%83%E8%91%89%E7%9C%8C%E9%A6%99%E5%8F%96%E5%B8%82%E6%9C%A8%E5%86%85%E8%99%AB%E5%B9%A1%E4%B8%8A%E5%B0%8F%E5%A0%80%E5%85%A5%E4%BC%9A%E5%9C%B0%E5%A4%A7%E5%B9%B3-944146

 …これがまた千葉なんだなこれがっ。(※恐縮です。)

 https://retty.me/area/PRE12/city/122362890308/

 > 木内虫幡上小堀入会地大平(香取市)でみんながオススメする人気グルメまとめ

 …はひ!?

 > 木内虫幡上小堀入会地大平(香取市)でみんながオススメする人気グルメまとめ

 > 佐原、水郷駅からタクシーで行ける距離の焼肉のお店
 > 水郷駅(3.5km)

 あなた本気で言ってます?(※見解です。)


☆なんと「郵便番号データ」に「グラフ理論」を(再)


 「溜池山王子安善光寺山北八王子安善…」みたいになってもいいとして(よくないけど)、ある1文字と別の1文字がその順に並びますということを有向グラフで表現できます。回数を数え上げれば重み付きのエッジ(リンク)になります。なるほど「HITSやPageRankなどの」を適用できそうだよとはこのことだよ。…「などの」!!(棒読み)

※「HITSやPageRankなどの」:具体的すぎる名前で呼んでくれてどうもアリガトウ、の意。(ぜんぜんアリガトウじゃない。)

・始まりと終わりを区別したければ、「S溜,池,山,王E」みたいな文字列に置き換えてから数えればいいんだよね
・「王E」と「王」を別物として扱うことになるけれどいいよね(あまりよくない気がする)

 うーん。いちどにぜんぶ考えないで、調べたいことを絞るとよさそうだね。「調べたいこと別!」に何種類でもグラフ(隣接行列)をつくればいいんだね。(棒読み)

・「行列を習い始めたら高校生にも分かりやすいように」(2016年6月9日)
 https://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q12160289042

※「たら」は原文ママ。

 > (全略)

 長いよ! 長いというだけでアウトだよっ。(棒読み)

 > シュミレーション

 やーいシュミレーション。

 > このとき十分時間が経過した後に
 > このとき十分時間が経過した後に

 > aを固有ベクトル、λを固有値と言います。こういった動かそうとしても動かない特殊なものは他とは違う特別な性質を持っていることが多く、数学ではよく注目されます。

 ここだけでよさそうですよ。固有値を知りたいから固有値分解するんだね。どんな行列でも問答無用で(略)特異値分解だがね。それだけだよ。…『それだけ』!!(棒読み)

・(前略)…SVD! SVD!
 https://www.jss.gr.jp/wp-content/uploads/K153.pdf

 > 「紙テープを目分量で10cmに切る」という教材

 > 今回の実践では,生徒の実験データを中心に扱いました.社会的なデータを扱う必要性もあったと反省しています.しかしその反面,社会的関心がまだそれほど高くない中1では,授業で実験データを中心に扱って,データに存分に親しむことを優先していくことが肝要なのではないかとも感じています.そして,仮説と検証の繰り返しによる探究的な学習につなげていけるのではないかとも考えています.

 > 社会的関心がまだそれほど高くない中1
 > 社会的関心がまだそれほど高くない中1

 「社会的なデータ」のちょうどいいのを見つけてくることも教材化することもできなかったじぶんを棚に上げ「この子がね」みたいな…じゃなくて。(※見解です。)

 > 高次元小標本データ(次元数が数万を超える,標本数は数十程度)

 > Yata and Aoshima(2009, CSTM)の主定理は,通常の固有値推定は高次元小標本であると一致性をもたない,というものです.
 > 私どもが試みたアイデアは,データ行列を分割して標本共分散行列を複数構成し,(略)ある時,ふと見た実験結果から,ある行列の特異値が,固有値に極めて良い近似を与え,

 > 固有値・固有ベクトル・主成分スコアに,高次元小標本であっても一致性を保証する推定を与えることができます.漸近最適な不偏推定やクラスタリングなどの方法論の構築にも応用できます.これらの結果は,Yata and Aoshima(2010, JMA)に纏めました.

 既にPageRankというものがありながら、それはちょっと恥ずかしい主張ではありませんか。本当でしょうか。

・馬場センセイ(2001年2月1日)
 http://baba.la.coocan.jp/wais/pagerank.html

 > Googleのやっていることは、このような固有値問題を規模を非常に大きくしてやっているということになるのである。

 > そもそも、全部の固有値/固有ベクトルを計算する必要はない。
 > 線形代数の簡単な定理(ペロン・フロベニウスの定理)から、 推移確率行列の絶対値最大の固有値は1であることに注意しておこう。このことを用いれば、反復法でのPageRankの計算がよりやりやすくなる。すなわち、最大固有値が既知であるから、 Ax = x を満たすベクトル x を求めよという、より簡単な問題に帰着されるからである。

 > 仮想モデルで「できるはずだ」ということと、動くものを示して 「ほらどうだ」ということの間には、天と地ほどの差があるのである。

 ほぉお。(※恐縮です。)

 > PageRank の考え方そのものは、世界中の全webページの場合でないと 適用できないものではなく、個人的な利用法であっても実現できるはずである。

 行列が小さすぎると『次元のめぐみ©』が得られないと思いました。…その発想はなかった!(棒読み)

[3639]
 > 『次元の呪い!』などというキャッチーな表現にとらわれたわれわれ、わずか4次元や5次元の多変量データに対しても「2次元じゃないとヤダー」みたいな(略)ゲフンゲフン。ある程度の次元数では、むしろ『次元のめぐみ!』が生じているんだということを考えないといかんですばい。両手を掲げてめぐみんー! まだ爆発してない多変量データは爆発させたほうが中身が見えるようになるのだよ。(違)

 > あやめのデータは150件なので、3つ間違えたという状況が見えます。

 そんな小さなデータを例題にしていては、わかるものもわからなくなってしまうとはこのことだよ。(※見解です。)

・「この子がね」京都女子大学発達教育学部紀要(2005年)
 http://repo.kyoto-wu.ac.jp/dspace/bitstream/11173/855/1/0080_001_008.pdf

 > 拡散統合型(年長男児)
 > この子がね,おもちゃ投げてね,それから,人形も投げて,絵本もね,マジックもね,投げて,それからね,怒ってね,それから,カンカンになった。ちゃんとお留守番しょったん,家出した。それからね,本もね,おもちゃとね,お母さんのケーキとね,ね, ドーナツね,家出して,持って行った。それで……それで……これくらい。絵本も持って行って,マジックも持って行って,この絵本と,これとこれと,行った。……それで,お腹すいたけんね,返してあげた,お母さんのドーナツとケーキ。それからね,家の偉い子になったけん, もう家出せんことにしたんだ。それぐらい。

 うわぁ年長男児。(棒読み)

 > 収束統合型(年長女児)
 > お出かけしてねー……ディズニーランドに行ってね,この子にね,おみやげ買ってきてね,そして,明後日までね,寝て,お泊まりするん。

 お泊まりするん。…お泊まりするん!!(棒読み)


☆「郵便番号データ」を『多変量らしい』多変量データたらしめるには(仮)


 どうすれば『多変量らしい』多変量データになるのでしょうか。20日ほど忘れてから改めてデータを眺めます。

・(1)【強さ】1文字でも町名になる漢字→1文字の町名におけるその漢字の延べ出現回数(1文字の町名の総数で正規化)
・  (上掲)2〜6文字の町名におけるその漢字の延べ出現回数(その漢字を含む町名の総数で正規化)
・(2)【長さ】(または)その漢字を含む町名の文字数の最頻値
・(3)【つながり度】{前に|後ろに}連接する漢字の種類の数(グラフでいう次数=『つながりの数』)
・(4)【はしっこ度】(その漢字が含まれる町名のうち)その漢字で始まる町名の割合・その漢字で終わる町名の割合(異なり数=同じ町名は1回だけ数える)
・(5)【ありふれ度】その漢字を含む町名が存在する都道府県における、その漢字を含む町名が存在する市町村の数(平均値)
・(6)【ご当地度】その漢字を含む町名が存在する都道府県の数

 うーん。▼その漢字だけで町名になれる(※比ゆ的に「じぶんの足で立てる」)ということを「強さ」と仮に呼んでみます。▼『つながりの数』と表記すればNHKの番組で次数中心性みたいなことを使ってみせてよいようですよ。えー、どれどれ?(以下略)▼「本質的な変量に集約」([3573],[3579],[3640])して並べたいというときには「chomeitankanji2vec」のように展開するのでなく中央値などを使いたいと思えてきます。


(2019年5月24日に追記)

 「1文字でも町名になる漢字」はほんのわずかしかありません。そのまま使うと極端に0か1かという『荒い』変量になってしまいます。

 町名の文字数を短いほうから見て行って「2文字の町名に出てくる漢字」「3文字の町名で初めて出てくる漢字」から「6文字の町名で初めて出てくる漢字」までがあって、また2文字以上の町名で「1文字目に出てくる」のかそうでないのかという違いがあります。これらのこと全体をポヤンと指して「じぶんの足で立てる」「強さ」という1つの変量にまとめたいと思えてきませんか。…みなさんで推理してみてください!(棒読み)

 そして「町」という漢字は特別扱いして、ここでは除外したほうがよいのでしょうか。それともほかの漢字と区別なくいっしょに分析すればいいのでしょうか。…よーく考えよう!(棒読み)

 https://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q1322744323

 > 数学の問題で逆数を取ると言う言葉が出てきました。

 われわれ「逆数をとる」「対数をとる」と発話しますが文章には書かない、もし書くとしても「取る」という漢字では書かない、あえて書くなら「採る」だよね。「…なにがいいかな、…なにがいいかな」からの「そうだ! きょうは逆数にしよう!!」(棒読み)みたいな、ほかのものではなく逆数にしますよ、「逆数にする」という『アイデア』を採用しますよという「採る」なんですよ。「取る」という漢字で指示されたら、「取り去る」「捨てる」というニュアンスが先行してしまいませんか。国語の問題ですね、わかります。(※見解です。)

 https://okwave.jp/qa/q1047904.html

 > 「何の計算もなく」ただ単に「ひっくり返すだけ」と参考書に
 > 書いてありましたので、こんなのでいいのかとふと疑問に思ってしまったのです。

 参考書の記述(の質)をきちんと疑問に思う…よきかなよきかな!(※恐縮です。内容や方法に対する疑問というより参考書の文章にイラっとしたという訴えであるとお見受けしますぞ。)


 いっぽうそのころ(違)▼「【ご当地度】」みたいなものは数で数えるのでなく、「ご当地ベクトル!」などと称して『センター』を選び…じゃなくて、47次元のベクトルにしたくなってまいります。なるほど「TensorFlow™」の出番だよとはこのことだよ。しかし、ここでは平たくつぶれた分析だけを行なって何かを濁します。(※恐縮です。)「【ありふれ度】」とセットで“はさみうち”にする感じがどことなくtf-idfっぽい([3658])とはまさにこのことだよのほうなどおつけして…ゲフンゲフン。

※まったくエレガントとは言えませんが、「ご当地ベクトル!」だけの主成分分析を先に行なって第1主成分の主成分得点を使うという方法でもよいのではありませんか。本当でしょうか。いくつかの出力をほかの入力につなげてあげる(※「つなげてあげる」に傍点)とニューラルネットワークだよね。…その発想はなかった!(棒読み)

・(再掲)たぶん同じことを考える勉強中のひとがセカイにあふれているはずだ。…小さくなったなぁセカイ!(※表現は演出です)
 http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.160.8211&rep=rep1&type=pdf

 > FCM-ICA-NN
 > FCM-PCA-NN
 > FCM-NN
 > PCA-NN

 > The back-propagation neural network (BPNN) used in this study is a three-layer feed-forward structure.

[3676]
 > …ぬふっ。このへんを勉強しているときがいちばんおもしろいってことじゃありませんか。(棒読み)

・(再掲)ウィキペディア「tf-idf」
 https://ja.wikipedia.org/wiki/Tf-idf

 > 多くの文書に出現する語(一般的な語)は重要度が下がり、特定の文書にしか出現しない単語の重要度を上げる役割を果たす。

 わずか(※「わずか」に傍点)2つの変量しか見ないで「上げる」「下げる」というtf-idfの粗雑さよ。(※見解です。)それでも実用的な重みがついてくる(※「ついてくる」に傍点)のがtfおよびdfという指標ではあるので、これはやはりいろいろな多変量のうちの2変量として採用しておきたいということであります。

変量
(A)単漢字の分布【強さ】
【長さ】
町名の1文字目への出現しやすさ(仮)
その漢字を含む町名の文字数の最頻値
(B)単漢字の連接【つながり度】
【はしっこ度】
隣接行列(2286次元)の第1主成分と第2主成分
(C)地域的な分布【ありふれ度】
【ご当地度】
「ご当地ベクトル」(47次元)の第1主成分と第2主成分


 うーん。沖縄と北海道そして焼酎とみその分布みたいなことになりませんか。(※恐縮です。)三菱商事食品グループからの「オタフクソース」については[3492]を参照。

・宝酒造です
 https://www.takarashuzo.co.jp/kodawarigura/map/index.htm

 > 麦焼酎は、長崎県壱岐を発祥の地とする焼酎です。
 > 精麦した大麦が原料になりますが、大分の麦焼酎が【麦麹+麦】が主流なのに対し、壱岐焼酎は【米麹+麦】でつくるといったように製法はさまざまです。

 > 宮崎県の高千穂地方での生産が盛んなそば焼酎。

 > 桜島の火山灰で覆われた水はけのよいシラス台地、そして暖かい気候という最高の条件のもとで育ったさつま芋

 > 鹿児島県の奄美大島諸島のみで造ることを許された焼酎で、特産品である黒糖を原料に

 > 沖縄で昔から造られている本格米焼酎。黒麹菌の米麹だけを原料とし、タイ米を使用するなど、他の地域で造られる米焼酎とは、原料・製法ともに違い

 ぬおー…。(※恐縮です。)

・のうりんすいさんしょー「お国自慢みそマップ」
 http://www.maff.go.jp/j/pr/aff/1012/img/spe2_il_01.gif
 http://www.maff.go.jp/j/pr/aff/1012/spe2_02.html

 「お国自慢みそマップ」を英語で言えますか。(違)

 > 大豆に麹と塩と発酵菌を混ぜて熟成させる、と製法はいたって単純ながら、麹の種類や原料の配分、水や気候風土の違いにより実に多彩な味と風味をもつみそ。

 > 大豆に麹と塩と発酵菌を混ぜて熟成させる、と製法はいたって単純ながら、麹の種類や原料の配分、水や気候風土の違いにより実に多彩な味と風味をもつみそ。

 だから漢字では味噌と書くのだよ。(棒読み)

 > Q.みそにはJASマークがありますか?
 > A.みそは種類が多くグループ分けが困難なこと、酵母や乳酸菌が生きたまま存在するため、基準となる理化学的な分析値を維持できないなどの理由から、JAS規格の設定がありません。

 だからそれを味噌と言うよ。(※「それ」に傍点。)

・「味噌」とはにわ旅気分(※キャプションは演出です)
 https://kotobank.jp/word/%E5%91%B3%E5%99%8C-138723

 > 未醤 (みしょう) として8世紀頃の記録に残っている。
 > 重く,輸送に適さなかったため全国各地に多くの製品がつくられた。

 ふっ…ふねがしずむっ。…むにゃむにゃ。(※寝言はイメージです。)

 https://ja.wiktionary.org/wiki/%E5%99%8C

 > かまびす-しい

 > さわがしく鳴くさま。主に鳥の鳴き声を形容する。
 > やかましい。

 いろいろな鳥がいちどきに鳴いているようなやかまし…いえ、複雑な味がするようすを「味噌」と言うデスよ&ですでーす!(※勝手に推定。)

・超合成©「ご当地ベクトル」とはにわ
 https://www.amazon.co.jp/dp/4797382325
 https://www.jalan.net/gourmet/cit_082070000/

 > 結城市のご当地グルメランキング
 > ベクトルの真実

 > 結城氏が明かす「ご当地ベクトル」の真実

 は、明日発売デース…ゼッタイこれじゃないやい。(棒読み)

 http://www.yukinanbu.jp/

 > 富士見町地区
 > 四ツ京地区
 > 逆井地区

 …なっ! 泣く子も黙る四ツ京は三ツ境よりつよい!(違)弱冷房車…じゃなくて、結城市にも富士見町や逆井という町名があるんですね。(※恐縮です。)

 http://www.city.yuki.lg.jp/sp/page/page000669.html

 > 平成26年9月1日から平成26年9月30日の期間で募集した,四ツ京近隣公園の愛称について,応募総数61点のなかから,厳正な審査の結果,「わくわく山公園」に決定いたしました。
 > 市長が選考し,決定いたしました。

 近隣公園の管理者である結城市として決定したという意味ですよね。(棒読み)

 https://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q11160365101

 > E501系付属5両編成の弱冷房車は何号車か分かりますか?

 …はひ!?

 > E501系付属5両編成の弱冷房車は何号車か分かりますか?

 > 4号車(下り列車だと先頭2両目)です。

 https://ja.wikipedia.org/wiki/%E6%B0%B4%E6%88%B8%E7%B7%9A

 > 下り列車が小山発勝田行き、上り列車が水戸発小山行き

 https://blog-001.west.edge.storage-yahoo.jp/res/blog-97-68/soranokiseki_shiohigaru/folder/520994/63/15048763/img_1_m?1489897415
 https://blog-001.west.edge.storage-yahoo.jp/res/blog-97-68/soranokiseki_shiohigaru/folder/520994/63/15048763/img_4_m?1489897415
 https://blogs.yahoo.co.jp/soranokiseki_shiohigaru/15048763.html

 水戸線の弱冷房車は4号車で、いちばんうしろが5号車だということです。

 > 小山駅は、上野方面から水戸線へ入るにはスイッチバックしなければならない配線となっているが、これでは貨物列車の直通に支障があるため、1950年(昭和25年)に東北本線の間々田駅方面から小山駅を経由せずに水戸線結城方面に直通可能な短絡線(小山駅の構内扱い)が新設された。
 > この短絡線は、1986年(昭和61年)11月のダイヤ改正後は実質的に廃止状態となり、2006年(平成18年)2月頃から撤去工事が始まった。同年5月には踏切と架線の撤去が完了、12月にはレールや枕木、バラストも撤去された。跡地には小山市が公園を建設する予定である。

 その公園も「わくわく山公園」でいいじゃない。…小山市だけに。(※個人の感想です。)

[3514]
 > 上越新幹線の「こだま」みたいなの(!)って、なんていうんでしたっけ…みたいなの(!!)

 大きな声を出すと反射してくるコンクリートの壁(※本来は球技の練習用)がある公園はぜんぶ「やまびこ公園」でいいよね…じゃなくて。

 > 「東京・北海道タイプ!(この2者だけ!)」「埼玉・兵庫・岡山タイプ!(通勤快速&家庭でお好み焼きっ!)」「長野・千葉・宮城タイプ!(城下町でコシヒカリと果樹!)」…みたいなことになっちゃいそうですよねぇ。…ギクッ。そうならないように、最初から「各データが複数のカテゴリに属する多重分類問題」([3403])というものをだなぁ(略)。

 これだね。

・日本コンクリート「スポーツウォール」のイメージです
 https://www.nippon-c.co.jp/images/products/sports/sportswall/img_mainimage.png
 https://www.nippon-c.co.jp/products/sportswall/sportswall.html

 > スポーツウォールは野球のバックネットやテニスの壁打ち練習など、あらゆるスポーツの練習に用いる壁形態の運動用具として、主に公園やグランドに使用されています。

 …壁形態!!(棒読み)にっこんぽんくりーと@置くだけっ。

 > 工場製品であるため、大幅な工期短縮が見込めます。

※「壁形態」:壁状の、壁の形をした、の意か。「工場製品」:工場で生産、の意。

 > 1934年のプロ野球発足から80周年の年になるのを記念し、日本野球機構が、野球に親しむ子供たちをはぐくむ小学校、あるいは地域の公園に、「壁当て遊び用の壁」を寄贈する事業として造られました。
 > 表面にはプロ野球の強打者をイメージしたデザインが施されており、4つの角には安全対策としてクッション材を取り付けています。
 > 将来的には47都道府県に寄贈される予定です。

 > 「壁当て遊び用の壁」
 > 「壁当て遊び用の壁」

 …身もフタもない。

 https://goo.gl/maps/igWGmxqHrQv

[3662]
 > わあぃどきどきドッジボール…じゃなくて(略)ドッジボールどこから出てきたし!(違)

 https://kotobank.jp/word/%E5%BC%B7%E6%89%93%E8%80%85-478635

 > 野球で、長打力のある選手。猛打者。スラッガー。

 「予報文には用いない「快晴」」([3584])と同じく、「強打者をイメージしたデザイン」みたいには使えない言葉が「強打者」ではありませんか。…(壁の絵では)まだ打ってないし&その発想はなかった!!(※見解です。)「特定のマーガリン」([3670])という意味で「特定の強打者」がイメージされているのなら結構でございます。…『結構』!!(※表現は演出です。)

[3671]
 > うー…ミソっ!(われわれおたまをふりふりおなべのふた…げふ…以下略)
 > …こんなはずだけどこんなはずじゃなかった。……こんなはずだけどこんなはずじゃなかった!

 > …あのねあのね! うみのむこうのはぽんでは、ぽてとをしゅうかくしてるばしょとだいとかいがうんとはなれているんだよ。だからこうじょうでぽてとさらだにしてからはこぶんだよ。

・(再掲)
 https://www.aoni.co.jp/search/items/TatsutaNaoki_06.mp3

 > パン。…食パン!
 > 「『特定のマーガリン』じゃなきゃヤダー!!」って身をよじる食パン!(笑)

 …結構なマーガリンでございます。(違)

 https://goo.gl/maps/1a4Xqj36y6K2

 > ルートにっぽり

 …そっちは「ローソンの2階」からの「ルートにっぽり」([3593])ですよぅ。

 https://igx.4sqi.net/img/general/width960/7971153_xMJv1pTbU4UTwyJmaaqcZtyg0lOE2mqxsyaiHQUU5j8.jpg

[3593]
 > …えっ、ローソンに「2階」があるんですかっ。

 > 「ルートにっぽりのお時間です@ごきげんよう」みたいな(中略)大きなサイコロ(略)ライオン(違)競馬中継のブースみたいなのーっ!!(棒読み)

 https://www.google.com/search?q=%E3%83%AB%E3%83%BC%E3%83%88%E3%81%AB%E3%81%A3%E3%81%BD%E3%82%8A%E3%81%AE%E3%81%8A%E6%99%82%E9%96%93%E3%81%A7%E3%81%99&ie=utf-8&oe=utf-8

 > ルートにっぽりのお時間ですに関連する検索キーワード

 ええーっ!!

 > 東京駅から日暮里駅
 > ここから日暮里駅まで
 > 新宿から日暮里まで
 > ここから日暮里までバス
 > 現在地から日暮里まで
 > 東京 日暮里
 > 東京駅から日暮里駅 山手線
 > 日暮里までの行き方
 > 東京から日暮里 山手線
 > 日暮里駅から成田空港

 …そういうクエリではないことが明らかではあると思うんですけど。(※見解です。)

 https://www.google.com/search?q=%22%E3%83%AB%E3%83%BC%E3%83%88%E3%81%AB%E3%81%A3%E3%81%BD%E3%82%8A%E3%81%AE%E3%81%8A%E6%99%82%E9%96%93%E3%81%A7%E3%81%99%22&safe=active&tbm=isch

・「MJ文字情報」
 https://mfbunkoj.jp/special/asterisk/img/world/world_bg.png
 https://mfbunkoj.jp/special/asterisk/

 > Current time

 …Current time!! 刻々と刻まれるCurrent time。しかし「2016.08.25」だった。(棒読み)…そっちはMF文庫Jですよぅ。翻って▼「MJ文字情報」を駆使すれば、画数や部首という『漢字そのものが持つ特徴量』を「(D)」として追加できそうです。

・(再掲)「MJ文字情報」
 https://mojikiban.ipa.go.jp/1313.html

 > 部首(参考)
 > 部首欄には部首番号を記した。『康煕字典』の部首の通し番号により、1から214までである。

 > 内画数(参考)
 > 内画数欄には部首内画数(部首を除いた残りの部分の画数)を記した。
 > 総画数(参考)
 > 総画数欄には文字の総画数を記した。

 うーん。偏と旁なら偏だけみたいなことにされてしまうのが部首ですよね。…それを部首と呼ぶよ。(棒読み)

・「部首」とはにわ知りたい
 https://kotobank.jp/word/%E9%83%A8%E9%A6%96-124528

 > 漢字を字画構成に従って部分けをし、各部ごとにその共通要素である字形を頭に示して索引の用に当てたもの。
 > デジタル大辞泉

 いくつかの「部」(パーツ)に分かれたうち、目立つやつ! …ここでいう「首」とは「首位」「首席」「首都」と同じ「いちばんのやつ!」という意味だよね。…その発想がなかった!(※「が」に傍点。)

[3666]
 > > **幼稚園を2年で卒業。

 …コレジャナイ。

[3660]
 > ウサギさんチームは2位でしたとか(違)
 > 氷に塩をふりながらギクッ!!(※表現は演出です。)

 …これでもない。

・「ナンバースクール」は和製英語なのデース(※キャプションは演出です)
 https://kotobank.jp/word/%E3%83%8A%E3%83%B3%E3%83%90%E3%83%BC%E3%82%B9%E3%82%AF%E3%83%BC%E3%83%AB-590712
 https://kotobank.jp/word/%E5%A4%A7%E6%B4%A5%E4%BA%AC-39395

 > 設置順に数を冠せられた一高から八高までの旧制高等学校。後に設立され、地名などを冠した高等学校と区別していう。
 > 諸人の反対を押切って大和の飛鳥から移した

 …はいはーい!! 大津京と四ツ京はどっちがつよいんですかっ!?(※表現は演出です。)

 https://ja.wikipedia.org/wiki/%E3%83%90%E3%83%BC%E3%82%B3%E3%83%BC%E3%83%89%E3%83%90%E3%83%88%E3%83%A9%E3%83%BC

 > 読ませるバーコードによって能力が異なるため、ユーザーはより“強いバーコード”を探す楽しみがあった。

 なんでもかんでも「どっちがつよい!?」みたいな時代を感じていればバーコードがあったはずだ。(違)

 > 小田急ステーションウォーズ

 …小田急ステーションウォーズ!!(棒読み)

 https://eow.alc.co.jp/search?q=numbered

 > 〔スイスの銀行の〕番号[匿名・無記名]口座

 番号しか付いていないということですね。(※「しか」に傍点。)

 > 〔コレクター向け商品などの〕シリアル番号入り限定版

 わざわざ番号が刻印してあるということですね、わかります。(※「わざわざ」に傍点。)番号が振られているということだけではなんともいえない(それはそれだけのことに過ぎない)とわかります。

 > 〔物・建物・組織などが〕もうあまり長く存続できない

 「数えきれない」の対義語で「数えるほどしかない」というシリアスな用例もあるので地味に困るとはこのことだよ。(※個人の感想です。)

・『シリアスナンバー』とはにわ
 https://www.1101.com/mm/130.html

 > 「へくしゅん」が「へくち」となります。

 …じゃなくて。

 > 今年度の会社指針を決める社内会議にて、
 > 「以上、これをわが社のコンセントとして」
 > と響き渡る部長の声。誰も
 > 「そりゃぁコンセプトでしょ〜!」
 > とは突っこめずに、
 > 会議はつつがなく終了しました。
 >
 > その部長はパソコンにソフトを
 > インストールする際、
 > 「シリアスナンバーは何番やったかな?」
 > と大声で聞くツワモノでもあります。
 > そのたびに私は、
 > 「シリアルナンバーですね」
 > とやんわり訂正するのですが、
 > 何度言っても効果はなく、どうやら
 > 彼の頭の中には「シリアス」な問題として
 > インプットされているようです。

※空行と改行位置は原文ママ。

 やーいシリアスナンバーっ。数えきれるほどしか残りがないってことですね、わかります。(違)

・「首席」とはにわ
 https://ja.wikipedia.org/wiki/%E9%A6%96%E5%B8%AD

 > 最高位またはその人のことを指す。教育機関(特に大学)や、オーケストラの中で用いられる。

 > 第1、第2ヴァイオリン、ヴィオラ、チェロ、コントラバスそれぞれに首席奏者がおかれ、それぞれのセクションの最前列に座り、トゥッティと呼ばれる他の全奏者に弓使い・音楽・タイミング等の細かい指示を出し、セクションをまとめあげる。

 > 他の首席奏者とも緊密に連携を取り合うことが求められ、またソロ部分があればソロを担当する。
 > 「首席奏者」とは役割分担・役職であるので、決してセクションで「最も巧い奏者」と同意ではないことに注意。

※『同意ではない』:「同じ意味ではない」「同義ではない」といいたかったらしい。

 …そなたはもうじゅうぶんに巧い!(棒読み)

・「同意」とはにわ
 https://kotobank.jp/word/%E5%90%8C%E6%84%8F-579477

 デジタル大辞泉の順に2列で並んでお待ちください。大辞林の順は意味の順で、いちばんうしろがいちばんよく使われる用例です。…なにそれ聞いてないよぅ。(棒読み)「同じ意味」という意味で「同意」という語を使う場面は現在ではほとんどなく、「同意の語」という用例と異なる形ではおよそ使われないという感覚がありませんか。…ないから書いているんですね、わかります。(※見解です。)

・レファレンス協同データベース「漢字の偏(へん)、旁(つくり)は、漢字によってどうやって判断するのか知りたい。」島根県立図書館(2013年4月19日)
 http://crd.ndl.go.jp/reference/detail?page=ref_view&id=1000130567

 > 漢字の構成要素である偏旁冠脚など
 > 漢字の構成要素である偏旁冠脚など

 > 偏旁冠脚(へんぼうかんきゃく)

 …へん! ぼう! かん! きゃく! ▼「ネオスチグミンメチル硫酸塩を「ネオスチグミン! メチル! 硫酸塩っ!」などと区切って叫ぶ」については[3489]、それに▼社団法人日本将棋連盟からの大阪府豆腐油揚商工組合ならびに京都府豆腐油揚商工組合「豆腐作り指導」については[3652]を参照。(違)

 > 「部首ではなく、へん、たれ等の各グループによる漢字の分け方が知りたい。(上智大学図書館:sophia2008-001)」

・レファレンス協同データベース「部首ではなく、へん、たれ等の各グループによる漢字の分け方が知りたい。」上智大学図書館(2009年3月17日)
 http://crd.ndl.go.jp/reference/detail?page=ref_view&id=1000052526

 > 偏旁冠脚など、漢字を構成する項目毎にまとめた『偏旁冠脚の字典 : 漢字明解実用本位 / ****著』が利用できる。

 書籍のタイトルに「字典」とあってもぜんぜん字典じゃないやい(被覆率とも呼ばれるカバレッジがガヴァガヴァだっぜ★)みたいなのって、あるんですよね。(棒読み)

 > ”漢字の字形が、左右、上下、内外など二つの部分に分けることができる場合に、左の部分を「偏(へん)」、右の部分を「旁」(ぼう・つくり)、上の部分を「冠」(かん・かんむり・かむり)、下の部分を「脚(きゃく)」という。・・・・漢字を字形のうえから分類して配列した辞書が古くからつくられたが、その際の項目として前記のような偏旁などをたてたとき、それらを「部首」という。・・・現在では『康煕(こうき)字典』のたてた214部首が広く行われている。”

 ほぅ。(棒読み)

 > 非学術データ: フリー百科事典『Wikipedia』の利用。
 > ’偏旁 ’で検索すると、’偏旁の名称’の項に、偏旁冠脚構垂繞の順に

 > 偏旁冠脚構垂繞の順に
 > 偏旁冠脚構垂繞の順に

 足元の青色の数字1番から17番で(大巾に中略)『いちばんうしろが1号車です』みたいなことを言われそうではあります。(違)

 http://www.geocities.jp/sasatomo231/atoshousou.html

 …じゃなくて。

 https://ja.wikipedia.org/wiki/%E5%81%8F%E6%97%81

 > しかし、構成要素として「木」は「杯」のように偏になったり、「床」のように覆われていたり、「柔」のように下にあったり、「朱」のように中心にあったりするものがあり、配置位置と必ず結びつくものではない。また配置位置を表すものとしても7種類しかないので偏旁の配置構造を十分に説明できない。

 デスヨネ〜…。しかし、214の部首と「内画数」では説明できないことを「総画数」(の多さ)が説明してくれるようですよ。えー、どれどれ?(※そういう意味の「説明」ですかっ。)

・「被覆率を英語で言えますか」…じゃなくて、「カバレッジを日本語で言えますか」付近
 https://eow.alc.co.jp/search?q=%E8%A2%AB%E8%A6%86%E7%8E%87
 https://images-na.ssl-images-amazon.com/images/I/51FKSRQJ3PL.jpg

・いろいろな指導のイメージです
 https://ja.wikipedia.org/wiki/%E3%81%B5%E3%81%9F%E3%82%8A%E3%81%A3%E5%AD%90#%E3%82%B9%E3%82%BF%E3%83%83%E3%83%95

 > 大阪言葉指導
 > 讃岐言葉指導
 > 豆腐作り指導
 > 将棋指導
 > ピアノ指導
 > ビリヤード指導

 連続テレビ小説って、いろいろな指導でできているんですね。(棒読み)

[3438]
 > > インターネット接続パソコンを最大30分無料で使用することができます。
 > > インターネット接続パソコンを最大30分無料で使用することができます。

 > パソコンって、▼中央演算装置や▼主記憶装置、それに▼補助記憶装置など、いろいろなものでできてるんですねっ([3178],[3282]なども参照しつつ中略)わたしたち「自動 PUSH 押して下さい」と書かれた自動扉にさっそうとぶつかりながら図書館に通い詰めさえすればC言語とJavaは一通り、次はPHPです!([3071],[3166],[3418]

 > そのような教科書と図書館でめぐりあえたなら、必ずや「C言語とJAVAは一通り」に達することができましょうぞ。(※見解です。)

 > 那珂川町図書館「C言語」に関する蔵書です
 > 那珂川町図書館「JAVA」に関する蔵書です
 > あくまで那珂川町図書館で探す「パソコン」に関する蔵書の一例です

 > > CONFIG.SYSがわかる本

 …CONFIG.SYSがわかる本!!(棒読み)

 > 「使ってみるとやめられないメール」っ!! 「購入しやすくなったパソコン」っ!! それに「賢く電話を使えるISDN」の『そろいぶみ』だっ。

 > さらに那珂川町図書館「ACCESS」などに関する蔵書です

 > 「ExcelVBAとAccessを一通り、次はIISです!」…ゲフンゲフン。
 > 図書館にあるパソコンの本って(ぜんぶがぜんぶというわけではないですけれど)、まあ、そういうことですよね。

 > 「利用者は小回りのきくEUC的なやり方を常に求めている。」

・「何がなんでも“偏旁冠脚”で検索しなくてもいいじゃないか。」のイメージです
 https://www.amazon.co.jp/dp/4582403344

 > 福井県教育委員会
 > 白川静の故郷
 > 本書は、2008年より県内全小学校で使われ、全国の注目を集める漢字解説本の改訂版。小学校学習指導要領(国語)別表「学年別漢字配当表」の漢字、全1006字の解説を収録。おとなも学べる、漢字解説本。

 これだね。あとはふつうに漢和辞典。もっとこれだね。

・歩く生き字引!!
 https://dictionary.goo.ne.jp/jn/98992/meaning/m0u/

 > 字書。字引(じびき)。もじてん。

・三省堂です
 https://dictionary.sanseido-publ.co.jp/column/ayumi46

 > 土橋八千太(上智大学教授)の助力

 その上智大学の上智大学図書館なのに検索がたどたどしくありませんか。(棒読み)

 > 本書は漢和辞典と同じ形式をとり、親字の字義と熟語の意味が英語で書かれている。しかし、部首順の配列ではない。基本的には画数順にしているものの(略)さらに同じ部分をもつ漢字を続けて載せた。

 ほぉお!!

 > 親字として載せた漢字は3064字。

 それに対して町名で使われるのはどれだけ、みたいな見かたをしてもよいのかもしれません。

・ウィキペディア「康熙字典をもとにした部首の一覧」
 https://ja.wikipedia.org/wiki/%E9%83%A8%E9%A6%96#%E5%BA%B7%E7%86%99%E5%AD%97%E5%85%B8%E3%82%92%E3%82%82%E3%81%A8%E3%81%AB%E3%81%97%E3%81%9F%E9%83%A8%E9%A6%96%E3%81%AE%E4%B8%80%E8%A6%A7

 > 十七画

 うーん。

 > 部首を用いて漢字を検索する場合には、上で用いた「銅」の字の例のように容易な場合もあれば、そうでない場合もある。たとえば部首が自明でない場合には、いくつか見当をつけて、それらを順に当たっていかなければいけない。字書によっては、この点を工夫し、たとえば「男」の字を「田」の部に収録する字書でも、「力」部の5画にも、「男」の字の記載ページを書くなど、利用者が探しそうな、いくつかの箇所からも引けるようになっている。

 …うーん!

 https://mojikiban.ipa.go.jp/mji/q?UCS=0x7537

 1画ほど多い、(もとをただせば)単なる書き間違いみたいな異体字はあるけれど「「力」部の5画」みたいなのは入っていないよアリガトウ。(※文字によっては部首が1つだけでなく「部首2」から最大で「部首4」まで併記されているものもあるようです。)

 https://kotobank.jp/word/%E6%9C%AC%E3%82%92%E6%AD%A3%E3%81%99-680341

 > 「―・せばすべて自分が悪い」
 > 「 − ・せば自分が悪い」

 デジタル大辞泉と大辞林殿の見解が一致しておられる。(棒読み)

(D)MJ特徴量【画数】
【部首】
(画数2次元と部首214次元からつくる)
「MJ文字情報ベクトル」の第1主成分と第2主成分


 うーん。非常に画数が多い漢字の部首はきっと特殊ですぞ。そういうのをざっくり分離してみせて距離みたいなの(大巾に中略)だいたいそういう感じの要約された特徴量を先につくっておいて使おうというコンタンですね、わかります。…ざっくりざっくり!(※表現は演出です。)

[3676] 「わたしたちがAIと呼びたいもの」=「主成分分析(PCA)」+「ファジィC-means(FCM)」!?
 > ものすごく曲解すれば、主成分分析で得た主成分(128次元のベクトル)でファジィC-meansして得た(重複のある)クラスターが34個あるようなもの

 まだクラスタリングしないでほしいので(※「まだ」「しないでほしい」に傍点)主成分分析だけみたいなことをのうのうとですね&しつれいしました。

・「MJ文字情報一覧表Ver.005.02」
 https://oscdl.ipa.go.jp/mji.00502.zip

 > xml形式
 > (2.5MByte)

 うーん。

 > 1. はじめにお読みください Readme.txt
 > 2. MJ文字情報一覧表Ver.005.02 XML版 mji.00502.xml
 > 3. MJ文字情報一覧表Ver.005.02 XMLスキーマ mji.00502.xsd
 > 4. サンプルxslt xml2csv.xslt

 > xml2csv.xsltは、MJ文字情報一覧表Ver.005.02 XML版から、XSLX版・ODS版と同じ形式のCSVデータに変換するためのサンプルです。

 ほぅ!(※恐縮です。)しかし簡単には引けないよ。

・「町」(U+753A)を文字基盤のAPIで引く
 https://glyphwiki.org/wiki/u753a
 https://mojikiban.ipa.go.jp/mji/q?UCS=0x753a

 > 部首 102
 > 内画数 2
 > 総画数 7
 > 訓読み "まち"

 http://mojikiban.ipa.go.jp/MJ017645.png

 おおー。(棒読み)UTF-8(のURLエンコードしたやつ)では「%E7%94%BA」になっちゃうけれど、UCSでは「0x753a」なんだね。(もっと棒読み)

・こういうことではあるけれどゾッとする。(※個人の感想です)
 http://www.geocities.jp/hoku_hoshi/TIPPRG/tipprg13.html

 > 参考文献:TransTECH 2000年1月号 国際化プログラミング最前線

 さすがです。(※恐縮です。)

・しかしいまやこれでええんや。(どやぁ
 http://php.net/manual/ja/mbstring.supported-encodings.php
 http://php.net/manual/ja/function.mb-convert-encoding.php

 > /* JIS, eucjp-win, sjis-winの順番で自動検出し、UCS-2LEに変換 */
 > $str = mb_convert_encoding($str, "UCS-2LE", "JIS, eucjp-win, sjis-win");

 わあぃマルチバイト文字列をサポートするPHP。***マルチバイト文字列をサポートするPHPだいすき。(※脚色です。)

・しかしBEだった。…しかしBEだった!(※キャプションは演出です)
 https://stackoverflow.com/questions/1872773/ucs2-hexencoded-characters

 ここなど参考に「$ucs2hex = bin2hex(mb_convert_encoding($str, "UCS-2", "UTF-8"));」みたいなことをごにょごにょ書きます。(※「UCS-2」はBEです。「UCS-2BE」を指定しなければならない場合というものがどういう場合かみたいなことまでは理解していませんのであしからず。)

大,5927,5281,0.365,0.305,0.154,0.103,0.049,
通,901a,668,0.246,0.497,0.193,0.052,0.006,
界,754c,8,0.375,0.500,0.125,0.000,0.000,
川,5ddd,4545,0.374,0.295,0.153,0.113,0.051,
盤,76e4,134,0.194,0.478,0.082,0.149,0.097,


 https://mojikiban.ipa.go.jp/mji/q?UCS=0x5ddd
 http://mojikiban.ipa.go.jp/MJ010763.png

 おおー。

・「康煕字典」とは
 https://kotobank.jp/word/%E5%BA%B7%E7%86%99%E5%AD%97%E5%85%B8-494595

 > 4万7000余の漢字を楷書(かいしょ)の部首画数順に配列
 > 214の部首が筆画数の順に並べられ,部内の文字の配列はまたその筆画数によるという構成

 まことにフラクタルですのう。(※個人の感想です。)

・「解字IDSデータ」
 http://kanji-database.sourceforge.net/ids/ids-analysis.html

 > 解字IDSデータ(テキストファイル)

 うーん。1から214まである「部首番号」でよさげですぞ。


☆ランダムどーん(仮)


 さらに数か月、2019年1月に思い出したように再開します。

・実在するけれど全国の3都道府県以上に実在するものだけにする(異なり都道府県数が3未満のものを除く)
・「東西南北上中下」から始まるものはおひかえなすって
・「北海道」「新潟県」「山梨県」を選択
・うにっとユニークしてからシャッフルしゃっふる
・30つ!

二俣
長倉
茂沢
美園
茗荷沢
寺町
呉服町
川上
幸町
観音寺
三井
船場町
真浦
岡田
村山
末野
金丸
柏尾
熊野堂
美郷
千年
早瀬
開発
赤倉
岬町
柳平
市野沢
岩殿
汐見台
菅谷


 なるほどねぇ。…実になるほどねぇ。

・あえて「千葉県」だけを選択

豊岡
富田町
遠山
長谷川
山内
大坂
桜台
豊原
美沢
坂田
引田
関原
泉川
和泉
都町
真砂
大庭
御殿町
青葉台
油井
大曽根
木下
小池
木原
内田
印内
新地
坪井町
長崎町
福田


 もっとなるほどねぇ!!(棒読み)

・「岐阜県」「三重県」「兵庫県」を選択

竹の台
尾川
湊町
明治町
井尻
千歳町
平和町
小立
徳田
横山
富島
向山
粟津
小浜
佐田
有家
出来町
八島町
藤原
稲生
柿原
和佐
岩倉町
曙町
美和町
白沢
大工町
津田町
三坂
大磯


 …というか「岐阜県」「三重県」「兵庫県」って、どういう選択ですかっ。


 この続きがさらに長くなったので[3724]に移しました。


この記事のURL https://neorail.jp/forum/?3707


(約58000字)

この記事を参照している記事


[3707]

研究ホワイトボックス(35) 複雑なデータと「対話」するには〜郵便番号データを例に(R編)

2019/5/24

[3708]

研究ホワイトボックス(36) 複雑なデータと「対話」するには〜郵便番号データを例に(MySQL編)

2019/5/24

[3713]

【A9V2】「星のみえる丘」を「生田緑地」で読み解く(中編)

2019/6/4

[3715]

「黄色のメニュー」はどうして黄色いのですか?

2019/6/9

[3716]

【A9・Exp.】「乗客のアルゴリズム」一計

2019/6/9

[3719]

「■■■□□□□□□□□□□□□□□□□□」 / ほか

2019/6/17

[3724]

【ピーク】もじれどももじれども【ポーク】

2019/7/1

[3735]

理科年表「日本のおもな都市」の使いかた

2019/7/15

[3741]

「駅名ランダマイザー(Z47T-DFK)」の遊びかた

2019/8/1

[3742]

研究ホワイトボックス(38) 数学の自由研究で郵便番号データを使うには

2019/8/1

[3745]

【自由研究】ここからここまで【AIどうでしょうつき】

2019/8/13

[3753]

【A10】いま問う「カテゴリー24」のココロ

2019/8/25

[3814]

「隣町-001」をこの手で(仮)

2019/11/1

[3819]

マイコン・あいこん・ないこーん / 「観察力」とは何か

2019/11/1

[3829]

【羽沢横浜国大】夜明けの「AI×経営」論【東京都のパイナップルチャーハンに関連するお店あり】

2019/11/17


関連する記事


[3649]

【お知らせ】ストリートビューの表示を休止します tht - 2018/5/31

列車 車両 線路 発想 研究 建物 ゲーム 実装 仮名 決定版


[3669]

【自由研究】ゆるシミュ(9) tht - 2018/8/16

列車 車両 線路 発想 研究 道路 ゲーム 実装 仮名 ジャック


[3636]

Re:[3583] 或るナポリタンと停電のハフソク(則) tht - 2018/4/10

発想 研究 建物 実装 仮名 数学 主成分分析 多変量解析 散布図 岡山県


[3685]

【木花開耶】「A9V5」かく語りき(仮)【2レーン15バースあり】 tht - 2019/1/1

列車 車両 線路 発想 道路 建物 ゲーム 実装 仮名 スダジイ


[3739]

【A9・Exp.】「列車タイプ」を読み解く(再)【最大乗車率あり】 tht - 2019/7/15

列車 車両 線路 発想 研究 建物 ゲーム 実装 仮名 ラーニング


[3689]

いわゆる「よん・さん・とお」等につきまして(仮) tht - 2019/2/1

列車 車両 線路 発想 研究 建物 ゲーム 仮名 マップ エフエムサウンド千葉


[3651]

【自由研究】ゆるシミュ(7) tht - 2018/6/10

列車 車両 線路 発想 研究 道路 建物 ゲーム 実装 広島電鉄


[3675]

研究ホワイトボックス(34) 行列と行列の差を検定するには tht - 2018/9/1

発想 研究 実装 数学 自由研究 主成分分析 散布図 クラスタリング 相関係数 経由地



話題を見つける

●多彩な方法でフォーラム内をサーチ!
●目的に合わせて使い分けよう。


2014年度以降の主な記事(スコア順)
HITSアルゴリズムを用いたブラウジングをお試しください。【詳細】


四半期ごとの主な話題
(1999年度〜最新


最近の主な話題
(2014年度〜)


キーワード (索引)
2014年度以降のキーワードや文字数の多いキーワードなどから、記事を探せます。


リファレンス (参考文献)
リンク先のタイトルをドメイン別に一覧しながら、記事および参考文献を探せます。

【自由研究】の話題
「主論文・野帳・掲示物」とは?(PDF)
【自由研究】の記事一覧(新着順)


国土地理院の空中写真 を紹介している記事
(PCでの閲覧をおすすめします)


「多変量解析実例ハンドブック」の記事一覧(新着順)
「R with Excel」の記事一覧(新着順)
(統計解析環境「R」を電卓のように使い、データの入力とグラフの保存のため「Excel」をノートのように使います。)


画像で探す
列車 | | 植物 | | 計算機 | 掲示物 | 食べもの
この記事に関連する画像





neorail.jp/は、個人が運営する非営利のウェブサイトです。広告ではありません。 All Rights Reserved. ©1999-2019, tht.