フォーラム 個人情報保護方針 | 利用規約

「情報と鉄道」「ユニバーサルデザインと鉄道」「社会と鉄道」がテーマのフォーラムです。(16歳以上対象)

ご利用状況について
このフォーラムについて
機能の改廃等について

(※新規の掲載はお受けしていません。)

全角と半角、大文字と小文字が区別されます。

検索の代わりに:
キーワード (索引)もどうぞ。


【自由研究】の話題

 → 茨城県内で必要な「主論文・野帳・掲示物」とは? 【詳細】(2017/10/19) NEW!
 → 【自由研究】の記事一覧(新着順)


【研究ホワイトボックス】

研究を楽しく「追体験」! 真っ白のキャンバスに虹色の未来を描く方法、教えます。



[3524]

研究ホワイトボックス(20) 自由研究総合(自由形)にクラスター分析を(導入編)

発想 研究 自由研究 散布図 クラスタリング 変量 クラスター SVM 二次元表 ワークステーション


客観的な分類を実現するクラスタリング
クラスタリングにはどんな種類がある?
【資料】コンピューターの発展と「クラスタリング」略年表
【ご参考】小学校算数の単元との対応
ダイアログ1
ダイアログ2
ダイアログ3
表1 クラスタリングの種類
ダイアログ4
ダイアログ5
表2 「クラスター分析」の歴史(Wikipedia、*多変量解析実例ハンドブックより構成)
表3 コンピューターと「クラスタリング」の発展(Wikipediaより構成)
表4 「機械学習」「パターン認識」と「クラスタリング」(Wikipediaより構成)


 あくまでドラフト(草稿)ですので、あしからず。


■ダイアログ1

『似たものどうしをなかまにしてみよう。』
『あれっ? かんたんだと思ったのに、うまくいかないなぁ。』
『じぶんとはちがう分けかたをする人もいるみたい。
 人によって分けかたがちがうと、
 どれをさんこうにすればいいのかが、わからないよ。』


○客観的な分類を実現するクラスタリング


 クラスタリングでは、2種類以上のデータを使って、対象を分類します。2種類のデータ(※「2つの変量」といいます)があるとき、これを縦軸と横軸にして、平面(2次元)の散布図を描くことができます。散布図の上で、データを表す点どうしが近くに集まっていれば、「似たものどうし」とみなして、同じグループとします。一方、点どうしが大きく離れていれば、別のグループとします。

 クラスタリングは、この「似たものどうし」を見つける手順をあらかじめ決めておき、コンピューターで自動的に実行できるようにした「アルゴリズム」の一種です。クラスタリングを行ないながら、さらに人の目で詳しい考察を加えることを「クラスター分析(cluster analysis)」といいます。

■ダイアログ2

『だれでも同じ分けかたができれば、
 おたがいに結果をくらべることができるね。』
『ほかの人も、じぶんと同じ方法で分けていれば、
 ほかの人の結果を見るときにわかりやすいよ。』
『コンピューターができるのは、分けるところまで。
 うまく分かれたかをしらべるのは、人のしごとなんだ。』


 なお、データの集まり(集合)のことを「クラスター(cluster)」といいます。クラスターをつくる(データをクラスターに分ける)ことを「クラスタリング(clustering)」といいます。

■ダイアログ3

『英語の「cluster」は、サクランボやブドウなどの房(ふさ)という意味なんだ。
 古代ギリシャ語でブドウを意味する語にちなんで、
 クラスタリングの研究を「botryology」と呼んだ数学者もいたそうだよ。』
『ブドウの絵を描こうと思ったら、
 ▼(1)ブドウを用意しないといけないし、
 ▼(2)《ブドウらしい》形のままで観察しないといけないね。』
『▼(1)サクランボを集めてもブドウにはならないし、
 ▼(2)ブドウを2粒ずつに切ってサクランボみたいにしたら、
 《ブドウらしく》は見えなくなってしまう。』
『データの分析の目的は、《データの特徴》を知ること。
 データを分析するのは、絵を描くのと似ているね。』
『複雑につながっている「《ブドウみたいな》データ」なのに、
 データをばらばらにしてしまったら、「《ブドウらしさ》」が見えなくなってしまうんだ。』
『「クラスタリング」は、「《ブドウみたいな》データ」を分析する方法の1つなんだ。
 わたしたちは《ブドウの形》を知っているけれど、《データの形》はわからない。
 「クラスタリング」などを使って《データの特徴》を調べていくと、少しずつ《形》が見えてくるんだ。』


※文章の構造が明らかになるよう、「▼」および箇条書きの数字を挿入し、同じ概念について述べている箇所を「《》」で示しています。

・「ブドウ」のイメージです
 http://ja-shimane.jp/img/report/vol02_03.jpg
 http://ja-shimane.jp/report/vol2/

・「サクランボ」のイメージです
 http://www.ak.zennoh.or.jp/topic/assets_c/2017/06/20170622-33-thumb-340xauto-14967.jpg
 https://life.ja-group.jp/img/message/mediainfo/vol06/mainvisual.jpg

・「さくらんぼカレー」(630円)のイメージです
 http://www.hankyu-hanshin-dept.co.jp/image/07-13_3.jpg
 http://www.hankyu-hanshin-dept.co.jp/lsnews/04/a01/00085555/?catCode=601004&subCode=602007

 コンピューターを使ったクラスタリングは、いまや学校や家庭にあるふつうのパソコンで、じゅうぶんに処理できるようになっています。わたしたちが学習や日常生活の上で必要とする規模のデータ(変量の数およびデータの件数)の分析に限るならば、コンピューターの性能を気にする必要は、ほとんどないといえます。

・NECさん扱い墨田区教育委員会の導入事例です
 http://jpn.nec.com/products/bizpc/promotion/casestudies/vz/index.html
 http://jpn.nec.com/products/bizpc/promotion/casestudies/vz/images/case_photo_02_01.jpg


○クラスタリングにはどんな種類がある?


 クラスタリングには、▼「似たものどうし」のペアをつくっていく(または「最も似ていないものどうし」を離していく)「階層的クラスタリング」と、▼クラスターを表す円(や楕円)を先に決めてから、どの円(クラスター)に近いのかをデータごとに調べていき、データ全体が「よく」分かれるまでクラスターをつくりなおしていく「非階層的クラスタリング」の2つがあります。

 クラスタリングの結果、▼あるデータを1つだけのクラスター(集合)に分類するのが「ハード・クラスタリング」で、▼あるデータが各クラスターに属する度合い(確率)を求めるのが「ソフト・クラスタリング」です。

■表1 クラスタリングの種類

階層的クラスタリング
(枝分かれする分類)
非階層的クラスタリング
(丸で囲う分類)
ハード・クラスタリング
(重なりのない分類)
・生物の分類から始まった
・図書館の本の分類にも
・コンピューターが得意
・人間にもわかりやすい
ソフト・クラスタリング
(重なりのある分類)
(このような分類はできない)・コンピューターが得意
・人間にはわかりにくい


 ▼「階層的クラスタリング」は、分類の手順ゆえ「ハード・クラスタリング」しか行なえません。これに対し、▼「非階層的クラスタリング」は「ソフト・クラスタリング」を行なえる手法です。さらに、あるデータが属する確率が最も高いクラスター1つに分類することで「ハード・クラスタリング」と同じ形式の出力を得ることが可能です。

 生物の標本や図書館の本をどの棚に収めればよいかを考える中から見出されてきた「階層的クラスタリング」は、人間の自然な発想に忠実な方法といえます。分類結果の全体を知らなくても、最も上の階層(「ルート:根(root)」と呼びます)から順にたどっていけば、目的の生物や図書を見つけることができるという実用性があるのです。

・Natureのイメージです
 https://images.nature.com/m685/nature-assets/ncomms/2015/150218/ncomms7370/images/ncomms7370-f1.jpg

・狛江市立図書館「日本十進分類法」のイメージです
 https://www.library.komae.tokyo.jp/images/kid_img_search01.gif
 https://www.library.komae.tokyo.jp/kids/search.html

 狛江市の中央図書館には、およそ17万冊の本がありますが、このように分類されているので、わたしたちは本を見つけることができる(もしくは、探しているような本はないということがわかる)のです。

■ダイアログ4

『わたしたちが最初に考えたのと同じように、
 似たものどうしをペアにしていくのが
 「階層的クラスタリング」なんだね。』
『ペアをつくらずに、クラスターを先に決めるなんて、すごい!
 どんな人が思いついたのかしら。』
『「ソフト・クラスタリング」ができる「非階層的クラスタリング」は、
 コンピューターらしいやりかただね。』
『コンピューターが出したくわしい結果を、
 「ハード・クラスタリング」と同じように、
 シンプルに見せてくれるプログラムもあるんだ。』
『コンピューターは、決められたことしかできないけれど、
 たくさんのややこしい計算をまちがえずにといてくれるので、べんりだね。』


・【考えてみよう】「カモノハシくんはどこ?」のイメージです
 http://www.ehonnavi.net/images/88-1.jpg
 http://www.ehonnavi.net/ehon/88/%E3%82%AB%E3%83%A2%E3%83%8E%E3%83%8F%E3%82%B7%E3%81%8F%E3%82%93%E3%81%AF%E3%81%A9%E3%81%93%EF%BC%9F/
 http://natgeo.nikkeibp.co.jp/atcl/news/15/a/111700050/

・【考えてみよう】全国和菓子協会「和菓子の分類一覧表」
 http://www.wagashi.or.jp/monogatari/shiru/syurui.php
 http://www.wagashi.or.jp/monogatari/shiru/images/syurui/ill_ichiran.gif

■ダイアログ5

『カモノハシがうまく分類できないのは、
 カモノハシが発見される前に考えられた
 分類のしかただからなのかな?』
『「カステラ」や「ぎゅうひ」の分類は
 むずかしそうに思えるけれど、
 分類のしかたをくふうできないかな?』
『うまく分類できないものがあるとしても、
 分類のしかたには必ず意味や目的があるはずだよ。
 もっと詳しく調べてみよう。』


・雪印メグミルクの見解です
 http://www.meg-snow.com/fun/academy/trivia/trivia_025.html

・「ぎゅうひ」に分類される菓子のイメージです
 https://kotobank.jp/image/dictionary/nipponica/media/81306024013405.jpg
 https://kotobank.jp/word/%E6%B1%82%E8%82%A5-52181


○【資料】コンピューターの発展と「クラスタリング」略年表


■表2 「クラスター分析」の歴史(Wikipedia、*多変量解析実例ハンドブックより構成)

1904年*実験心理学のSpearmanが1因子モデルの因子分析法を提案
1932年DriverとKroeberが考古学・人類学の論文で「階層的クラスタリング」に相当する分類手法を提唱
(「Quantitative expression of cultural relationships」)
1935年*計量心理学のThurstoneがベクトル(コサイン距離)を用いた多変量の因子分析法を体系化
(「Vectors of Minds」)
1938年精神医学のZubinが質的データの平均距離による3群への分類を試みる
(「A technique for measuring like-mindedness」)
1943年Cattellがパーソナリティ心理学に「クラスター分析」を採り入れたことで広く知られる
(「The description of personality: Basic traits resolved into clusters」)
1962年暗号を研究していた数学者のI.J. Goodが「クラスタリング」を「botryology」と呼ぶ
1962年*行動科学のCooleyとLohnesがコンピューターを用いた多変量の構造データ解析に関する教科書を出版
(「Multivariate procedures for the behavioral sciences」)
1963年*動物系統学のSneathらが「数値分類法」として体系化
(「The Principles of Numerical Taxonomy」)


・「botryologyと呼んだ数学者」のイメージです
 https://upload.wikimedia.org/wikipedia/en/b/b4/I._J._Good.jpg

・「彼自身は自身の統計学的研究をあくまでも心理学研究の副産物と考えていた。」付近
 https://ja.wikipedia.org/wiki/%E3%83%81%E3%83%A3%E3%83%BC%E3%83%AB%E3%82%BA%E3%83%BB%E3%82%B9%E3%83%94%E3%82%A2%E3%83%9E%E3%83%B3

■表3 コンピューターと「クラスタリング」の発展(Wikipediaより構成)

コンピューター(ハードウェア)
とソフトウェア製品
「クラスタリング」(アルゴリズム)
1946年ベル研究所がリレー式の汎用プログラマブル計算機を製作
1957年トランジスタ式では初の商用機
「Transac S-2000」が発売される
H. Steinhausが
「k平均法(k-means)」のもととなるアイデアを発表
1966年A. J. Barrが
現在の「SAS」のもととなるソフトウェアを開発
1965年E. W. Forgyが
「k平均法」と本質的に同じ手法を発表
(「Lloyd-Forgyアルゴリズム」として知られている)
1967年J. MacQueenが「k-means」と呼ぶ
1970年ベル研究所のD. Ritchieが
「C言語」を開発
1971年世界初の商用マイクロプロセッサ
「4004」(4ビット)が発表される
(小型で安価なコンピューターのはじまり)
1973年J. C. Dunnが
「ファジーc平均法(fuzzy c-means:FCM)」を発表
(「ソフト・クラスタリング」のはじまり)
1975年J. A. Hartiganが
クラスタリングに関する論文を発表
1976年「SAS」が商用化
1979年J. A. Hartiganらが
「Hartigan-Wong」アルゴリズムを発表
1981年J. C. Bezdekが
「ファジーc平均法」の改良版を発表
1982年ベル研究所で1957年から使われていた
S. Lloydのアルゴリズムが初めて公表される
1986年32ビットのRISC CPU「MIPS R2000」が発売される
(ワークステーションの普及のはじまり)
1992年64ビットのRISC CPU「Alpha 21064」が発売される
(ワークステーションの本格的な普及へ)


・「Transac S-2000」(1957年)のイメージです
 http://archive.computerhistory.org/resources/text/Philco/Philco.transec_S2000.1958.102646276.fc.lg.jpg

・「4004 Inside」(1971年)のイメージです
 http://www.technologizer.com/wp-content/uploads/2011/11/intel_4004_011.jpg

・「DEC 3000」(1992年)のイメージです
 http://vt100.net/timeline/photos/dec3000.jpg
 https://upload.wikimedia.org/wikipedia/commons/thumb/a/a2/Digital_Unix_distribution_media.jpg/440px-Digital_Unix_distribution_media.jpg

■表4 「機械学習」「パターン認識」と「クラスタリング」(Wikipediaより構成)

1963年VapnikとLernerが「サポートベクターマシン(SVM)」を発表
1977年A. Dempsterらが「EMアルゴリズム」を発表
(クラスタリングにも応用される)
1992年B. E. Boserらが「SVM」にカーネル関数を導入
(「非線形SVM」「カーネルトリック」と呼ばれる)
(「多クラス分類」への応用のはじまり)
2001年L. Breimanが「ランダムフォレスト」アルゴリズムを発表
(クラスタリングにも応用される)


○【ご参考】小学校算数の単元との対応


 クラスタリングは分類の手法です。コンピューターを使わなくてもクラスタリングを行なうことは可能です。しかし、コンピューターの発展あってこそ高度化しえた手法でもあります。

 とりわけ『コンピューターらしい』手法といえる「非階層的クラスタリング」を、自由研究や算数、社会、図工などの授業に採り入れていくことを検討していきたいものです。クラスタリングの手法の中では、むしろ「非階層的クラスタリング」のほうが『数学的な直感』に沿っているといえます。

 算数の▼「長さ」(2年)、▼「立体」(4年)、▼「度数分布」(6年)、▼「二次元表」(4年)、それに▼「小数倍・分数・面積・体積」(5年)、▼「ともなって変わる量」(4年)、▼「平均・ちらばり」(6年)などの単元は、これらを学ぶ期間が5年間にもおよぶことから、総合的な知識として定着させることが課題といえます。「非階層的クラスタリング」は、これらの単元を幾何学的、手続き的の両面から総合させて理解を促す、発展的な教材に仕立てていくことが可能な題材であると考えられます。

・Wikipedia「Cluster analysis」
 https://en.wikipedia.org/wiki/Cluster_analysis

・「Numerical Taxonomy」
 http://www.nature.com/nature/journal/v193/n4818/abs/193855a0.html?foxtrotcallback=true

・(参考)神嶌敏弘「クラスタリング(クラスター分析)」
 http://www.kamishima.net/jp/clustering/

・(参考)学校図書「小学校算数」
 https://www.gakuto.co.jp/jun/junsansu/

・(参考)文部科学省「「発展的な学習内容」に関する論点整理メモ」
 http://www.mext.go.jp/b_menu/shingi/tosho/004/gijiroku/08112616/003.htm

・(参考)三中信宏「分類学と系統学」
 http://www.e-jsps.com/2007hp/topic/Datesoudo84/mitsu.html

 本稿では、仮のタイトルとして「自由研究総合(自由形)」などと題していますが、「総合とは何か」「自由形とは何か」については以下を参照ください。

・「総合とは何か」
 https://www.soken.ac.jp/outline/history/

 > 本学の設置を規定した「国立学校設置法の一部を改正する法律(1988(昭和63)年法律第67号)」公布、施行
 > 神奈川県の斡旋により、三浦郡葉山町に本部用地(27,000m2)を(株)三井不動産から寄附により取得

・「自由形とは何か」
 http://d.hatena.ne.jp/keyword/%BC%AB%CD%B3%B7%C1

 > 自由とはいわれるが、実質クロールのこと。

 自由研究で厳密な実験が行なえないテーマに取り組む場合、「自由とはいわれるが実質、クラスター分析」というような共通認識を持っていければ、将来の文系の研究に資する「よい導入」になるのではないかという考えでございます。

※詳しくは「自由研究版エビデンスレベル」([3477])も参照ください。


 「概説編」([3525])に続きます。


この記事のURL https://neorail.jp/forum/?3524


(約9000字)

この記事を参照している記事


[3525]

研究ホワイトボックス(21) 自由研究総合(自由形)にクラスター分析を(概説編)

2017/8/11

[3526]

研究ホワイトボックス(22) 自由研究総合(自由形)にクラスター分析を(処理編)

2017/8/11

[3527]

研究ホワイトボックス(23) 自由研究総合(自由形)にクラスター分析を(詳説編)

2017/8/11

[3528]

研究ホワイトボックス(24) 自由研究総合(自由形)にクラスター分析を(報告編)

2017/8/11

[3529]

PISA 2015「DRAFT MATHEMATICS FRAMEWORK」(2013年3月)を読み解く(仮)

2017/8/12

[3538]

東京新聞「夏休みのラスボス」ほかを読み解く(談)

2017/8/27

[3540]

【自由研究】ふわコレ(5)

2017/8/31

[3542]

「AI見てみる?」(2017年8月)を見てみた(談)

2017/9/18

[3543]

実例に見る総合評価(2) A県警:交通事故当事者の誕生日の区間分割

2017/9/19

[3550]

土木学会「新公益法人対策室」(2008年)を有馬温泉観光協会ほかで読み解く(再)

2017/9/30

[3557]

研究ホワイトボックス(25) ハイパー・ゼロ:「博物館評価」とは

2017/10/16

[3560]

【国際VHF】「千葉灯標」(1964年)とその周辺【横浜パイロットビルあり】

2017/10/29

[3567]

いま問う「正射影ベクトル」からの「凸最適化」を『ほぼSVM』と読み解くココロ(試)

2017/11/19

[3571]

実例に見る日英対訳(17) 「ランダムフォーレスト」に野生はあふれ

2017/12/3

[3581]

実例に見る総合評価(4) T工務店:ビル外壁汚れ認知構造のモデル化

2017/12/7

[3595]

【千里奈央】静岡県総合教育センター「BSアンテナを望遠鏡用赤道儀にセットし、太陽からの12GHzの電波を観測する。」を思い出しながら「あいすくりん」(1860年)ほかを読み解く(談)【現金会員3円引き】

2018/1/1

[3596]

「栗東IC」(1963年7月) / 「千葉中バス停」 ほか

2018/1/1

[3615]

まだ見ぬ『高速吉祥寺』の青写真をたずねて(高速長田編)

2018/3/10

[3640]

研究ホワイトボックス(32) 「単元」と「難易度」を示した「総合的な教材」をつくるには

2018/4/30

[3671]

「自由研究とその周辺」かく読まれず(談)

2018/8/16

[3675]

研究ホワイトボックス(34) 行列と行列の差を検定するには

2018/9/1

[3701]

【A10】『シリアス路線』への招待

2019/4/1

[3742]

研究ホワイトボックス(38) 数学の自由研究で郵便番号データを使うには

2019/8/1

[3745]

【自由研究】ここからここまで【AIどうでしょうつき】

2019/8/13

[3755]

き電24 〜にじゅぅぅーよぉん〜

2019/8/25

[3758]

【A9・Exp.】いま問う「コンテスト」のココロ

2019/9/6

[3803]

ぎんぎらぎん(後編) 「様々なアイデアから調和のとれた形態や経験を導くことの出来る統合力」とは【ムサビの博士後期課程あり】

2019/11/1

[3829]

【羽沢横浜国大】夜明けの「AI×経営」論【東京都のパイナップルチャーハンに関連するお店あり】

2019/11/17


関連する記事


[3584]

研究ホワイトボックス(30) ハイパー・ゼロ:「主成分分析」FAQ tht - 2017/12/19

発想 道路 研究 主成分分析 多変量解析 散布図 クラスタリング 相関係数 変量 分散分析


[3676]

【正宗の名刀で速射砲と立合をするような奇観を呈出】発生学から出立するディープラーニング(仮)【社会調査工房オンラインあり】 tht - 2018/9/13

車両 発想 建物 研究 ゲーム 実装 マップ 仮名 地形 参考奉仕


[3739]

【A9・Exp.】「列車タイプ」を読み解く(再)【最大乗車率あり】 tht - 2019/7/15

列車 車両 線路 発想 建物 研究 ゲーム 実装 マップ ラーニング


[3539]

【自由研究】ゆるシミュ(5) tht - 2017/8/31

列車 車両 線路 発想 道路 建物 研究 ゲーム 実装 ショッピング


[3469]

研究ホワイトボックス(17) 「数量化理論」を一般化して理解するには / 「SD法」に確率論とグラフ理論を導入するには tht - 2017/5/6

発想 建物 研究 自由研究 主成分分析 多変量解析 散布図 クラスタリング 相関係数 計量


[3708]

研究ホワイトボックス(36) 複雑なデータと「対話」するには〜郵便番号データを例に(MySQL編) tht - 2019/5/24

発想 仮名 主成分分析 散布図 町名 クラスタリング 変量 クラスター 多変量データ 岡山県


[3649]

【お知らせ】ストリートビューの表示を休止します tht - 2018/5/31

列車 車両 線路 発想 建物 研究 ゲーム 実装 マップ 決定版


[3653]

【北見北上】「もんじゃストリート」は続くよ(網走編)【網走アポロ石油あり】 tht - 2018/6/10

列車 車両 線路 発想 道路 建物 研究 ゲーム 実装 非常用



話題を見つける

●多彩な方法でフォーラム内をサーチ!
●目的に合わせて使い分けよう。


2014年度以降の主な記事(スコア順)
HITSアルゴリズムを用いたブラウジングをお試しください。【詳細】


四半期ごとの主な話題
(1999年度〜最新


最近の主な話題
(2014年度〜)


キーワード (索引)
2014年度以降のキーワードや文字数の多いキーワードなどから、記事を探せます。


リファレンス (参考文献)
リンク先のタイトルをドメイン別に一覧しながら、記事および参考文献を探せます。

【自由研究】の話題
「主論文・野帳・掲示物」とは?(PDF)
【自由研究】の記事一覧(新着順)


国土地理院の空中写真 を紹介している記事
(PCでの閲覧をおすすめします)


「多変量解析実例ハンドブック」の記事一覧(新着順)
「R with Excel」の記事一覧(新着順)
(統計解析環境「R」を電卓のように使い、データの入力とグラフの保存のため「Excel」をノートのように使います。)


画像で探す
列車 | | 植物 | | 計算機 | 掲示物 | 食べもの
この記事に関連する画像





neorail.jp/は、個人が運営する非営利のウェブサイトです。広告ではありません。 All Rights Reserved. ©1999-2019, tht.