| 『似たものどうしをなかまにしてみよう。』 |
| 『あれっ? かんたんだと思ったのに、うまくいかないなぁ。』 |
『じぶんとはちがう分けかたをする人もいるみたい。 人によって分けかたがちがうと、 どれをさんこうにすればいいのかが、わからないよ。』 |
『だれでも同じ分けかたができれば、 おたがいに結果をくらべることができるね。』 |
『ほかの人も、じぶんと同じ方法で分けていれば、 ほかの人の結果を見るときにわかりやすいよ。』 |
『コンピューターができるのは、分けるところまで。 うまく分かれたかをしらべるのは、人のしごとなんだ。』 |
『英語の「cluster」は、サクランボやブドウなどの房(ふさ)という意味なんだ。 古代ギリシャ語でブドウを意味する語にちなんで、 クラスタリングの研究を「botryology」と呼んだ数学者もいたそうだよ。』 |
『ブドウの絵を描こうと思ったら、 ▼(1)ブドウを用意しないといけないし、 ▼(2)《ブドウらしい》形のままで観察しないといけないね。』 『▼(1)サクランボを集めてもブドウにはならないし、 ▼(2)ブドウを2粒ずつに切ってサクランボみたいにしたら、 《ブドウらしく》は見えなくなってしまう。』 |
『データの分析の目的は、《データの特徴》を知ること。 データを分析するのは、絵を描くのと似ているね。』 |
『複雑につながっている「《ブドウみたいな》データ」なのに、 データをばらばらにしてしまったら、「《ブドウらしさ》」が見えなくなってしまうんだ。』 |
『「クラスタリング」は、「《ブドウみたいな》データ」を分析する方法の1つなんだ。 わたしたちは《ブドウの形》を知っているけれど、《データの形》はわからない。 「クラスタリング」などを使って《データの特徴》を調べていくと、少しずつ《形》が見えてくるんだ。』 |
『わたしたちが最初に考えたのと同じように、 似たものどうしをペアにしていくのが 「階層的クラスタリング」なんだね。』 |
『ペアをつくらずに、クラスターを先に決めるなんて、すごい! どんな人が思いついたのかしら。』 |
『「ソフト・クラスタリング」ができる「非階層的クラスタリング」は、 コンピューターらしいやりかただね。』 『コンピューターが出したくわしい結果を、 「ハード・クラスタリング」と同じように、 シンプルに見せてくれるプログラムもあるんだ。』 |
『コンピューターは、決められたことしかできないけれど、 たくさんのややこしい計算をまちがえずにといてくれるので、べんりだね。』 |
『カモノハシがうまく分類できないのは、 カモノハシが発見される前に考えられた 分類のしかただからなのかな?』 |
『「カステラ」や「ぎゅうひ」の分類は むずかしそうに思えるけれど、 分類のしかたをくふうできないかな?』 |
『うまく分類できないものがあるとしても、 分類のしかたには必ず意味や目的があるはずだよ。 もっと詳しく調べてみよう。』 |
| 1904年 | *実験心理学のSpearmanが1因子モデルの因子分析法を提案 |
| 1932年 | DriverとKroeberが考古学・人類学の論文で「階層的クラスタリング」に相当する分類手法を提唱 (「Quantitative expression of cultural relationships」) |
| 1935年 | *計量心理学のThurstoneがベクトル(コサイン距離)を用いた多変量の因子分析法を体系化 (「Vectors of Minds」) |
| 1938年 | 精神医学のZubinが質的データの平均距離による3群への分類を試みる (「A technique for measuring like-mindedness」) |
| 1943年 | Cattellがパーソナリティ心理学に「クラスター分析」を採り入れたことで広く知られる (「The description of personality: Basic traits resolved into clusters」) |
| 1962年 | 暗号を研究していた数学者のI.J. Goodが「クラスタリング」を「botryology」と呼ぶ |
| 1962年 | *行動科学のCooleyとLohnesがコンピューターを用いた多変量の構造データ解析に関する教科書を出版 (「Multivariate procedures for the behavioral sciences」) |
| 1963年 | *動物系統学のSneathらが「数値分類法」として体系化 (「The Principles of Numerical Taxonomy」) |
| コンピューター(ハードウェア) とソフトウェア製品 | 「クラスタリング」(アルゴリズム) |
| 1946年 | ベル研究所がリレー式の汎用プログラマブル計算機を製作 | |
| 1957年 | トランジスタ式では初の商用機 「Transac S-2000」が発売される | H. Steinhausが 「k平均法(k-means)」のもととなるアイデアを発表 |
| 1966年 | A. J. Barrが 現在の「SAS」のもととなるソフトウェアを開発 | |
| 1965年 | | E. W. Forgyが 「k平均法」と本質的に同じ手法を発表 (「Lloyd-Forgyアルゴリズム」として知られている) |
| 1967年 | | J. MacQueenが「k-means」と呼ぶ |
| 1970年 | ベル研究所のD. Ritchieが 「C言語」を開発 | |
| 1971年 | 世界初の商用マイクロプロセッサ 「4004」(4ビット)が発表される (小型で安価なコンピューターのはじまり) | |
| 1973年 | | J. C. Dunnが 「ファジーc平均法(fuzzy c-means:FCM)」を発表 (「ソフト・クラスタリング」のはじまり) |
| 1975年 | | J. A. Hartiganが クラスタリングに関する論文を発表 |
| 1976年 | 「SAS」が商用化 | |
| 1979年 | | J. A. Hartiganらが 「Hartigan-Wong」アルゴリズムを発表 |
| 1981年 | | J. C. Bezdekが 「ファジーc平均法」の改良版を発表 |
| 1982年 | | ベル研究所で1957年から使われていた S. Lloydのアルゴリズムが初めて公表される |
| 1986年 | 32ビットのRISC CPU「MIPS R2000」が発売される (ワークステーションの普及のはじまり) | |
| 1992年 | 64ビットのRISC CPU「Alpha 21064」が発売される (ワークステーションの本格的な普及へ) | |
| 1963年 | VapnikとLernerが「サポートベクターマシン(SVM)」を発表 |
| 1977年 | A. Dempsterらが「EMアルゴリズム」を発表 (クラスタリングにも応用される) |
| 1992年 | B. E. Boserらが「SVM」にカーネル関数を導入 (「非線形SVM」「カーネルトリック」と呼ばれる) (「多クラス分類」への応用のはじまり) |
| 2001年 | L. Breimanが「ランダムフォレスト」アルゴリズムを発表 (クラスタリングにも応用される) |