フォーラム - neorail.jp R16
発行:2017/5/22
更新:2022/4/6

[3483]

【お知らせ】HITSアルゴリズムを用いたブラウジングをお試しください。


(約6000字)

 HITSアルゴリズムは、もはや「古典」扱いされているとは思いますが、原理や挙動がよくわかる(だろう)という期待のもと、このフォーラムでも使ってみようということでございます。

・たつを氏2011年11月にいわく「リンク構造を用いてスコアを計算するHITSアルゴリズム」
 http://chalow.net/2011-11-10-1.html

・同氏翌月にいわく「HITSの手描き説明図」
 http://chalow.net/2011-12-08-3.html

・同氏「Algorithm」とカテゴライズしていわく付近
 http://chalow.net/cat/Algorithm/

 いつごろ何をして、どういう順番で学習や実装を進めていくと理解がはかどるかということをよく体現していらっしゃると見受けます。

 このフォーラムとしても、遅ればせながらHITSを実装し、ひいてはこの先、たつを氏とは異なる道を進まねばならないというプレッシャーをひしひしと感じるところでございます。

 フォーラムの記事の参照・被参照というグラフ構造ですから、時間に沿って、新しいほうから古いほうへの参照しかないというのが基本ではありますが、古い記事に追記したり、直後に掲載予定の記事や同時に掲載する記事間で相互に参照していたりということもありますので、なかなか複雑であります。

 そのような参照は意味が異なるので除外すればいいのか、(ユーザーがたどる可能性のあるパスは列挙されていなければならないと考えて)いかなる参照も特別扱いしないほうがいいのか、はたまた「15%くらい」のノイズを上乗せして計算してからノイズを除去するようなアルゴリズムに変えていけばいいのかなど、学習上、おもしろそうなことがいっぱいあります。

 「ウィキペディアは何ではないか」にならって、「何をしないか」を先に考えておきましょう。

・原理や基準を説明でき、ユーザーも理解可能なものしか採用しません
・複雑なグラフ構造は可視化しきれるものではありません:可視化には取り組みません
・単一のフォーラムの記事群にあって記事間の差異はわずかです:差異を誇張する印象の出るランキングや判定、格付けなどは行ないません

・現に可視化できる範囲や方法だけで可視化しても(ほとんど)意味がないと思わされる例(2005年8月)
 http://www.jaist.ac.jp/~yhayashi/sum05_presen/NTT_kazama.pdf#page=20

 20ページはともかく(※)、24ページもご覧いただいて、みなさま思うところがたくさんありましょう。卒研や修論にぶつけていただければと思います。

※役者の共演のネットワークというのは教科書の通りなのですが、みなさま、こんなに薄っぺらい平面的な理解をしているはずがない(もっと豊かなセカイが広がっている)と実感されないでしょうか。役者と事務所と配給会社と監督の混ざったグラフ構造が、(ファンとあらば)みなさまあたりまえのように頭の中にあって、しかし全体像はよくわからないし、全体像には興味がないと、たぶんこういうわけです。


 このフォーラムでは、フォーラム(⇒「フォーラムとは何か」[3312])に求められる技術的な要件を明らかにし、試作することもねらいとしています。

 このフォーラムはどのようなフォーラムなのか、このフォーラムがどれだけ複雑になっても、一定の粒度で一定の共通認識を持っていただけるようにすることを目指しています。

 人手で目次を作成することも方法の1つではありますが、きわめて恣意的です。フォーラムにあっては、現に投稿された記事がすべてであって、投稿されてもいないのに将来、投稿されるだろうという根拠のない期待をあおるようなこと(フォーラムの特徴や位置づけを誤認させること)や、投稿されていながら無視させるようなこと(目立たないが重要な投稿が埋もれること)は、運営上、起きないようにしなければならないと考えます。

 フォーラムが備えるべき機能([3312])について、平凡社の百科事典にならった分類における「コロキー(専門的な資料を参照して専門的な視点を知る)」を担う機能として、これまで「ブックマーク」と呼んでいたプログラムを「References」と呼び改めました。

 同時に、同じプログラムで「Contents(主な記事の一覧)」も実装しました。ここにHITSがたいへん使いやすいということです。(なお、Wikipediaに掲載されている疑似コードを忠実に実装しています[3372]。どなたでも同じ実装ができる状況にあり、いかなる新規性もございません。)

 学習上のボトルネックとしては、HITSアルゴリズムの理屈はわかった、しかし、手元で試してみるのにちょうどよいデータ(じゅうぶんに大きく複雑なグラフ構造)がない、というところに尽きます。

 このフォーラムの記事群が持つ構造は、もはや「読みづらいったらありゃしない」とのお叱りを頂だいするほど複雑化(というより、デフラグが必要なレヴェルで断片化)していますので、HITSを試すにはもってこいであるとわかります。そして、このフォーラムのデータをごっそりダウンロードされるようなことはお断りします代わりに、HITSも実装しておきますから、新着記事が到着するたびに変わる構造に合わせてHITS(のオーソリティスコアを用いた記事のランキング)がどのような挙動を見せるのかということを眺めてお楽しみいただければと思います。


・naoya氏2009年3月にいわく「HITS, 主成分分析, SVD」
 http://d.hatena.ne.jp/naoya/20090301/hits

 > HITSの計算をする前にWebグラフのサブセットを見つけてこいということがさらっと書かれていたのですが、そういうことなんですね。

 このフォーラムそのものがサブセットなので、いきなりHITSで問題ないとわかります。そのような有利な事情が先にないと、例えばタグやユーザーでサブセットに分けようといっても、組合せが膨だいです。

 なお、「IIR」と呼ばれる教科書ではあくまで古典的な検索が念頭にされているはずですから、クエリ(検索語や主題あるいは言語化されていない意図など)なしでブラウジングしていただくという発想での解説はなされていないはずです。

・「いもなび」(2004年3月15日)
 http://news.mynavi.jp/articles/2004/03/15/interaction/004.html

 > 独創的なインタフェースのアイデアが光る「インタラクション2004」

 > HotWindowは、最短15分という短い周期でニュースサイトをチェックしてカテゴリー分けし、それを仲間の言葉同士が近くなるように図示して動的に表示してくれる。言葉は泡のような円のなかに表示され、ふわふわと動いている。

 > 「いもなび」は、「いもづる式ナビゲータ」の略語である。
 > 「短時間で複数のサイトをまとめてみたい」とか、「同じトピックの記事はまとめてひとつでいい」とか「ひとつのトピックから芋づる式にキーワードを知りたい」というようなことをしばしば感じるのであった。つまり、現在のWebは体系化されていないので、ある種の体系がほしくなることがあるのである。
 > 「いもなび」では、類似した用語を選択して要約することによって、キーワードを抜き出し、効率的にニュースサイトを横断的に検索、表示できる仕組みを作り上げた。これも実際に体験できるので、試してみてはいかがだろうか。ただし、現在のバージョンではURLを表示するだけで、そこから実際のページへジャンプできないというところが残念に感じた。

 これらを遠目に眺めながら、しかもかなりの遅ればせながら、2005年の7月ごろから9月にかけて「imolist!」([2363])を実装したところでありました。「いもなび」と名前が似ているのは「芋づる式」という言葉にこだわっているからであって、実現方法はまったく異なります。

[2363]
 > 簡単に言えば、ツリー構造の逆向き版で階層化は1階層に限定、常に新しいもの/ホットなものだけが上に出てくるということになります。

 > まさに、地上に出ている葉のほうから引っ張ってイモを手繰り寄せる感覚です。ちなみに、人が知識を習得する時に効果的なのも芋づる式の学習だとか…歴史でいえば現代から昔へ順に遡っていくということです。いきなり縄文時代から始めたって頭に入りにくい(→ただの暗記に成り下がる)だけのようです。

 このプログラムが完成したら温泉に行くんだ…いえ、「完成した」と思えたあかつきには「i」と「!」がぐるぐるまわっている感じのしゃれたロゴでもつくろうと思っていたので名前に「!」がつけてあったのですが、ついぞ「完成した」と思えることはなかったのでありました。

[2416]
 > サーチエンジンなどが不定形の情報を対象に検索するのに比べると、一つのサイトの中、一つの掲示板の中というのは格段にデータが揃っています。

 そこから1年ほどで、だいぶあきらめムードが高まってまいります。

・(2006年8月6日)
 http://tht.sblo.jp/article/1085174.html

 > BBSの投稿を引用関係索引に基づいて芋づる状に表示しようという「imolist!テクノロジ」(苦笑)で、索引を作ることはできたが表示方法に難があった。

 > ユーザーの興味に応じて次々に違うものを提示していけるUIというのは魅力的である。「地図をぐりぐり」というのは従来との違いがわかりやすいが、扱う要素がテキストであってもやはり便利であろう。次々に関連する記事やキーワードを提示して、単語の入力なしに絞り込み検索ができればおもしろい。

 > サイトの内と外を境目なく行き来して、関心のあるコンテンツを次々に閲覧していくこともできるかも知れない。
 > 私自身は特別なツールがなくてもそういう閲覧のしかたをしているわけなのだが、ブラウザを何個も開いて面倒ではないといえばウソになる。まずは私自身が便利だと思えるような状態にしていきたい。

 プログラムがなくても自力でやっていて困ってはいないという大きな現実の前では、それをわざわざプログラムに起こそうというのは究極に面倒くさいことであるわけです。

 > 「○○などを購入されたお客様におすすめします」「○○をショッピングカートに追加されたお客様におすすめします」などと、根拠を示しておすすめ商品が出てくる。このような機能がしっかりしていれば、最新の商品どころか、注目・話題の商品というのすら必ずしも表示する必要がなくなってくる。もはや「分衆」どころではない。利用者の数だけセグメントがあるようなものだ。

 > ただ、掲示板ではそうもいかない。というより、そうしてしまってはいけないのではないかと感じている。各々が自分の興味に基づいて好き勝手に欲しい情報を得る、知らせたい情報を知らせるだけでは、議論は深まらない。一つの話題について「誰かが既に書いているから自分はいいや」というのでは話の輪が広がらない。まったく同じことを思う人など絶対にいないのだから、「自分はこう思う」と書けばいいのである。

 > より多くの人に「自分はこう思う」と書いてもらうためには、他の人の発言を読んで共感なり反感なりを持ってもらう必要がある。そのためには、いかに効率的に大量の発言を斜め読みできるかが問われる。
 > 手っ取り早くいろいろなコンテンツに触れられると、誰しも興味をそそられるというものだ。

 今回の「Contents(主な記事の一覧)」は、スマートフォンでの閲覧も考慮したページ幅にしながら、これまでになく大量の記事(のタイトル)をざざーっと流れるように一覧できるUIに仕上がっております。スコアの変動で表示件数は増減しますが、現在、「分ける」から「たをやめっ!」まで173件の記事を一度に表示している状況であります。

※ランキングについては上述の通りですが、下位の表示を打ち切る基準は変更する場合があります。

・「Contents(主な記事の一覧)」
 https://neorail.jp/forum/references.cgi?m=cat

 上から順に眺めていただいて、もし、見逃していた記事や、タイトルだけ見ても中身のわからない(読んだはずなのに覚えていない)記事などがあれば、あらためて参照いただきたく思います。

※このフォーラム…に限らず、フォーラムというものはおよそ、ぜんぶ読むことが究極的には必要となる、面倒なコミュニケーションでございます。読者の便のため要約や引用を記事中に示す場合もありますが、そうでない場合は、それ以前のすべての記事が頭の中にあるということを前提に、新着の記事がやってくるというわけです。もはや受験勉強の暗記の工夫みたいなもので、どんなに脈絡がなくとも「グリーンヒルいこま!」といえば、ああ、あの話題ですね、「あびバス!」といえば、100万ボルトですね、と、こういうわけです。脈絡もなく引き合いに出した施設等には申し訳ないですが、わるいことはいっていませんのであしからず。中には、たまたま引き合いに出した「湘南国際村」が、数学の研究者が合宿して議論する場所だったとわかるなど、おもしろい脈絡が後から出てくる場合もございます。

 記事を選択すると、その記事からリンクされている、外部のサイトのタイトルが、ホスト名のスコア順に表示されます。これを見るだけでも、記事の内容がだいたいつかんでいただけることでしょう。

 本文を読むほどではないと思われましたら、画面右上に3つ並んでいる記事番号(このフォーラムにおける通し番号)のうち、上か下を選んでください。これこそが「imolist!」の後継機能であります。わたしたちが「芋づる式」といってイモを手繰り寄せているとき、実は「イモか?」「イモでないか?」というバイナリな判定しか気にしていないのです。途中の茎や葉っぱはどうでもよいのです。ましてや、手ごたえがなくイモのなさそうな茎など、手繰ってみる必要すらないわけです。「芋づる式」というのは、全体の構造は見えていなくてもイモの感触がある、というところが重要で、イモが掘り出せさえすれば、そのイモがどのくらいの茎と葉をともなっていたかなど、武道場や体育館に並べて見せたりする必要なんて、これっぽっちもないわけです。

・深谷グリーンパーク・パティオ(深谷市)「パティオでお芋掘り」
 http://www.city.fukaya.saitama.jp/ikkrwebBrowse/recruitPC/recruitDetail.do?recruitId=7&recruitApId=159
 http://www.city.fukaya.saitama.jp/ikkrwebBrowse/material/image/recruit/159/20160812170453682.jpg

 わたしたち、茎や葉には興味なく、イモだけに興味があるのだと再認識できましょう。

・「複数ニュースサイトのいもづる式検索エンジン「いもなび」の評価」(2006年)
 http://www.anlp.jp/proceedings/annual_meeting/2006/pdf_dir/C4-2.pdf


この記事のURL https://neorail.jp/forum/3483/


この記事を参照している記事


[3514]

【5年移動相関】おそらくTensorFlowを用いたであろう「時系列パターン認識」を千葉県「産業連関表(平成17年表)」ならびに「リクルート」で読み解く(推)

2017/7/23

[3527]

研究ホワイトボックス(23) 自由研究総合(自由形)にクラスター分析を(詳説編)

2017/8/11

[3532]

【自由研究】ゆるシミュ(4)

2017/8/19

[3566]

「決定木」を1度忘れて再び「ランダムフォレスト」に至る(談)

2017/11/19

[3573]

研究ホワイトボックス(27) 多変量データの全域を考察するには〜駅弁の商品構成を例に(前編)

2017/12/3

[3587]

研究ホワイトボックス(31) ハイパー・ゼロ:「主成分分析」FAQ(補遺編)〜ふれねる「スクリープロット」の崖<がい>

2017/12/19

[3594]

いま問う「相関係数計算機」のココロ

2018/1/1

[3621]

いま「横須賀線」を「よこかんみなみ」で読み解くココロミ(試)

2018/3/18

[3652]

【自由研究】ふわコレ(7)

2018/6/10

[3674]

研究ホワイトボックス(33) なるべく「一般的」といわれる方法に則るには

2018/9/1

[4248]

研究ホワイトボックス(42) A列車で理数探究

2020/10/1

[4527]

すごーくアミューズメント機器(再)

2021/5/1

[4629]

ふれねる「自由研究 数学」の好(HAO)

2021/8/25

[4641]

うるう年の翌年の10月1日

2021/10/31

[4644]

湘南国際村 / びゅう / ほか

2021/11/1

[4646]

エンドウたんぱく【パレート】

2021/11/1

[5081]

【A9・Exp.】いま「運行8策」のココロミ(試)

2023/9/1


関連する記事


[4543]

【東口直結】特異値分解とは何か(再)【多様な個性が響き合う】 tht - 2021/5/1


[5075]

一人負け日本語圏の衝撃【ダークパターンあり】 tht - 2023/9/1


[5244]

【あのシステム】「ぼくのかんがえたさいきょうの京葉線ダイヤ」とは何か(談)【大みか】 tht - 2024/7/7


[5289]

【A9・Exp.】オート全自動「ひしめきあう街」(網形成計画編) tht - 2025/1/1


[4727]

【OuDia】ジェイアール総研情報システムとNTTデータと統計数理研究所で「数理最適化」のイメージを探す(談)【朝倉書店とオーム社の違いあり】 tht - 2022/5/1


[4296]

子どもがひねり出す謎の『理路』(11) tht - 2020/11/1


[5239]

コロナ社「土木・交通計画のための多変量解析(改訂版)」(2024年3月)こもごも(談) tht - 2024/5/1


[4633]

ふれねる「自由研究 数学」の風(HUU) tht - 2021/8/25






neorail.jp/は、個人が運営する非営利のウェブサイトです。広告ではありません。 All Rights Reserved. ©1999-2025, tht.