|
・(将棋の)「レーティング」を読み解く(仮)
(約5000字)
将棋の話([3099])で続報が出ました。しかし、人工知能学会ではなく情報処理学会の話です。恐縮です。
・NHK WEB特集「人を超えたか コンピューター将棋」(2015年10月16日)
http://www3.nhk.or.jp/news/web_tokushu/2015_1016.html
> 10月11日「情報処理学会」のホームページに掲載された宣言文。「コンピュータ将棋プロジェクトの終了宣言」です。
> コンピューターの研究者らでつくる情報処理学会は、トップ棋士に勝つ「頭脳」を持ったコンピューター将棋の開発を目的に5年前にプロジェクトを立ち上げ、日本将棋連盟に「挑戦状」をたたきつけました。そのプロジェクトを終了すると言うのです。
※「たたきつけた」当時としても、うーん、まあ「害」はなさそうだからいいか(静観しよう)的な態度であった人は、かなり多いと思いますが、あくまで主観です。(「サイレント・マジョリティー」[3051]も参照。)
> 40年前からコンピューター将棋の開発に携わっている東京農工大学の小谷善行名誉教授は、コンピューターとプロ棋士の実力を「レーティング」という数値に換算して解析しました。
> レーティングは、棋士の実力をはかる指標としてチェスなどでも用いられています。
> 小谷さんは去年7月、ここ数年の対局のデータから、コンピューターがトップレベルの棋士と対局した場合のレーティングを新たに算出し、どちらがどのくらいの確率で勝つのかを予想しました。その結果、去年7月の時点で、最強のコンピューターソフトは、プロのA級と対局すると63%の確率で勝利するという結果になりました。
> さらに、このデータを基にシミュレーションしたところ、コンピューターはどんどん進化し、ことしの2月の時点で、プロ棋士の中で最もレーティングが高い羽生四冠と互角の勝率になったという結果が出たのです。
> 日本将棋連盟はコンピューターとプロ棋士が戦う電王戦を、来年も行うことにしています。電王戦は、インターネット中継を多くの将棋ファンが楽しむ人気の棋戦となっています。最近では、学会のプロジェクトや研究者とは別に、個人が趣味などで開発したソフトが活躍するケースも増えていて、プロ棋士とソフト開発者の知恵比べの場にもなっています。
さすがです。「みんなでプロ棋士を囲む会」などと下世話な表現をせずとも「知恵比べの場」といえばよかったんですね、勉強になります。
> 最強と言われている「ponanza」というソフトを開発した山本一成さんは東大将棋部の出身で現在はIT企業に勤めています。山本さんは、今回の学会の終了宣言について「コメントしにくい」としたうえで、「将棋ソフトには、まだまだ強くなる余地がある。プロもコンピューターの指し手を研究してどんどん強くなっているので、プロと戦う様子を将棋ファンに見せることが楽しく、今後も、開発を続けていきたい」と話しました。
> 来年の電王戦は、コンピューターどうしと、プロ棋士どうしがそれぞれトーナメントを行い、その頂点を極めたものどうしが1対1で戦います。
> 「トップ棋士に勝つ目標は達した」として学会が出したコンピューター将棋のプロジェクトの終了宣言は、コンピューターが人間への挑戦だけを掲げていた時代が終わり、互いに切磋琢磨する時代が始まったことを示しているのかもしれません。
それはそれでいいんですけれども(大いに楽しみましょう! の意)、研究は研究でしっかり、研究と呼べる研究手法をしっかり踏んで、広げていきたいものです。
★(将棋の)「レーティング」を読み解く(仮)
NHKの記事で言及されている「レーティング」とは、いかなるものでしょうか。
・ウィキペディア「将棋倶楽部24」
https://ja.wikipedia.org/wiki/%E5%B0%86%E6%A3%8B%E5%80%B6%E6%A5%BD%E9%83%A824
・(参考)個人のページ
http://www.shogidojo.com/dojo/rating/
> チェス界の棋力判定方法であるレーティング方式を、将棋界に導入したもの。
> 1. 各自、(自己申告にて)自分の棋力を表すレーティングを最初に設定する。
> 2. 勝敗によって、自分と相手のレーティング点数が増減する。
> 3. ある一定局数以上、対局すれば、レーティング点数は安定してくる。
> 4. それが、現在の自分の実力を示した点数。これによって、自分の実力を動的に正確に判断できる。
なぜ勝ったのか/なぜ負けたのか、勝った(負けた)のは偶然ではないのか、を問わず、現に勝った/負けた、を「十分な回数」([3097])試行して、それによって一種「ブラックボックス」で相対的な順位づけ(ランキング:絶対値に意味はない=参加者全体の変動によって絶対値の重みも変動する→後述の『インフレ』)をしようというもので、テニスやゴルフの世界ランキングと同種のものですね、わかります。
とはいえ、この方法で「偶然でない」ということを十分に保証できるためには、何回の試行が必要になるのでしょうか。具体的な見積り方法(※)はよくわかりませんが、少なくとも「8,000回」([3076])、一般には「50,000回くらい」([3097],[3099])の試行がなくては「安定」とは到底、いえないはずです。
※桁数で考えるんでしょう、たぶん。「レーティング」を算出する対象者の総数Nが増えれば増えるほど、ある一定の精度で「誤差でない(偶然でない)」を保証するために必要となる試行回数がグングンと、それはもう指数的に増えていく…はずです、たぶん。これを「バクハツ」と呼ばずして何と呼びましょうか…などと一種「観念」されます(ドダイ、無理な話である、の意)。「将棋はバクハツだっ!」などと…いえいえ、いつからそんなブッソウな競技になってしまったのでしょう。
・「岡本太郎爆発大全」河出書房新社(2011年)
http://www.kawade.co.jp/bakuhatsu/
・「湧きあがる色と音。maxell」(1981年)
https://www.youtube.com/watch?v=m-FP9K1iD-g
テニスなど、将棋ほどには対戦時間がかからず、年間を通じて多数の試合が行われる種目では有効に機能するでしょうが、(人の)将棋の対局では、かなり無理があります。他方、コンピューター同士の『対局』で、「持ち時間」を省略して行う方式であれば、それなりに有効な指標といえそうです。
それでも、どの局面ではどちらが優勢であった、ある1手がいかなる性格を持っていたかなど、将棋の将棋らしい面を、全然まったくちっとも考慮しない指標です。こんなもの(※)を持ち出して云々するなんて、と、将棋ファンからは一種「疎まれる」のではないかと心配されます。仮に「現に疎まれていない」とすれば、それは「レーティング」がいかなるものであるか、きちんとは理解されていないからだ、と決めつけられましょう。本当でしょうか。
・ウィキペディア「イロレーティング」
https://ja.wikipedia.org/wiki/%E3%82%A4%E3%83%AD%E3%83%AC%E3%83%BC%E3%83%86%E3%82%A3%E3%83%B3%E3%82%B0
> FIDEの公式レーティングは1985年ごろから年に数点づつインフレを起こしており、これがグランドマスターをはじめタイトル保持者の増加につながっている。
> インフレ問題を解決するため、標準偏差を考慮したen:Glicko rating systemが考案され、一部の団体(Australian Chess Federationなど)で利用が始まっている。
・Wikipedia「Elo rating system」
https://en.wikipedia.org/wiki/Elo_rating_system
https://en.wikipedia.org/wiki/Elo_rating_system#/media/File:Elo_rating_graph.svg
ぬおー! これこれこれこれ([3086])、これですよ、なぜ英語版を「全訳」しないんですか、と叫びたくあります。そして、英語版にある図を、きちんと日本語版でも説明されたくあります。
> Graphs of probabilities and Elo rating changes (for K=16 and 32) of expected outcome (solid curve) and unexpected outcome (dotted curve) vs initial rating difference For example, player A starts with a 1400 rating and B with 1800 in a tournament using K = 32 (brown curves). The blue dash-dot line denotes the initial rating difference of 400 (1800 - 1400). The probability of B winning, the expected outcome, is 0.91 (intersection of black solid curve and blue line); if this happens, A's rating decreases by 3 (intersection of brown solid curve and blue line) to 1397 and B's increases by the same amount to 1803. Conversely, the probability of A winning, the unexpected outcome, is 0.09 (intersection of black dotted curve and blue line); if this happens, A's rating increases by 29 (intersection of brown dotted curve and blue line) to 1429 and B's decreases by the same amount to 1771.
うーん、これとは別の向きから見た図がほしいですね。横軸に試行回数(対戦相手の数や、対戦相手とのレートの差の累積など)、縦軸に「信頼度のようなもの」をとったような図が…ほしいですね。…やっぱり、ほしいですね。
| |