フォーラム - neorail.jp R16

【自由研究】の話題

 → 茨城県内で必要な「主論文・野帳・掲示物」とは? 【詳細】(2017/10/19) NEW!
 → 【自由研究】の記事一覧(新着順)


【研究ホワイトボックス】

研究を楽しく「追体験」! 真っ白のキャンバスに虹色の未来を描く方法、教えます。
R with Excel prcomp | kmeans・hclust | rpart | ggvoronoi | spantree | lm NEW!


発行:2017/7/23
更新:2019/4/2

[3514]

【縦書きディープなラーニング(※表示は横書きです。)】

【5年移動相関】おそらくTensorFlowを用いたであろう「時系列パターン認識」を千葉県「産業連関表(平成17年表)」ならびに「リクルート」で読み解く(推)


「AI」とはにわっ!?
「時系列データマイニング」+「『ディープラーニング』と呼ばれるAI(人工知能)」の“妙”
「開発」とはにわ
「NHK技研」ここにあり
経済学と社会学を『がっちゃんこ』
「宿題」はわわ
ツイッター(ほか)かく語りき
さらにかく語りき(談)
「ぐるぐる☆どっかーん!」を金沢大学「同軸噴流の軸対称とヘリカルモードの流れ構造」で読み解く(試)
略年表 ニューラルネットワークの研究とNHKの関わり
データセット1(「5000を超える公共のデータ」)
データセット2(「タイプ分け」)
データセット3(番組ホームページで説明あり)

(約53000字)

●「AI」とはにわっ!?


・NHK「NHKスペシャル AIに聞いてみた」(2017年7月22日放送)
 https://www6.nhk.or.jp/special/detail/index.html?aid=20170722

 これ、何の番組かといって、経済ですよね。うん。テクノロジーやサイエンスの番組ではないんですよ。(※比ゆ的には「科学文化部」ではなくて「経済部」なんですよ。)経済が専門でなければ、とりあえず「はぁ」と聞いておくしかないんですよ(=わたしのことです、あしからず)。大越氏は「連関」といっているので、ああ、経済なんだと(「政治部」ではあるけれども、とっさに「連関」というくらいには経済を勉強しているのだと)、合点がいきました。

・NHK「解説委員室」
 http://www.nhk.or.jp/kaisetsu/

 情勢を分析してみせて、解説委員が考察を述べるという形式の番組は、既に長い歴史がございます。これを夜の7〜9時台に持ってくるとこうなるのだと、こういうわけです。…なるほどねぇ。ナレーションのおかたって、いま何歳でしたっけ…そっちですかっ。(棒読み)

 解説委員が解説委員という名のもとに好き勝手なことを言っている! …とんでもない。番組に直接には出てこないところで、多くの記者やリサーチャーが取材や調査を重ねた上での解説委員なのですよ。

 外部の専門家との連携がどのようになされているのかといって、その実、いわば学術版「見えざる記者クラブ」みたいなの(!)とでもいいましょうか、特にニュースがなくても取材や調査をなさっておられるはずですし(=甘い期待としては、専門家が何を常識、何を今後の課題だと捉えているかというようなことは、記者も承知できている…はず!)、どこにどの分野の専門家がいるのかという「専門家名鑑!」みたいなのも、部内でつくられていることでしょう。(※あくまで一般的なイメージです。)専門家から異論が噴出するようなお粗末な番組が作られることはないだろうという、これまた淡い期待を、専門家としてはお持ちであろうとの推察にございます。

 その上で、分野間で見解が分かれるような部分については、あえてNHK側に責任がある(=「NHKスペシャル」として放送する=)という体裁をとることによって、かえって(伝統的な)専門家が先入観(や従来の分析手法)を捨てきれないところをあっさりと突き抜けた内容になっているのではないかとも…うーん。それでよかったのでしょうか。

 AI(を用いた解析システムならびにインタラクティブ可視化システム)そのものについては、ちょっとした工学部の研究室くらいの陣容で、NHK内(※場所は技研かもですが&人は院生のインターンシップくらいのソレかもですが=あくまで一般的な推察です)に「開発ルーム」と称して1部屋ほど確保なさっているようすが映し出されています。…うーん、いいモニターを使ってるねぇキミぃ(略)@うりうり!(※モニターはイメージです!)

 なお、「データ同化」については[3151],[3400]を参照ください。


●「時系列データマイニング」+「『ディープラーニング』と呼ばれるAI(人工知能)」の“妙”


 「AI-たにし」さん([2],[127],[130])…は無関係ですけど、なんとなく思い出しました。(恐縮です。)

・かみつたセンセイ「頻出パターンマイニング」
 http://www.kamishima.net/archive/freqpat.pdf

 > (13ページ)

 > Apriori
 > VLDB 1994

 1994年のアルゴリズムなので、そのつもりで読むのですよ、の意。

 > 直接的な解法: 作ることが可能な相関ルールを,全て作って,その支持度と確信度が条件を満たすかを検査

 > しかし!

 > アイテムが10種類の場合でも,それらを組み合わせて作ることのできる相関ルールは57,002種と多い
 > アイテム数が増えると,さらに膨大になる

 > 無理!

 > 支持度と確信度の特徴を使って効率よく探索

 「5000を超える公共のデータ」…ぎゃふん!! 5000として、そこから2つをとる組合せは12,497,500、3つなら20,820,835,000にまでバクハツするのですよ。そこで「ディープラーニング」なのですよ。いかにも妥当なアプローチではございませんか。

 最終的に得られるのがAprioriと同じ相関ルールであるとしても、この、同時に「5000を超える公共のデータ」を扱おうというところにはかなりの工夫が要るのであって、それを(仮には、ある1期・1地域のデータを5000×5000ピクセルの画像で表現し、12月×30年×47都道府県=16920枚の画像を積み上げて、あとはもう、単に画像として扱って)「ディープラーニング」で特徴抽出(「パターン認識」)しようということです。

※相関行列としては斜め線を引いて半分でいいので画像を折りたたんでピクセル数は半分にできたりするんでしょうか&したいですよね、の意。

※年単位であれば1410枚の画像を積み上げるだけですよ@まさに卒論レヴェルですよ&論文に「Pentium!」とか書いちゃいそうな勢いですよっ。CGで「パターン」を積み上げてみせている「高さ」は、かなりおおげさではないかなぁ。もし1410枚なら、500枚入りのコピー用紙をつごう3冊ほど積み上げて、そこからつごう90枚ほど抜いたくらいの高さなんですよ。…ギクッ。

・まじかる☆だいおうじ!「コピー用紙」のイメージです
 http://image.itmedia.co.jp/bizid/articles/0903/19/ts_majikaru.jpg
 https://www.officedepot.co.jp/user_data/packages/b2c/img/sku/134000/133276_sk_lg_121121162947000000.jpg
 https://www.kaunet.com/kaunet/images/goods/option/extra/K3412644.jpg
 https://www.kaunet.com/rakuraku2/base/images/template/k034_t_170928_987_search_exp01.jpg

 (あくまで比ゆ的には)天井の模様が顔に見えるっ!! …じゃなくて、デジカメの「流し撮り!」みたいな処理に近いとでもいえばいいんでしょうか。

・「流し撮り(コンティニュアスAF)」のイメージです
 http://fujifilm.jp/support/information/move/index.html?link=n2u

 おっと、まずは「『AI』とはにわっ!?」との疑問に答えておかなくてはいけません。「パターン認識」(⇒マイニング)というのは、(「知能を持つ」)人にしかできない高度な知的タスクだと思われていたところ、これが計算機にもできるんですよん=これを「人工知能(AI)」というんですよ。それだけなんですよ、ええ。ですから「パターン認識」を使っていれば(=必然的に、その部分がコアになるわけですし)、そのシステムの全体を「AI!」と呼んで、…まあ、呼んでいいですよね&むしろ呼びたがっているんだ的な叫び(?)はわかりますよね。(※あくまで1つの見解です。)

 これまでの経済指標の分析の「お作法」に則った入力と出力でありながら、しかし、途中に「ディープラーニング」を組み込んで…という、そこが見どころであるように思われそうです。

・千葉県「産業連関表を利用しよう(平成17年表)」
 https://www.pref.chiba.lg.jp/toukei/toukeidata/sangyou/h17/17riyo.html

 > 産業連関表利用のためのリーフレット
 > 『入門産業連関表その見方・使い方』

 > 第2次波及効果

 グラフ理論でいう「ホップ数」([3496])としては、わずか「2」までしか追わない(=追えない)のが、手作業で産業連関表([3494])と諸統計を参照しながらのソレであったということなんです。これ自体が1970年代ひいては1960年代を引きずっているといえばそれまででもあると思いますけれども、いまとなってはスマホでも計算できそうなくらいの計算しかしていないですよね。そこに、きちんと最新の計算機資源(…にかかるお金! 要はお金ですよ、お金!!)をじゃぶじゃぶ投入しようと(ストレージではなくCPUにお金!!、の意)、こういうわけです。そこにはクラウドを使うのかなぁ。(…気になります!)番組の進行上「もっと高性能な『パソコン』がほしい」といわされてからの…げふ…やだなぁ。Xeonが2つとか4つとか載ってるサーバーとかXeonが載ったボードとかでしょ、あなたがほしいのは([3302])。

[3358]
 > わあぃXeonがいっぱい。***Xeonがいっぱい***。

 > prevailing:優勢な、今流行の⇒目先の(?)、only be changed or improved in the long term:⇒長期変動としてのみ観測できる。

 > 「目先の○○!」と「長期変動」を対置して述べているのかなぁ

・ベンダーニュートラルをきどって「EPYC」のイメージです(2017年7月13日)
 https://japan.zdnet.com/article/35103876/

 > 128レーンものPCI Expressを使用できることから、最大6枚のGPGPUカードを搭載できる。

 その時点その時点の「いちばんいいやつをたのむよ☆」のほうなどしないと、ライバルに後れをとりますぜ★お客さーん!(※表現は演出であり、ベンダーから見ればNHK殿もお客さまですよ、の意。)

[3302]
 > > 実際の計算時間を以下に示す(単位は秒)。実行したマシンは PentiumII 400MHz x 2, メモリ 512MB, Kondara MNU/Linux 1.2 (kernel-2.2.17-15ksmp), Octave-2.0.16 (ディストリビューション附属のノーマル状態のもの) という感じである。

 > ※2001年2月のスペックです(=当時)。現在の気分としては、Xeon E5を2つ載せたデルやLenovoのワークステーション(もしくはタワー型のサーバー)を1台だけフンパツするような感じですね、わかります!(あくまで気分です。)メモリが64〜128GBくらい(一般的な「PC」の8〜16倍くらい)といって、その実、「約409,379円くらいヨリ」とのこと。(=2016年のお値段です。)記事が書かれた当時には、わざわざ書くまでもないくらいの(研究室で使うマシンのスペックとしては)「あたりまえのこと」であったかもしれませんが、こう、15年後に読もうという時にはとっても参考になります。

・合成「ライバルの後れをとる」付近
 http://thesaurus.weblio.jp/content/%E6%B0%97%E5%BE%8C%E3%82%8C%E3%81%99%E3%82%8B
 http://thesaurus.weblio.jp/content/%E5%BE%8C%E5%A1%B5%E3%82%92%E6%8B%9D%E3%81%99%E3%82%8B
 http://thesaurus.weblio.jp/content/%E7%B6%9A%E8%A1%8C

 > 相手の持つ力に圧倒されること
 > 優劣で遅れを取ること

 > ビハインドする
 > 幕なし

 なお、データが「30年分」といって、仮には1985年から2015年くらい、つまり、ほとんどは『平成時代!』のデータなんですよ。JRだって「30周年」なんですよ。…その発想はなかった! わたしたち、「30年分」といわれて、はいそうですか…じゃなくて、1960年代や1970年代のデータが入っていると、勝手に思いこんだりしちゃってません? えーっ!!

・総務省統計局「主要耐久消費財の所有状況」
 http://www.stat.go.jp/data/zensho/2004/taikyu/gaiyo1.htm

 最後のソレとして「クーラー」がほぼ普及し終えたあと、「みんながほしがる耐久消費財!」って、なかったのだと、(番組内で言及されている通り)そういうわけです。この30年のデータでは、最初のほうで「クーラー」の普及([3174])、自動車の複数台保有などが観測された後は、まったくよくわからないデータになっているのではないかと思われないでしょうか。本当でしょうか。そして、そのよくわからないところこそ『平成時代!』の核心であると仮定すれば、逆算的に、どのようなデータを持ってくれば「補間」できるのでしょうか。考えるべきは、そっちなのですよ。(…たぶん!)

[3174]
 > いまや「野×家」にも『据え置き型ゲーム機』(セガ「ドリームキャスト」の本体形状に任天堂「ゲームキューブ」の色とコントローラ!)があり、「松×家」にはブランド不明の『薄型大画面テレビ』が、しかし「×野家」には『東芝のエアコン』はないんですねぇ…などと(略)。「温熱」については[3162]を参照。「磯×家」にエアコンがないのは住宅の気密性の問題であって、たいへん技術的に妥当な判断です。かといって、他の家電を1990年以降のものに「リプレース!」してしまうと、「ルームエアコンの世帯普及率」の統計に反することとなり、たいへん(統計上)不自然になります。それを避けるために、作中のすべての家電が1988年くらいで止まっているんですね! ……さすが東芝っ! 仮に『演出の都合上!』の理由だけで説明がつくとしても、実際にはもっと複雑なのですよ、と勝手に決めつけてみます。(あくまで決めつけです。)

 ゲーム機はみんなほしいですけど(=賞品や景品として大人気!)、100万円前後という(当初の「クーラー」や自動車)ところからは1桁以上小さく(※ゲーム機をほぼぜんぶ買い揃えてソフトもじゃぶじゃぶ買ったとしても、維持費込みでの自動車ほどにはかからない)、ローンを組んで150万円のワークステーションやサーバーを買う個人がふつーにポンといるかといって、うーん(※建築士やデザイナーなどの個人事務所を除く=これは設備投資であって耐久消費財ではない、の意)。「クーラー」や自動車に相当する「みんながほしがる耐久消費財」って、やっぱりないですねぇ。

・「個人消費と設備投資の現状」京都総合経済研究所 東京経済調査部 村山部長の見解です(2016年8月)
 https://www.kyotobank.co.jp/houjin/report/pdf/201608_02.pdf

 そして、産業連関表の改訂が追いつかないよ! そっちなんですよ!!

 いきなりステーキ…じゃなくて、いきなりスマホが普及したりドローンで荷物を運んだりなんて、変化が速すぎるんですよ! 飲食店や小売店にしても『変な業態!』の店が「たけのこ」みたいににょきにょきする(=流行らなければ、すぐにたたんでしまう!)ようになると、(この「たけのこ」によって活況が生まれているのかどうかという部分は測れていないという意味で=単に飲食店の開店・閉店を数えさえすればよいというものでもない=ひいては閉店や廃業の増加をただちに不況のサインとみなすこともできなくなってゆくという意味まで含めて)統計が一種「骨抜き」になっていくんですよ。民泊? ありゃあ、ダメだね。宿泊者数の実績を正確に報告させることができる見込みとかあるんです? ないでしょ。(※個人の見解です。)

・「たたむ」
 http://thesaurus.weblio.jp/content/%E5%BA%97%E3%82%92%E3%81%9F%E3%81%9F%E3%82%80

・東洋経済オンライン「いきなり!ステーキ」のイメージです
 http://toyokeizai.net/articles/-/67357

・産経新聞「宿泊統計に「民泊」データを算入 観光庁、来年にも調査 訪日客の実態把握」(2017年5月21日)
 http://www.sankei.com/politics/news/170521/plt1705210007-n1.html

 > 日本政府観光局(JNTO)によると、平成29年の訪日客数は推計で5月中旬に1千万人を突破するなど順調に伸びている一方、宿泊施設にカウントされない民泊などを利用する訪日客も増え、最近の宿泊旅行統計調査では、外国人の延べ宿泊者数は前年同月を割り込む月があるなど乖離が見られていた。

 「ディープラーニング」を仕込んだNHKご謹製のシステムに、経済指標をどかんと放りこんで、入れたデータの範囲でわかる連関表を、その場でつくってしまおうと、たぶんこういうわけです。どれだけ(指標でなく連関表のほうが)フレッシュな分析になっているかということが、千葉県「平成17年表」と見比べると、わかってくるのではないでしょうか。

・千葉県「産業連関表の仕組みと見方」
 https://www.pref.chiba.lg.jp/toukei/toukeidata/sangyou/h17/documents/nyumon_1.pdf

 > (前略)そして、190部門表となると、とても見開き1頁の表には表し切れません。産業連関表の最も基本になる部門分類は行520×列407という細かいデータからなっており、それをどんどんまとめていって、190部門表、108部門表、36部門表、13部門表の順で作成されるのです。
 > もっとも、部門分類が変わっても、分析の理論や手順は同じです。早い話が3部門表での分析の仕方がわかっていれば、190部門表でも同じやり方で分析すれば良いのです。

※「行520×列407という細かいデータ」も、いまとなっては計算機で使うために、最初から使いたいとも思われるかもですよ。

 本件番組でつくられる相関関係の構造は、もちろん産業連関表とはまったく異なるものです。それでも、▼採用する項目を「産業」に限っていないこと、また、▼お金の移動ではなく、指標そのものが一定の時期に連動するかどうかという「相関」を調べて表をつくるのだという、この2点で、産業連関表を「一般化」したものであるということができましょう。こう考えれば、必ずしも「ディープラーニング」の詳細を知らなくても、産業連関表は知っている(≒大昔に習った!)かたには話が通じることでしょう。

 フレッシュな分析をこれまで誰もやっていなかったかといえば、いいえ。消費者物価指数など、個別の指標としては、調査内容のフレッシュさが確保されてきたはずなんです。しかし、連関表そのものをフレッシュに保とうというのは、きわめて困難であったとみられます。

・総務省統計局「消費者物価指数」
 http://www.stat.go.jp/data/cpi/4-1.htm

・「日本統計年鑑」
 http://www.stat.go.jp/data/nenkan/index1.htm

 > 30の分野,537の統計からなり

 「5000を超える公共のデータ」というと、よほど雑多なのではないかと心配されるかもですが、たぶんいいえ、足元ではこの年鑑のように、よく吟味された統計であろうと想像してみます。そして、この年鑑だけで537なんです。5000とはいっても、冊子体やCD-ROMの枚数でいえば、さほどでもないのではないかなぁ。銀行系のシンクタンクでは、あたりまえのように常備しているかもですよ。本当でしょうか。(※あくまで一般的なイメージです。)

 NHKとしても、1人で「5000」の全域を熟知しているという記者やリサーチャーはいなかったでしょうが、NHK全体の「チーム報道!(みたいなの=端的には部内の図書館とかデータベースとか)」としては、すべてこれまでに実際の報道や番組制作に使ったことのある、一種「手慣れた統計処理」の域を出ないともいえそうですよ。

※「47都道府県」でバラバラに出されている統計は、きっと1項目でも47と数えるんですよ。5000といっても、だいぶ内訳が見えてくるような気がしてきますよね。うん。そして、当然ながら「NHK放送文化研究所(文研)」([3215])の調査も使ってますよね。「パターン認識」「ディープラーニング」との文字の直前で「家庭内会話率(中学生)」「携帯・スマホ所有率(中学生)」「米生産量」「年間雨日数」「コンビニエンスストア数」…など出てきます。かなり文研っぽいですよね。ほかに「震度3以上の地震」というのも見えたような…気のせいですかねぇ。注目したいのは震度4以上なんでしょうけれども、(震源地ではなく、注目する地域で)震度4になるかならないかの境目で、もう1桁ほど精度がほしいといって「震度3以上」なんですね。(…たぶん!)

 本件番組では、「総務省 統計図書館」との字幕が出されながら、青い「館内」とのラベルも鮮やかに…じゃなくて、「国勢調査報告」「患者調査」「家計調査年報」「住宅統計調査報告」「国勢調査報告」「社会福祉施設調査報告」があざとく冊子体で映し出されています。そこに出てくる「602 男子寝巻き」(※「寝巻き」は原文ママ)くらいの細かさのソレ(しかし、そもそも統計を取る時点でよく吟味されているソレ)も数えて「700万」との…そういう数えかたなんですよね。本当でしょうか。…あ、「700万」ということは、月単位のデータはなくて、年単位なんですね。失礼しました。…そうしないと季節変動([3142])とか面倒すぎるじゃないですかぁ! <それある〜!!

※「総務省 統計図書館」と自前のデータ以外については「データ提供」として、「東京大学社会科学研究所」「大阪大学社会経済研究所」「慶応義塾大学パネルデータ設計・解析センター」「東京都健康長寿医療センター」「リクルート」がクレジットされています。この「リクルート」が雑多ではないかと疑われるかもですが、仮には「旅行先(市町村単位)」とか「ペットのえさ代」みたいなのは、同社くらいしか(網羅的には)持っていないのではないかなぁ。本当でしょうか。そして、「リクルート」もまた30年なんですねぇ。それでも「しょせんリクルートでしょ」「『あの』リクルートでしょ」といって、何か的なものを決して忘れ去りはしませんぞ的なげふんのほうなど、いまだに完全には拭えないかなぁ。ここテストに出ます!(違)そういう偏見は抜きにして、いかにも『平成時代!』っぽいデータとして「リクルート」は申し分なく(公的統計の)隙間を埋めていると思われましょう。…民間って、こうですね!(棒読み)

・ウィキペディア「寝巻」
 https://ja.wikipedia.org/wiki/%E5%AF%9D%E5%B7%BB

 > 現代では当て字で寝間着とも記すが、こちらは「寝間(すなわち、寝室)で身に着ける衣服」という意味合いが強く、旧来の和装を指すイメージが強い「寝巻」に対して、洋装にも当てやすい字として用いられることが多い。新聞は「寝間着」を統一表記としているが、文部省(現在は文部科学省)は『公用文の書き表し方の基準 資料集』で「寝巻き」としている。なお、「寝巻」は旧来の表記である。

※「602 男子寝巻き」という表記だけを見ても、いかにも1985年っぽいですよね。統計上の項目(継続的に調べる品目)として「602 男子寝巻き」と表記されながら、1985年くらいより新しい時期の数字なんですよ、の意。さあさあ「老人会」で「1985年に「602 男子寝巻き」をじぶんで買ったことのあるひと!」のほうなど…ぎゃふん。そんなことは考えたこともないよ! …旅館じゃあるまいし。

・(参考)損害保険料率算定機構「602 男子寝巻き」付近のイメージです(2007年11月)
 http://www.giroj.or.jp/disclosure/q_kenkyu/No13_3.pdf

※なるほど、家財の損害保険といって、いかなる世帯がいかほどの総額の家財を持っているのかという、そちら側からの調査のニーズにございます。…なるほどねぇ。(棒読み)

 番組内では「5年のタイムラグ」との言及がありましたが、平均でいう「移動平均」のウィンドウみたいなのの相関係数バージョンみたいなの(!)のことですよね。(…うーん、呼びかたがわからん!)

・海洋研究開発機構、東京大学「日本近海の夏の大気圧分布に数十年規模で変化する関係を発見 〜コメの収穫量や台風数との相関を指摘〜」(2015年7月30日)
 http://www.jamstec.go.jp/j/about/press_release/20150730/

 > この相関関係について長期解析
 > 主成分解析:指定した地域で典型的に見られる変動の空間構造とその時間的な振る舞いを抽出する統計解析手法。

・同「図4」
 http://www.jamstec.go.jp/j/about/press_release/20150730/img/image004.jpg

 > 図4. PJパターン指標と南方振動指数(ENSOの指標)との21年移動相関(ある年を中心とする前後21年の相関係数を毎年計算したもの)。縦軸の数字が大きいほど両者の相関が強いことを示す。点線より大きな相関係数は統計的に有意であることを示しており、相関の強い時期が数十年周期で繰り返し訪れていることがわかる。

 これですよ! そのままな呼びかた(移動相関)でよかったんですね。ここでは「21年」のウィンドウをとって『21年移動相関』といっています。本件番組では『5年移動相関』だと理解しました。…これでいいんでしょうか?

 本件番組のCGに即していえば、「パターン」の画像を積み上げたときの、高さ方向で(30年のうち)5年分、画像が月単位なら60枚、年単位なら5枚、同時に見るということです。(5年分の「窓」を、下から上へスライドさせながら、その範囲ごとに相関を求めるということです。同じ「窓」の中では順序を無視するのではないかとも思われ、「5年のタイムラグ」というのは「変化が起きる順番までわかる(≒『因果』がわかる)」ということでは、決してないと思われます。)

 なお、5年もあれば、14歳のひとが19歳になって、中学生が『大きな学生!』(や社会人)になるんですよ。「****(中学生)」という指標(平均すれば14歳のひとを調べた指標)を取り上げる中では、5年のウィンドウは広すぎないだろうかという心配もあるかもですよ。

※「データの境界に生じるノイズ」については[3281]を参照。

[3281]
 > AIの学習を阻む(精度を下げる)要因には、▼正解データの質や量、▼恣意的な加点、▼過学習([3100],[3142])などあることが知られていますが、これらと違って、まだあまり気にされていないかなぁ、と思われるのが▼「(データなどの分割の)境界に生じるノイズ」だろうと思っています。

 > ひとくちにノイズといって、EMC的な意味で、▼クロストークと減衰(古典的な電磁気のソレ)はわかりやすいですが、▼時間方向のソレであるタイミングのソレ(制御のソレ)、さらに▼境界面の反射(材料のソレ)といって見ていくと、ノイズというものが立体的に見えてくる気がしてまいります。その延長線上に▼データの分割の境界に生じるソレ(情報のソレ)があるというわけです。

[3469]
 > > 小学校1年生と6年生のデータ

 > げふっ…小学5年生と中学2年生が混ざってるデータ、この前、見ましたよ([3442])。

[3442]
 > 大阪府にあっては、複数の設問にまたがっての多変量解析([3403],[3406])を経ての考察が熱望されます。読売新聞のレヴェル(=わたしたちがわかるのはこのくらいだろうと思われているレヴェル、の意)で『(施策や補助金の額などを左右する)議論!』をしてはなりませんぞ。


●「開発」とはにわ


 「AIを開発!」といって、「発明」との混同もあるのかなぁと推察してみます。あるいは、「…あっ、あんなの! 卒論レヴェルだし! …卒論そのものだし!」みたいな焦りのようなものも、学生のかたはお持ちかも知れません。いや、大学の外で、じぶんでAIを使いたければ、▼買ってくるか、▼人に頼むか、▼オープンソースなどを使って内製するか、選べ! …うーん、迷っちゃう!(違)

・「Jubatusの機械学習ラインナップと利用シーン」
 http://jubat.us/ja/overview/machine_learning.html

 > 時系列データのウィンドウ設定つき統計分析を行います。
 > 与えられたグラフ構造から中心点や最短経路を抽出します。

 うーん。ちょっと違うかなぁ。(棒読み)

・ウィキペディア「TensorFlow」
 https://ja.wikipedia.org/wiki/TensorFlow

 > 処理にGPUを使う事も可能。ディープラーニングに対応

 挙げられているのはアプリケーションであって、TensorFlowそのものの説明にはなっていないと感じました。

・TensorFlow
 https://www.tensorflow.org/

 > TensorFlow™ is an open source software library for numerical computation using data flow graphs. Nodes in the graph represent mathematical operations, while the graph edges represent the multidimensional data arrays (tensors) communicated between them.

 > TensorFlow was originally developed by researchers and engineers working on the Google Brain Team within Google's Machine Intelligence research organization for the purposes of conducting machine learning and deep neural networks research, but the system is general enough to be applicable in a wide variety of other domains as well.

 多次元のデータ配列を放りこみさえすれば「ディープラーニング」ができますよ、との触れ込みでございます。「5000×5000ピクセル(仮)の画像」を積み上げて、というのは直感的な理解のためのソレで、途中で実際に画像ファイルをつくることなどなく、5000種類の指標のある1期・ある地域の値を0〜1に正規化し、0から4999まで並べたバーコードみたいなビット列を用意して、それを時間方向には360月、空間(地域)方向には47都道府県あるのだと、こういうような多次元のデータ配列を、どかんと放りこむというようなことなんでしょうか。実装の詳細はわかりかねますが、いたってふつーのまじめなポン…いえ、実装をしたはずだとの期待にはございます。

 そして、TensorFlowは「™」なんです。…なんと、TensorFlowは「™」なんですよっ。…なんてこったい。そして、TensorFlowの提供者としては、いかなるユーザーに対しても特別な協力などしないはずで(使いたければ自力で使いなはれよ、の意)、本件番組にTensorFlowとの名称は…ゼッタイに出てこないのではないでしょうか。本当でしょうか。ま、「ディープラーニング!」といっているので、十中八九、これですよね。

・ツイッター(2016年10月12日PST)
 https://twitter.com/hidemotoNakada/status/786342313584840704

 > NHKで昨日のtensorflow UGが流れてたけど、「製品発表会」みたいな扱いになってた

・NHK「AIで主導権!? グーグルの戦略を聞く」(2016年11月11日)
 http://www3.nhk.or.jp/news/business_tokushu/2016_1111.html

 > グーグルは去年11月、画像検索や音声認識、自動翻訳などに使われる人工知能のツール「テンサーフロー」を無償で公開し、個人や企業が自由に使えるようにしました。

 > 経済部 ****記者

 そら、経済部ですよん。(あたりまえですけど。)そして、このツールに関する「ユーザー