・「ディープラーニング」=「主成分回帰(PCR)」×「ループのある決定木」 ・(実験的な使用に留めるべきです) ・(データセットを検めます) ・「Frechet Inception Distance(FID)」=「分布と分布の距離」 ・「あのツタに覆われているセイボの木」「黒いキノコと藻が多いセイボの木」「リボンは体の一部」 ・「Illustration2vec」=「ベクトル空間モデル」 ・(評価実験を検めます) ・「わたしたちがAIと呼びたいもの」=「主成分分析(PCA)」+「ファジィC-means(FCM)」!?
(約77000字)
事実上の「ゼロから読み解くディープラーニング(仮)」でございます。おぬしディープじゃのう。(棒読み)
この記事は随時、加筆や修正を行なう可能性があります。引用はお控えください。
・(再掲)本日は青空文庫なり。「夏目漱石」を読む絶好の日よりなり。
https://www.aozora.gr.jp/cards/000148/files/1102_14956.html
・[3640]
> なんと夏目漱石せんせいがシミュレーションの何たるやを説いておられる。
> 夏目漱石せんせいが分類を語っておられる。
> > つまり角があるから牛で、鱗があるから魚だと云う代りに、発生学から出立して、どんな具合に牛ができ、どんな具合に魚ができるかを究めた方が、何だか事件が落着したような心持が致します。
> > ついには正宗の名刀で速射砲と立合をするような奇観を呈出するかも知れません。
チョコミント!! …じゃなくて、わたしたちはこのあと「小平邦彦」を読む予定になっています。(棒読み)
・[3670]
> > これも
> > いれるの!!
> > ぜったいに
> > やだ
> > > どないしよ
> > > どないしよ
> > CD-ROMをパソコンへ挿入し、CD-ROMから起動して使用します。
> わあぃCD-ROMドライブを買ってこなくちゃ!(棒読み)
https://121ware.com/navigate/enjoy/prevent/useful/20080219/index03.html
https://121ware.com/navigate/enjoy/prevent/useful/20080219/images/img_05_01_01.jpg
> お使いのパソコンの「CD/DVDドライブ」のトレイの前面ににマークが刻印されているので、そのマークを確認してください。マークによって、使うことのできるディスクが異なります。複数のマークがあった場合はそれぞれのマークに対応したメディアをすべて使うことができます。
※「前面にに」は原文ママ。
・本日はあらかじめ.tar.gzファイルを“解凍”いただきます。
https://neorail.jp/forum/uploads/WebDNN_characters_json.tar.gz
つごう45個のJSONファイル(「a」「b」「c」=後述)が解凍されますので1個ずつ下記のサービスに読み込ませるのですよ。…えー!!(※表現は演出です。)…じゃなくて、何でも「解凍」と称するのは『Windowsな文化圏!』ではなかったかという認識のもと(大巾に中略)結局、何でも「解凍」というんですか。「.tar.gzファイル」でも「解凍」でいいんですかねぇ。わあぃフローズン。日本初上陸のフローズン…って、いつのはなしですかぁ。いろいろなフローズンが順番に日本初上陸してきているよね。うそじゃないもん★日本初上陸だもん。(※表現は演出です。)
※「e」「f」「k」「m」には生成結果のPNGも含まれてございます(=後述)。実際にJSONを読み込ませて生成してみて、PNGがレタッチなどしていないAIの出力そのものであることを確かめてください。
★「ディープラーニング」=「主成分回帰(PCR)」×「ループのある決定木」
・ウィキペディア「ニューラルネットワーク」
https://ja.wikipedia.org/wiki/%E3%83%8B%E3%83%A5%E3%83%BC%E3%83%A9%E3%83%AB%E3%83%8D%E3%83%83%E3%83%88%E3%83%AF%E3%83%BC%E3%82%AF
本日の関心はそこにはないので省略です。…ええーっ!!(※表現は演出ですが本当に省略します。)
・大和総研の見解です(2016年11月15日)
https://www.dir.co.jp/report/column/20161115_011398.html
> ディープラーニングが実現していることを冷静にみてみると、これは統計における主成分分析とほぼ同様のことである。
「主成分回帰(PCR)」で求めた回帰モデルを使って画像の判別もできれば生成もできるのだという、そこだけおっしゃればよろしい。(※見解です。)
※単回帰から重回帰に“拡張”するようなことを、バーコードが2次元になるために1回、さらにカラーにするために1回みたいな、そういう“拡張”を2回したくらい、わたしたちが素朴に勉強できる統計からは“絶望的に”離れたところにあるのがディープラーニングだという一種の諦観のようなものが&しつれいしました。(棒読み)
・かの有名なオー野原氏(※仮名)がgdgd説明します(※表現は演出です)
https://www.slideshare.net/pfi/deep-learning-22350063
> 専門家向けではなく一般向けのDeep Learning(深層学習)の解説です。
https://image.slidesharecdn.com/deeplearningforbeginner-130602195048-phpapp02/95/deep-learning-12-638.jpg
https://image.slidesharecdn.com/deeplearningforbeginner-130602195048-phpapp02/95/deep-learning-15-638.jpg
https://image.slidesharecdn.com/deeplearningforbeginner-130602195048-phpapp02/95/deep-learning-18-638.jpg
とりあえずこの3枚だけでよろしい。(※見解です。)
…などと、これでもう本日の話題は終わった(≒リンク先を参照のこと)&しつれいしました。あとはもうぜんぶ余談ですから読まなくていいですよ。ええ。(棒読み)
★(実験的な使用に留めるべきです)
・「tips」
https://make.girls.moe/#/tips
> Better generation
> The input of the model consists of two parts, the random noise part and the condition part. If you generate a good image, you could try to fix the noise part and use random conditions to get more good images. We have observed that a good random noise is important for the better generation.
うーん。…うーん! あえていおう! なにもいわないでおこうと!!(略)そういうことがしたかったんじゃなかったんじゃありませんこと? あらあら、まあまあ!(棒読み)しばらく遊ぶ(※)とわかりますが、あなたがたがディープラーニング(というか数学)の教科書の用語に従って自動的に「the random noise part」と「the condition part」と呼び分けているのは、学習に使われた絵を実際に描いたたくさんの人々に対して、きわめて横柄な態度だと感じられてきます。「the random noise part」と決めつけて「you could try to fix」などと(大巾に中略)とんでもない!(棒読み)「the random noise part」といっている部分(そこを固定せず、その他をぜんぶ固定した場合にふらふら変動する部分)こそが、元の絵を描いた人が発揮した独創性そのものではないかと感じました。
※「わかる」と実感できるまでじぶんで試行錯誤してみる&英語のPDFもちゃんと読むのに7時間×3日はかかります。5分だけ試して「こんなものか」みたいに思ってはいけません。あなたは「生成」ボタンを押したら3秒で画像が出てくる高速なPCを使って、それだけの時間、もう見たくない(※ぼやけた画像ばかり見ていると目が疲れます)と思ってもなお「生成」を続けるのよ。きっとよ。(※表現は演出です。疲れたら休んでください。これゼッタイ。)
この「noise」というのは数学的な見地よりする便宜の呼びかたであって、▼「元の絵に“ノイズ”を乗せて別の絵になる!」みたいな『日本語』で曲解してはいけませんよ。
▼「noise」とは「離散」のパラメータである(※「xの値を入れると、まるでランダムに見えるyの値を出してくる『まことに都合のよい関数!』」と思えばよい)、▼ある値に対して1対1で対応する出力が定まるのですよ。すべての生成画像には「i丁目j番地!」(=後述)みたいな一意のアドレス(特定の出力が必ず得られる入力)があるわけです。…そこからですかっ!!(※恐縮です。)
その「noise」を、AIの外側で、つまりわたしたちがじぶんでサイコロを振ってあてずっぽうで決めて、しこうしてAIの入力に渡すということになってございます。サイコロをどう振ったかという責任がわたしたちに押し付けられているともいえます。(棒読み)
https://www1.doshisha.ac.jp/~mjin/R/47/47.html
> データサイエンスの分野では、観測データからノイズを取り除き、一定の法則を見つけ出して抽象化することをモデリングと呼ぶ。
> モデリングには、応答変数が何らかの確率分布に従うという仮定の下で、モデルに必要となる係数・パラメータを推測する方法が最も多く用いられている。
そういう仮定で“美しく”扱えないものをぜんぶ「ノイズ」ということにするというわけであります。しかし、それは簡単な関数しか使わないからそうなるんでしょみたいな&しつれいしました。(棒読み)
・「一意の」
https://www.nttpc.co.jp/yougo/%E4%B8%80%E6%84%8F%E3%81%AE.html
・「創作的寄与」とはにわが知りたい(2017年11月28日)
http://www.itmedia.co.jp/news/articles/1711/28/news020_4.html
※はにわ:よくわからないもの、の意。
> Optionsとしては、単純計算でも27万通りくらいの組み合わせがありますので、どのOptionsを選ぶのかという点については、選んだ人の「創作的寄与」はあると考えても良いような気がします。
> 気に入った画像を選別するという行為をした場合には、その選択行為に「創作的寄与」があると考えてもよいかもしれません。
うーん!! 「condition」に属する34種類より「noise」の128の値のほうが支配的な項になっているという感触があり、その「noise」に関してまったくサイコロを振っているだけである限りは「創作的寄与」とはとてもいえますまい。(※当座の見解です。)
> 「依拠(いきょ)性なしとして著作権侵害とならないという考えも十分成り立ちうるが、現行法上の解釈を前提とすると依拠性ありとして著作権侵害となると思われる」というものです。
サイコロを振ったけれどうまく振れてないみたいなときに、ほとんど元の画像の特徴をそのまま反映して色だけ違う程度の画像が出力されてしまった(※「されてしまった」に傍点)とき、それは限りなくアウトではなかろうかと&しかし(学習に使われた)元のデータのいずれとも「じゅうぶんな距離があります(どれとも似ていません)」みたいな『保証』を示す表示(数字)は出ないのでまったく不安だよとはこのことだよ。
ユーザーがナイーブにサービスを使用すると、どこかで見たことのある感じがする画像が生成されたときに好ましいと感じ、従って、サービスとしては、元のデータを『申し訳程度!』に改変してみせた画像を出力するケースをユーザーに期待させるという構図になってしまっていないでしょうか。画像をパラメータで生成している(そのパラメータをランダムに決めさせるUIを提供している)ということが、そもそも『見せ金!』のようなものになってしまってはいないでしょうか。…かなりギクッ。(※見解です。)
・「見せ金」とはにわ
https://kotobank.jp/word/%E8%A6%8B%E3%81%9B%E9%87%91-138713
> 商売などで、相手を信用させるために見せる現金。
・うーん。
http://b.hatena.ne.jp/entry/make.girls.moe/%23/
> ***キャラが出てきたらご一報下さい。
> 2017/08/21
https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcQ5HMD6F8FCUylFLYXSXxSxOxw5EJY3B2sAMf9RDEUGX4AbEsdbzQ
「year」が「2009」の学習データにある(※PDFで例示されている)ので「0.5」くらいを指定していればドンピシャな画像(※***先生の絵にしか見えない)がうっかり生成されてくるのではありませんか。…ギクッ。(棒読み)しかし、(特定の「先生」に帰属する)ユニークな絵柄がほとんどそのまま出てくるようなことは(確率の低さに頼るのでなく)システマティックに避けているのではありませんか。(※詳細は不明です。)
・『平均顔!』:絵を書いたひと自身が独創性を主張しない感じ(絵を描いたという労力への対価しか期待していない)
・『非平均顔!』:数学的にいえば「外れ値」ではありますが、いえいえいえ、そこに確固たる独創性があるのですよ
学習データには『非平均顔!』も含まれているけれど(※そもそも平均というものは、ぜんぶ入れて学習したから定まるもの)、生成するときには『平均顔!』だけにしますよということが実際に保証されるなら、あまり(実際的な)問題は起きてこないのではないですか。(※具体的な疑義があれば個別に争いなさいということです。それが民事でございます。)
ひとがじぶんで描く場合と照らしてみましょう。▼だいたいこんな感じ(※「だいたい」に傍点)みたいなふいんき(※画風、絵柄ともいう)を過去の作品に“取材”して、しかし▼じぶんで描く(最初は模写しながら採り入れてじぶんの絵にしていく)というのとだいたい同じこと(※「だいたい」に傍点)に過ぎないと…いえるんでしょうか。(棒読み)
なお、「year」は-1.5、-1.0、-0.5、0、0.5、1.0、1.5のどれかに固定すると「絵柄」が(合成に失敗した感じにならず特定の年代にありがちな絵柄に)はっきりする傾向がないでしょうか。いえ、0.6、0.9、1.2、1.5のほうが『ピーク感!』があるような気もしてきます。本当でしょうか。
もっとも、「AIを使えば誰でも○○!」みたいにいわれるのはかなりアレだと(略)あなたが描いた絵を20枚くらい入れると「ポートフォリオを採点」(※個々の絵の出来不出来ではなく、あなたの構想力やバランスのとりかたのようなものを採点)ですとか、購入履歴や読書履歴(の表紙画像)から推薦するですとか、そういう用途が期待されるのではないんですかねぇ。(棒読み)
★(データセットを検めます)
・かみつたセンセイ「被覆率」
http://ibisforest.org/index.php?%E8%A2%AB%E8%A6%86%E7%8E%87
> 欠損値があるデータ
> 近傍を使う手法で,近傍にデータがない
> 機械学習の文脈では,与えられたデータのうち,こうした障害がなく実際に処理できるデータの割合を被覆率と呼ぶことが多い.
> 情報検索では,利用者が適合していると知っている文書のうち,実際に適合判定されたものの割合を表すことがある.
・[3662]
> ゲームをつくるあなたの都合でなく、プレーヤーが「こんな駅にしたいんだけど」とめいめいにおっしゃる(※情報検索でいう検索要求ですね)、それをどのくらいカヴァーできているか(※F値ですね)を概数でいいから比率でとらえなさいよということです。わあぃベン図。
だいたいそんなようなことを見ていこうと思います。
・(2017年8月18日)
https://arxiv.org/abs/1708.05509
PDFの本文中を行ったり来たりしながら読みます。あしからず。
> (前略)Then we download images and apply lbpcascade animeface, an anime character face detector, to each image and get bounding box for faces.
証明写真の自動トリミングのやうだとはこのことだよ。(※入力される画像は顔の画像であるという前提で処理をする、の意。)
> We observe that the default estimated bounding box is too close to the face to capture complete character information that includes hair length and hair style, so we zoom out the bounding box by a rate of 1.5x.
…ちょっとなんだかなぁなんだよね。(違)
> Figure 13: Available dataset images by release years.
たったいま「2009年は0.5」みたいに早合点しておいて早速ではございますが、まったく日付順に並べて、その順番を-1.5から+1.5にマップしているとかってあるんですかねぇ。そうするとえらく指定しづらいと思うんですけれど、ブラウザのバーでは0.1刻みで調節させられるんですよねぇ。(棒読み)
> Finally, from 42000 face images in total from the face detector, we manually check all anime face images and remove about 4% false positive and undesired images.
42000枚のうち4%すなわち1680枚くらいはなかったことにしたと、こういうわけです。(棒読み)40000くらいしか元の絵はなく、そこに表現の重複がかなりあるだろうといって仮には1/23くらい(?)で5000になるでしょうか。(※あくまで概算です。)
※▼キャラクターが人間じゃないとか▼顔を隠してる「謎の人物」(という登場人物)だとか、▼3人くらいくっついて「取り巻き3人衆」みたいなことですか。(棒読み)
つまり5000、つごう5000ほど、色の塗り替えや表情などは数えず純粋に人物の表現や「画風」のバリエーションだけを数えたとすると、わずか(※「わずか」に傍点)5000通りくらいしかないのではありませんか。あまつさえ「year」は7くらいの分解能で考えることができるようですから、「year」を指定すればもう(※「もう」に傍点)700通りくらいしかないのではありませんか。本当でしょうか。ハウスメーカーのカタログを見ながら注文する注文住宅って、本当に『注文住宅』なんでしょうかねぇ。(棒読み)
> Figure 8: Generated images with fixed noise part and random attributes
それではもはや、いつかどこかで雑誌の付録についてくる『漫画がうまくなる定規!』(※仮名)でしょ。(※見解です。)
> Incorporating label information is important in our task to provide user a way to control the generator.
> The generator G receive random noise z along with a 34-dimension vector c indicate the corresponding attribute conditions.
絵とともに収集した「タグ」に依存しているので、「タグ」として言葉で書かれるまでもない明らかな特徴や、言葉にしにくい特徴(※描いた人の癖みたいなもの=「画風」「絵柄」という言葉だけで言い尽くせるとも限らない、あやふやなもの=むしろ不安定感)はぜんぶ「the random noise part」とされるしかないようすがうかがえます。
※主成分分析になぞらえて簡易な理解を試みれば、「タグ」を主成分分析にかけて固有値が1以上のやつ(!)を採ることにしたら、上から34個まで採ることになったよみたいなことです。…たぶん!!
…えっ。「タグ」は「収集」したものではないですって?
> We use Illustration2Vec, a CNN-based tool for estimating tags of anime illustrations for our purpose. Given an anime image, this network can predict probabilities of belonging to 512 kinds of general attributes (tags) such as “smile” and “weapon”, among which we select 34 related tags suitable for our task.
ええーっ…。ま、いかにも人手で付けたときに付きそうなやつ(!)を推定してみせるということですから、やはり言葉にしにくい特徴は無視される方向にあると思ってよろしかったでしょうか&しつれいしました。(※見解です。)
> Figure 9: Generated images under fixed conditions.
> Table 2: Precision of each label
そういうオプションだし&そういう並べかただし…うーん。「タグ」の推定結果が「ラベル」で、これも34種類なんですね。
> We show the selected tags and the number of dataset images corresponded to each estimated tag in Table 1.
> For set of tags with mutual exclusivity (e.g. hair color, eye color), we choose the one with maximum probability from the network as the estimated tag.
えーっ。(しばらくお待ちください。)…えーっ!(棒読み)「タグ」って、そういうことなんですか。「weapon」とかって、すんごく大きな特徴(複数の特徴量)を“よく束ねる”(要約する)ナイスなタグじゃありませんか。(※あくまで私見です。)サービスの作者らのアルゴリズム(※)の都合上、属性は排他的でなければいけないというのはそっち都合でしょ(…『そっち都合』!!)本来は「weapon」みたいなタグと連動する特徴量もうまくコントロールできるようにしないと役立たずでしょ。(※感じかたには個人差があります。)
※ディープラーニングのチェーンだけでなく、データセットを用意するところからウェブサービスでデモンストレーションするところまでぜんぶの工程を総称しています。
・「証明写真を自動でトリミング・画像補正するソフト」NECソフトです
https://www.bcnretail.com/news/detail/060619_4576.html
> 用途としては、顔写真付きの社員証、学生証、運転免許証、パスポートなどを想定しており、通常は1枚1枚手作業で行うトリミングと画像補正を自動化し、コストダウンと作成時間の短縮を可能にする。
…というソフトウェアを組み込んだシステム一式お納めの(略)NECでも使っているんですかっ&しつれいしました。
・東京新聞「運転免許証 医療用帽子、着用認める がん患者の要望受け」(2018年6月20日)
http://www.tokyo-np.co.jp/article/national/list/201806/CK2018062002000255.html
・NHK「古いコンピューター そのままだとGDP12兆円の損失」(2018年9月6日)
https://www3.nhk.or.jp/news/html/20180906/k10011614761000.html
> 企業が
「顔写真付きの社員証」をつくるシステム一式みたいなのも新しくしないといけないんですね、わかります。(棒読み)
・インプレス「NEC、社員証のICカード化を促進する統合ソリューション」(2005年7月20日)
https://enterprise.watch.impress.co.jp/cda/security/2005/07/20/5766.html
> NECは、このソリューションの効果を実証するため、同社の社員証の更改時期にあたる2006年4月より、3万人に及ぶ全社員へこのソリューションを導入する。
このくらいの時期のシステムがそろそろですか。本当でしょうか。(棒読み)システムには目的がないとだよね。要素技術のデモンストレーションだけで終わっていたらいかんですばい。…ギクッ。
★「Frechet Inception Distance(FID)」=「分布と分布の距離」
引き続きPDFです。読む順番はかなり前後しています。あしからず。
> To evaluate the FID score for our model, we sample 12800 images from real dataset, then generate a fake sample by using the corresponding conditions for each samples real images. After that we feed all images to the Illustation2vec feature extractor and get a 4096-dimension feature vector for each image. FID is calculated between the collection of feature vectors from real samples and that from fake samples.
評価実験では特徴ベクトルは4096次元であらせられる(※評価実験については後述)。
> On the conditional generation of images, the prior distribution of labels Pcond is critical, especially when labels are not evenly distributed. In our case, there are only 49 training images assigned with the attribute “orange eyes” while 8861 images are assigned with the attribute “blue eyes”.
後の図で「Input(128+34)」と説明されるように、著者らが「prior」とみなした(※「タグ」との整合性もよい?)「cond」を34、残りの128(※「タグ」との対応が不明瞭?)を「noise」ということにして(UIとしては「ランダム」にして)おられますが、これぜんぶで特徴空間を成していると理解してよろしかったでしょうか&しつれいしました。
> By fixing the random noise part and sampling random conditions, the model can generate images have similar major visual features (e.g. face shapes, face directions).
ほぅ。(※恐縮です。「顔の向き」については後述。)
学習に使われた元のデータとしては「year」を問わない状態でも実質的に5000通りくらいしかない(類似画像が多いはず)と思われるものの、そこから「128+34」の特徴に分解し、特徴ごとに微調節しながらなめらかに(5000通りの元の絵をブレンドしたような画像を)生成できるとおっしゃる。…本当でしょうか。しかし、それはブレンドの微調節に過ぎないのであって、「27万通りくらいの組み合わせ」と捉えるのは適切ではないのではないかなぁ。(棒読み)
> Figure 15: Samples in the first column and the last columns are randomly generated under different combinations of conditions.
テキタウな絵を2枚選んでステップ数を指定するとパラメータを連続的に変化させてモーフィングできるよ☆たのしいよ。…たのしくなんかないやい!(棒読み)とはいえ、このサービスの本質的なところをよく見せてくれるデモンストレーションにはございます。モーフィングの両端に置く絵が、究極的には40000枚くらいの元の絵なんだと理解し、わたしたちモーフィングの途中の絵をランダムに抜き取って並べて一喜一憂するのだと、たぶんこういうわけです。
主成分分析になぞらえて簡易な理解(…それを「早合点」ともいうよ)&ぎゃふん! 元の絵を配置した空間を『回転!』させたみたいな空間で端っこに来る絵(もしくはそのようにパラメータを指定して合成された絵)をモーフィングの両端に置くことができる、あくまで主成分分析になぞらえれば「4096」とか「128+34」の主成分で空間(※本件システムのデータセットが成す空間)が表現される…そういう概念的な理解でよろしかったでしょうか&しつれいしました。(※あくまで概念的です。実際の実装に沿った理解ではありません。…『実際の実装』!!)
・[3658]
> 暗黙に「マップの四隅とも必ず海または山であること」を要求しているよ。…ええーっ。2本の対角線のうち1本の両端が「10m」「0m」「-3m」でなければいいんですよぅ。突っ張り棒がないと部屋が縮むんですよ。…なにそれなにそれ!? どこのからくり屋敷?(棒読み)
「学習に使ったデータ」(の、いろいろな軸における最大と最小)が「突っ張り棒」なんですよ。収集した範囲での相対的な特徴(※分布⇒分散)を使うのであって、何が特徴たるかを先に決めてかかるわけではないのですよ。エレガントだけどもどかしいよね。…ええーっ。(棒読み)
・「FID score」かく語らずを語りき(※キャプションは演出です)
http://bluewidz.blogspot.com/2018/02/frechet-inception-distance.html
> 減ってる!
おぬし「減る」と表現するようではいかんのう。(※見解です。)「FID score」は「量」じゃないでしょ。
そして、サンプル数(集合の要素数⇒隣接行列の次元)が増えれば組合せがバクハツするんですから当然ですよね。
・「比」ーっ
https://kotobank.jp/jeword/%E3%81%B2%E3%83%BC
https://kotobank.jp/word/%E6%AF%94-118748
> a、bを同種の量とするとき、aがbの何倍かあるいは何分のいくつかに当たるか、という関係をaのbに対する比といい、a:bと書く。
> let out a shriek
「足湯シリエトク」については[3479]を参照。
・はにわ「注文住宅」が知りたいです?
https://www.homes.co.jp/words/t2/525002939/
> 施工主が、自分の希望をいかして建築する新築住宅をさします。間取りや仕様が決まっていたり、建築済みの分譲住宅に対し、オーダーメイドになるため間取りや外観・構造の設計が自由に行えます。もちろん設備や材料も希望のものを採用することができます。ただし、完成した住宅を見ることができないため、図面などを頼りに完成時を把握する必要があります。
住宅展示場ー(↑)って、あるじゃないですかぁ(↓)。(棒読み)さっこんみやこではやる(違)『AIが描いた!』みたいな表現が荒唐無稽だというのはあたりまえとして、「AIが生成した」ということを技術的に正確に(※)理解しないと「創作的寄与」など判断できませんよ、という話題でございました。ハウスメーカーのカタログを見ながら注文する注文住宅の施主に「創作的寄与」を認めるわけがないとはこのことだよ。(※当座の見解です。)
このAIでは何を元(学習データ)にしていて全体でどんな出力がなされうるのか(元にしたものから“導け”ないものはゼッタイに出てこない=あらゆる出力は学習データに依拠している=これゼッタイ)ということを確かめるということです。この「全体でどんな出力がなされうるのか」ということを、単に「オプション」の「組合せ」を分母として考えよう、あるいは実質的に無限であるととらえる、そのどちらも適切ではないのではないかと思ったという話題であります。フラクタルなものをどうやって数えるべか(…『べか』!)みたいなことではありませんか。(棒読み)
http://yamaguchiyuto.hatenablog.com/entry/2014/04/28/095451
> 次元の値が整数にならないすごいやつ。
> 説明はWikipediaに完全に丸投げ。
> CIKM2014で発表した
ぬふっ。
・人工知能学会全国大会「Frechet Inception Distance」の使用例です(2018年6月)
https://www.jstage.jst.go.jp/article/pjsai/JSAI2018/0/JSAI2018_1K3OS10a05/_article/-char/ja/
> 深層学習では,検証用データの集合に類似したデータが学習用データの集合に存在するほど正答率の向上が考えられる.我々は学習用データと検証用データの集合間の距離を測定し,距離が近くなれば正答率が向上する良いデータであり,その逆は正答率を低下させる悪いデータであると考えた.この相関関係が明らかにできた場合,DAで拡張した学習用データの良し悪しの判断指標になると考えられる.
…ええーっ!!(※見解です。)
https://kotobank.jp/word/%E3%83%9F%E3%83%8B%E3%83%9E%E3%83%83%E3%82%AF%E3%82%B9%E5%8E%9F%E7%90%86-391988
> ゲームで相手の出方を考慮しながら自分の行動を決める場合,相互の行動によって起こりうる最悪の事態を比較して,その程度が最も軽い行動を選ぶ結果,両者の間にある種の均衡が成立することを明らかにしたもの。
> 非ゼロ和n人ゲームは非協力ゲームと協力ゲームとに分かれる。
…非ゼロ和n人ゲーム。……『非ゼロ和n人ゲーム』っ!!(棒読み)
★「あのツタに覆われているセイボの木」「黒いキノコと藻が多いセイボの木」「リボンは体の一部」
・(再掲)
https://gigazine.net/news/20180101-trees-language/
> エクアドル・アマゾンに住むワオラニ族には、自然のネットワークの特性や生きとし生けるものはコミュニケーションを取っているという発想は当たり前のことだとのこと。そのため、ワオラニ族の言葉の中にも木々と周囲のものとの関係が反映されているそうです。
> 彼らは木々について表現する時に「あのツタに覆われているセイボの木」「黒いキノコと藻が多いセイボの木」という言葉を使い、単なる「セイボの木」という言葉遣いは存在しないのです。
> 個々の「種の名前」が存在せず、周囲の草木との関わりあいなど、生態学的な背景なしに名前を呼ぶことがないので、言語学者はワオラニ族の言葉を翻訳する時に苦労するとのこと。
パラメータ「smile」といって-1から1までの(略)ええーっ!!(棒読み)ウェブでは「絵柄」と表示されるパラメータはJSONで見ると「year」と書いてあるように、学習に使われた元の絵の発表年の古いの(-1.5)〜新しいの(1.5)だということです。1.0くらいにしておけば2007年くらいじゃないかしら。…わらびもち食べよ! いつぞやの問屋がだなぁ(違)。データセットの上で厳密に2007年というのは「0.2くらい」なんですけど、…そうじゃないっ。あくまで現在のわたしたちが2007年っぽいと思える絵柄、すなわち2007年には斬新に感じられた絵柄というものは、本件データセットにおいて「1.0くらい」(2007〜2012年、あるいは2012年±2.5年)なんじゃないのと(略)しつれいしました。
・[3654]
> 「あのツタに覆われているセイボの木」「黒いキノコと藻が多いセイボの木」みたいなのが1単語で言えるんですね、わかります。…それに似たことは行政文書やプレスリリースみたいなのを扱う人はみんな(言語によらず)しているとは思うんですけどね。…その発想はなかった!(ありますってば。)
・ここでナショナルジオグラフィック日本版をご覧いただきます。
https://natgeo.nikkeibp.co.jp/atcl/news/16/041500140/
> 世界を見渡すと、左・右などの体を中心とした対比、東・西などの基本的な対比が多くの言語で使われているが、ユプノ語では現地の地形を基準に空間的な関係が表現される。
> 「彼らは(略)完全に水平な家の中にいて、ある体系にもとづいて表現しているのです」
外国から見ればそのように思われるかもしれない「画風」「絵柄」の『ある体系!』というものが(以下略)しつれいしました。
ここで実験をば。サービスの作者らがほとんど考えていないであろう部分を試そうと、「髪の色が茶」「瞳の色が緑」で装飾的な表現はオフに固定(※「リボンは体の一部!」…じゃなくて、髪型の一部だとみなして「ランダム」にする=髪型につられてよきにはからへ!)して多数の画像を生成し、明らかな破綻のない画像のみを選択していき、それなりにバリエーションが集まったと思われた時点で生成を終了します。この「髪の色が茶」「瞳の色が緑」というのが、学習に使われたデータにおいて最もバリエーションに富んでいる部分ではなかろうかという前提です。データセットの中でこの条件を満たすデータがきっといちばん多かったはずだと決めつけながら(棒読み)、システムの挙動がいちばんよくわかる条件のはずだ(サービスにとって最も不利な条件だ)と期待されます。つまりチョコミントですね、わかります。…その発想はなかった!(棒読み)
※フレーバーはイメージです。ミントは含まれませんので安心してご賞味ください。(違)
画像を生成するときに色のパラメータを指定すると、その色をしていた元の絵から学習された(色に限らない)特徴の重みを上げることになっていませんか。例えばネギもって踊るひと(※仮名)みたいな青緑色を(「上級モード」で複数の「色」の値を調節して)指定して「ノイズ」を「ランダム」にしても、ぜんぜんちんぷんかんぷんな画像が生成されてきます。あの青緑色というのは一種『予約色!』なので、学習データにはそんな色の絵は入っていないということだ(⇒元の絵から、色という情報も位置や複雑さという情報もまったく区別なく学習している=渾然一体とした状態でモデルを持っている⇒色の条件はそのまま他の条件を変えると色もちょっと変わるし、色を変えるとその他の条件に属すると思われる特徴まで微妙に変わる)と理解しました。
> But we don’t take this in to account in the training stage. To sample related attributes for the noise, we use the following strategy. For the hair and the eye color, we randomly select one possible color with uniform distribution. For other attributes, we set each label independently with a probability of 0.25.
※uniform distribution:一様分布。
https://ja.wikipedia.org/wiki/%E4%B8%80%E6%A7%98%E5%88%86%E5%B8%83
> すべての事象の起こる確率が等しい現象のモデルである。
> 一様分布とは個体間がほぼ等距離の分布を指す。
主成分分析みたいなことをした結果「個体間がほぼ等距離」(ぜんぶ最大に離して配置するような空間にしている)になっているという理解でよろしかったでしょうか&しつれいしました。だからサイコロを振りさえすればそれっぽいの(「one possible color with uniform distribution」)が選ばれ(略)本当でしょうか。
※線画で描いて「何色にすればいいですか」みたいなことを“ご託宣!”いただくAIもありましたっけ。(※恐縮です。)
・ウィキペディア「完全グラフ」のイメージです
https://ja.wikipedia.org/wiki/%E5%AE%8C%E5%85%A8%E3%82%B0%E3%83%A9%E3%83%95
https://upload.wikimedia.org/wikipedia/commons/9/9b/11-simplex_graph.svg
※頂点が128あれば辺は8128あります。頂点が4096あれば辺は8386560あります。(棒読み)辺が8128あるのを中間9ステップ(と両端)という分解能でモーフィングできるとすれば、73152+128=73280…本当でしょうか。そこからざっくり(…『ざっくり』!)34種類にソフトクラスタリングするやうな、仮にハードに分けたとして73280/34≒2155ですぜ。本件AI、「cond」によらない部分としては2155通りくらいのバリエーションしかないのではありませんか。…ギクッ。
最初のうちランダムで生成を続けながら、「髪型」がなるべく複雑なの(線が多い&「画風」によって線の細かさが大きく変わる&線の形状も複雑)が出てきたところから、パラメータを固定してまいります。(※恐縮です。)
・顔の向きによって学習データの質や量に差があるのではないか
> By fixing the random noise part and sampling random conditions, the model can generate images have similar major visual features (e.g. face shapes, face directions).
とのことですから、顔の形と向きが大幅に異なるものは別々に扱われ、それらが異なるもの同士のブレンドは行なわれないということですね、わかります。(…と理解しました。)
・(a)向かって右向き:やーい右手を差し伸べる上からキャラっ。(違)
・(b)向かって左向き:やーい友人Bもしくは説明キャラっ。(※恐縮です)
・(c)正面向き:やーい証明写真&無帽っ。(…えーっ)
http://d.hatena.ne.jp/keyword/%B8%FE%A4%AB%A4%C3%A4%C6%B1%A6
顔の向きごとに「a」「b」「c」と分けてから、それぞれを平面上で、あーでもないこーでもないと並べてみて、こんなものかなと思ったところで(※)、置いた位置に応じてコーディングします。必ずしも「year」だけでは説明できない「絵柄」の「第1主成分!」と「第2主成分!」みたいなもの(2軸)を『視感!』で抽出したようなものですぞ。(棒読み)これをサイコロに頼るのではなくて明示的に調節できないといけませんがな。…その発想がなかった!(あったけど。)
※後からぜんぜんうまく収まらないものが出てきたらそのとき考えればよい!(棒読み)だってサイコロを振ったんですから大丈夫ですよね。(もっと棒読み)
・「コーディング」とはにわ
https://kotobank.jp/word/%E3%82%B3%E3%83%BC%E3%83%87%E3%82%A3%E3%83%B3%E3%82%B0-3320
> 調査票の各項目に対する被調査者の回答を整理して,それを数字や記号のような符号 (コード) に翻訳すること。
> 特定のルールによって定められたコードをつけること。
・「リボンは体の一部」
https://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q13106046823
> カ*ネギにとっての長ねぎ
> *ラ*ラにとっての骨こんぼう
・(♪〜)こちらは広島県教育委員会です(※キャプションは演出です)
http://www.hiroshima-hatsukaichi-lib.jp/docshp/young.html
https://www.pref.hiroshima.lg.jp/uploaded/image/146490.jpg
> イラストの著作権は放棄していません。
> (自分で描いたよ!と言わないように)
これだね。
・(再掲)狛江市立図書館のイメージです
https://www.library.komae.tokyo.jp/images/kid_img_search01.gif
・世田谷区立図書館のイメージです
https://libweb.city.setagaya.tokyo.jp/images_t/research1_1.png
・(♪〜)こちらは京都府教育委員会です(※キャプションは演出です)
http://www.kyoto-be.ne.jp/higashiuji-hs/cms/index.php?page_id=45
http://www.kyoto-be.ne.jp/higashiuji-hs/cms/?action=common_download_main&upload_id=7423
> 「高校生が主人公」の本を展示しました。
うーん…。ま、そうともいうよ。(棒読み)
・「奈良美智」青森県立美術館の解説です
http://www.aomori-museum.jp/ja/collection/nara/
http://www.aomori-museum.jp/collection/nara/photo2.jpg
> 2000年の帰国まで続くケルン時代は多作な時期で、代表的な奈良のイメージとして知られる挑戦的な眼差しの子どもの絵もこの頃頻繁に描かれた。
あらかじめ奈良美智(※敬称略)を知っている現代のわたしたち、AIとも呼ばれるディープラーニングが「a50」くらいの画像を出力してきても驚きません。(違)逆にいえば、奈良美智を良く知らずに、しかし美しい「a50」みたいな絵を描いた者がいたとしても(「a50」みたいな絵を人間が自筆で描いた場合にあって、その人にはたいへん技術があって、対価の得られる仕事として成り立つと考えられつつ)、それでも奈良美智から(無意識またはさらに他者の作品を介して間接的にでも)影響を受けた絵だろうと受け止められるということです。だからといって模倣か剽窃かといって、それはないでしょ、「a50」みたいな絵がじぶんで描けたらすばらしいじゃないですか。(※見解です。)
a03 | | a23 | | | | a63 | | | | a12 | | a32 | a42 | | | | a82 | a01 | | | | | a51 | | a71 | a81 | a00 | | a20 | | a40 | a50 | | a70 | a80 |
うーん。右に行くほど『小物感!』…じゃなくて、セリフが多そう(しかも早口)、上に行くほど『安定の主役感!』が高いなどと(略)しつれいしました。じゃあ(※)「逆」は「逆」
|