フォーラム 個人情報保護方針 | 利用規約

「情報と鉄道」「ユニバーサルデザインと鉄道」「社会と鉄道」がテーマのフォーラムです。(16歳以上対象)

ご利用状況について
このフォーラムについて
機能の改廃等について

(※新規の掲載はお受けしていません。)

全角と半角、大文字と小文字が区別されます。

検索の代わりに:
キーワード (索引)もどうぞ。



[3487]

「ウェブスクレイピング」を「素数ゼミ」で読み解く(再)【大福帳あり】

列車 発想 研究 実装 API BCN User NTP シラバス 東名阪


ウェブスクレイピングとはにわを知りたい(再)
美しいハーモニーを奏でるトランザクションの夕べ(仮)
IRTかくしゃしゃりき(談)


 どこからともなく[3486]の続きです。


・yasuoka氏5月15日にいわく
 https://srad.jp/comment/3211241

 すばらしい砂袋役に徹しておられます。

 17年前の2000年、「LED発車標」などと称するケッタイなフリーソフトを何かの至りでつくり始めたときにも、一通りのことはじぶんで検討しました。これ、必ず1度はじぶんで検討できないと、その後いつまでも「センセイにいわれないとわからない(問題があれば誰かが指摘してくれる)」と考えるひとになっていくだろうという懸念がありましょう。以下、きわめてセンエツながら「LED発車標」などと称するケッタイなフリーソフトその他のフリーソフト等(ひいては、このフォーラムの機能も含む)に関して、(フリーソフトについては)17年後にふり返るとどう見えるのかというようなことをまとめておきたく存じます。(きわめて手前ミソであります。)

※yasuoka氏の世代では考えもしないことかもですが、目先の状況や事件が解決すればいいんだということでなく、本人にとって学習の機会になるということを考慮しなければなりません。ひいては、事件化する前に学習の機会が得られるよう、講義に採り入れたり(副読本的な意味で)教材化していったりする責務すらあろうかと、こういうわけです。そういうことが必要になるほど社会が複雑になっているのですから、昔の感覚で「過保護だ」「大人扱いしないと育たない」とばかりもいっておられませんぞ。(個人の見解です。)

・(Windowsでいう)「インストール」を必須としておく:(会社や学校で)「インストール」を許すか許さないかはポリシーで設定できますから、本ツールを含む「インストール」を要するソフトウェアの実行が許可されているかいないかを確かめるという習慣すらないユーザーにも(何も考えずとも)ポリシーを遵守させる(何か考えて余計なことをしない限りは自動的に遵守できる)ようにしています

※「させる」という表現はメッソウではあるのですが、技術上の措置として「(否応にも)させる」というはたらきがあるという意味でございます。

・本ツールの使用を、ウェブサーバーの管理者が明示的に排除できる手段を用意する:ヘッダーでUser-Agentをきちんと名乗りますから、ほんの1行の記述で排除できます

・「User-Agent」ヘッダーです
 https://developer.mozilla.org/ja/docs/Web/HTTP/Headers/User-Agent

 大前提はここです。あるツールの使用の可否をエンドユーザーに判断させてはなりません。あるツールの使用が問題になるかどうかは、最終的にはウェブサーバーの管理者が個別に判断すべき事項であり(※)、問題になると判断したならば、ウェブサーバーの管理者が明示的に(ことばでの呼びかけでなく技術上の具体的な措置を尽くして)禁止しなければなりません。User-Agentを偽るソフトウェアを使うことは、ただちに不正とみなせます。

※▼エンドユーザーは判断能力がなく、▼ツールの提供者がすべての事例をあらかじめ判断することも不可能であることが明らかであるからです。だからといってツールの提供者は何もかも免れ得る(=『記載事項!』([3148])を書きさえすれば免れられる!)かといって、そんなことはないというのも当然です。

・ブラウザでの閲覧だけが明示的に許可されている⇒加工や蓄積を行なわない

※ピクシブさんがさくらのレンタルサーバ(のうち、少なくともうちのサーバーもしくはサブネット)からのアクセスを制限していらっしゃるので、このフォーラムとしてはタイトルタグのスクレイピングができない…というような一種「やりとり」が、メールの1通すらやりとりすることなく技術上の措置のみを通じて明示的に行なえているというのが、ある意味しょーじき…いえ、技術だけでコミュニケーションできている状態といえましょう。これでいいんですよ。わたしはあきらめればいいんです。それだけです。

・BASIC認証を超える方式でログインを求めるページに対しては、より慎重でなければならない(本人確認をしている=本人が操作することを要求している)⇒POSTには対応しない
・テキストに着色していいのか⇒色を再現しないテキストブラウザや音声読み上げブラウザがある・選択状態で反転表示とするOSのUIは受け入れられている(そういうものだという了解のもと、HTMLで書かれWebで公開されているとみなされる)⇒うーん(※グレーではあると認識しています)

※このフォーラムの現在のスタイルシートでは「緑字で「グレー」と書いてある!」状態になって、…なんだかなぁ。意図的に緑字にするつもりで、意味的には箇条書きではないのに箇条書きの体裁で書いてある箇所もあるので、いまから色を変えられないし、…もっとなんだかなぁ。

・テキストの前後に任意の文字列を付加していいのか⇒ブックマーク(お気に入り)に、名前を編集して保存することが黙認されている
・さーびすふのー!:わざともっさりと「更新しています」が点滅します(実際にももっさりです)

 そういう考えの積み上げの結果、ウェブブラウザで各ページを順番に見るという本来の使用法では起こりえない「各社のソレを一覧!」というのは、きわめてアウトだと結論しています。引用の要件を満たしながら人間が書いた記事の中で「アレとソレを同時に参照」(≒このフォーラムがそういうことになってます)というのは正当なソレですが、これをプログラムや機械に自動で行なわせてはいけないのです(人間がやらないといけないのです)。

※同じ問題は「Googleニュース」でも話題になりました。同じものを新興の事業者が自称「サーチエンジンだもん!(合衆国**に照らしてフェアだもん!)」といって通用するのかどうかは大いに疑問ではございます。

※翻って、このフォーラムに「ログインする」機能をつけていいのかどうかは、なお慎重に検討中でございます。セカイから都合よく切り取ってきた情報を会員向けに提供するサービス(有償か無償かを問わず、そういう役務)とみなされうる状態になってはいけない=(書き手が自分で公表した=ただちに公表したとみなされるよう)オープンでなければならないような気がするので、かなり躊躇しています。ログイン不要だけれども端末をまたがってクッキーを連携させる機能、くらいが妥当かなぁ。あっちのPCでカートに入れたらスマホでもカートに入っているんですよ…これ、なかなか面倒ですよね。ほしいものリストの逆といいましょうか、アレとコレとソレをこの順番で読めというリストをつくって送りつける機能…ぎゃふんですのう。

・「スクレイピングとAPIの違い」
 https://developer.ntt.com/ja/blog/e007f5ca-292b-48b6-9fcb-e8051a1f9889

 > APIはサービス提供側が一定の条件を設けた上で公開している開発者向けの機能になります。対してスクレイピングは本来はユーザ向けであるHTMLコンテンツをコンピュータに解析されるもので、公式にサポートされているものではありません。

 > そのためコンピュータによって負荷を高めたり、許容されていないアクセスを行うと不正アクセス防止法違反によって処罰される可能性もあります。

 > コンテンツは企業にとって生命線である場合も多く、それらのデータをまとめて抜かれてデータベース化されることを懸念する声もあります。

 > スクレイピングはAPIが提供されていれば防げる行為です。スクレイピングは、それをしなければならないほど、コンテンツに魅力があるという証拠とも言えます。であれば公式としてきちんとアクセスコントロールした上でコンテンツをAPI提供する方が健全と言えるのではないでしょうか。

 そもそも、カワサキ細かいスクレイピング処理をしようなどと思い立つような人というのはかなり視野が狭まっている状態にあることが多いと見受けられ(…ギクッ!)、APIがないならあきらめる、オープンデータがなければあきらめる、あるいは機能の開発が目的ならダミーデータをじぶんでつくればいいじゃない、と、そういう方法論が勉強できていない段階で、きわめてナイーブな「ものづくり(みてみて! ちゃんとうごいたよ☆つかえるよ☆たのしいよ☆彡)」の衝動的なものにとらわれているという理解ではございます。


●ウェブスクレイピングとはにわを知りたい(再)


 しかし、ここで日本語版ウィキペディアを参照すると、ひどい目にあいます。

・ウィキペディア「ウェブスクレイピング」
 https://ja.wikipedia.org/wiki/%E3%82%A6%E3%82%A7%E3%83%96%E3%82%B9%E3%82%AF%E3%83%AC%E3%82%A4%E3%83%94%E3%83%B3%E3%82%B0

 やーいはにわ! なんと視野の狭い記事でしょう。こういうときはあきらめて(=いちいち怒ったり憤ったりしなくていいんで=そういうの要らないんで=)、素直そしてしょーじきに、ある意味、「直!」でRead Wikipedia in Englishですぞ。

・Wikipedia「Web scraping」
 https://en.wikipedia.org/wiki/Web_scraping

 > Web scraping (web harvesting or web data extraction) is data scraping used for extracting data from websites.

 > Human copy-and-paste
 > Text pattern matching
 > HTTP programming
 > HTML parsing
 > DOM parsing
 > Vertical aggregation
 > Semantic annotation recognizing
 > Computer vision web-page analysis

※どこぞのナニがキミぃ!!(略)上位わずか10件などというソレはウェブスクレイピングのプログラムすら書かず人手でコピペ(「Human copy-and-paste」)されているに違いないと決めつけます。…だって10件ですからねぇ。

 この認識を共有してから「Legal issues」を読みなさいと、そのような順番がやさしくガイドされております。これはやさしいですね、わかります。…ここ、やさしいんですよっ&そこからですかっ。(※いちいちくどい演出ではございます。やーい「何か的なものが欠落した演出家気取りのために」キターっ!)

 このうち「Vertical aggregation」が本件(「各社のソレを一覧!」)のソレであるとわかります。

 > Vertical aggregation
 > There are several companies that have developed vertical specific harvesting platforms. These platforms create and monitor a multitude of “bots” for specific verticals with no "man in the loop" (no direct human involvement), and no work related to a specific target site. The preparation involves establishing the knowledge base for the entire vertical and then the platform creates the bots automatically. The platform's robustness is measured by the quality of the information it retrieves (usually number of fields) and its scalability (how quick it can scale up to hundreds or thousands of sites). This scalability is mostly used to target the Long Tail of sites that common aggregators find complicated or too labor-intensive to harvest content from.

 時刻表を無料で提供するサイトから垂直な集合(「Vertical aggregation」)を抽出して好き勝手に使う、ひいては文化祭で展示しちゃうのはきわめてアウトですぞ。駅に掲出された時刻表をデータに起こすのもグレーなんですけど(※そこに間違いがあった時の苦情が鉄道会社に寄せられ、ナントカぼーがいとかなんとか)、国鉄時代ほどのソレ(国有の知的財産であるッ&交通違反より重い罰則ゥ!)が問えない体制にあるというのが(守る側としては)弱いかもですのう。(あくまで私見です。)

※列車の発車時刻や所要時間を使ったシミュレーションなどしたければ、まずは「現実感のあるダミーデータを生成するアルゴリズム」をつくるところから&そこからですかっ。こういうとき、どんな顔…じゃなくて、我々『大学の最寄り駅で電車が止まりさえすればパウリ効果!』みたいな顔で…げふんですのう。あなたの大学でっかいとかいなか!(…えーっ。)むしろ、あなたが提案しようとするアルゴリズム(等)をシビアに試し尽くせる「いじわるなダミーデータこれでもか」ございます付近のイメージのほうとか週末みてもらっていいですかっ!(※すべてイメージです。)

・エレガントっぽい「Forward-Backwardアルゴリズムに基づくテキストコーパスからの擬似単語抽出法」の食べかた(1997年)
 http://ci.nii.ac.jp/naid/110003260920
 http://web.tbgu.ac.jp/ait/makino/makino-profile.html

 > 言語モデル
 > 本論文では、n-gramモデルの構成に有用な文字列をテキストコーパスから抽出する問題を、HMM (隠れマルコフモデル) の学習に帰着させることにより解決できることを示す。

 (きわめてメッソウな表現ではございますが)卒論の延長サポートフェーズ的な意味の修論では、いま2017年度にあってもなお、1995〜2004年くらいの時期に新規性を有していた研究を一種「復習(⇒『追体験』)」しながら、わずかばかりの新規性を出してゆけるような研究テーマをカワサキみみっちく見つけないといけないというむずかしさがありましょう。

・「擬似生成した複数方言言語モデル混合による混合方言音声認識」(2014年)
 http://id.nii.ac.jp/1001/00102165/

 > 単一方言音声認識の言語モデルを,大規模共通語言語コーパスから擬似生成した方言言語コーパスで学習する.擬似生成には,共通語-方言対訳コーパスからWFST(重み付き有限状態トランスデューサ)によって学習されたルールを用いる.次に,構築された各方言言語モデルを混合し,発話ごとに最適な混合比を推定しながら認識を行う.これは,実際に話される方言が純粋な単一方言ではなく,人の移動やテレビ,ラジオなどの放送の影響を受けた様々な方言の混合であると考えられるからである.

 > 対数尤度を最大化する混合比を発話ごとに選択することで,固定混合比の場合と比較して音声認識精度が向上することを確認した.

 こういうまじめなのを研究と呼んで、このように段階を踏んで1つずつ足場を固めていくのを研究方法というのですよ。(棒読み)いつかどこかで覚えたナントカマトンの丸焼きのほうなどお1つからの「いいってことよ」…じゃなくて、特定の時代に流行った手法でいつまでもなんでもできると思っていただくのも1つの方法ではある(=講義としては必要であり続ける)んですけれども(…ギクッ)、工学系の研究としては最新で最善の手法(※手法の一部を成す手法等)を遅滞なく採り入れていけなければなりません。…なんかいろいろがんばってるけど、それはアレでサクッと実現されてるよね@なんてこったい! 修論の最終発表会の質疑でソレをいわれた日にゃあ…忙しい週末って、こうですか? わかりませーん!(※あくまでイメージです。)

・まじめなジョークです! ポン…じゃなくて、「パウリ効果」
 https://ja.wikipedia.org/wiki/%E3%83%91%E3%82%A6%E3%83%AA%E5%8A%B9%E6%9E%9C

 どこがジョークでどこがまじめかを読解させるという意味でまじめなジョークですのう。(※演出です。)

[3432]
 >  一般的な知識などに照らしていろいろな想像をめぐらせることと、じゃあ(※)確かめればいいじゃんと『短らく!』することには、雲泥の何かがあるとの自覚にございます。

 > ・東京都「「5300形電車の制御装置に係る回路図」を非開示とした決定は、妥当である。」より「本件回路図」の用例です(2014年9月)

 > あくまで一般的な想像をめぐらすのが清く正しい何かであるとの…ぎゃふん。万一にも、開示請求の目的が「『実車』と完全に同じVVVF音を手元でぶいぶい鳴らしたい!」だったりしたら、笑うに笑えませんぞ。(あくまで想像です。)

 内在的な動機である「遊び心を満たしたい」「腕試しがしたい」というところを超えて、「ライバルよりすごいのをつくってやる」とか「腕を自慢したい」とか(=同じことですけど)「大もうけしてやる」とかいうのは、ただちに真っ黒なんです(=黒くないことをみずから立証する責任を負うんです=デフォルトは真っ黒だと思いなされよキミたち、の意)。

※デフォルトでは真っ黒であると疑うという観点からは、「JR東日本アプリ」などのソレが問答無用で「マイク」へのアクセスを求めてくるのは、いくら「山手線の車内で音波!」と説明されても、なお疑うというものです。そこで機能の抱き合わせを押しつけるというのはフェアでないという…無償だからいいんだ(「抱き合わせ販売」にはあたらないんだ)とばかりはいっていられない状況が出てきかねません。

・P2Pで「E-Tag」と「Last-Modified」の持ち合い(キャッシュ)をしてウェブサーバへの「直!」のアクセス頻度を大幅に低減するような機能を実装してよいものかどうか:判断しかねます⇒かえって、更新されたときに一斉に殺到することを誘発するのでは?

 各クライアントの更新間隔(※サーバーを見に行くタイマー)が整数倍(※ユーザーごとに設定を変えていただけるが値は整数)であると、セミの大発生みたいなのが起きるとも考えたりしました@懐かしい思い出だよ。(あくまで思い出です。あくまで理屈だけ考えたもので、そんなの、気にするほどでもないほど本ツールのユーザーは少ないですから問題ないです。最新版の通算ダウンロード数は27日の時点で6,403(※ベクター調べ)ですぞ。)

※むしろ時計のほうが160,517(※同=ユーザーの人の数の実数でなく端末ベースですよね、たぶん)で規模が大きいんですけど、デフォルトのNICTのタイムサーバーはすごいハードウェアなのでオッケーだと外形的に判断しています。そして、NICTのサーバーでは不都合があってユーザーが設定を変えるとあらば、基本的には自組織内(プロバイダを含む)のタイムサーバーに変えるのであって、そこで問題が起きることはない(それはユーザーの組織内の問題である)というわけです。

・「17年周期、13年周期で大発生!! 「素数ゼミ」の謎を日本の研究者が解明した!!」(2016年8月18日)
 http://www.tenki.jp/suppl/romisan/2016/08/18/14811.html

 > 「ザ・夏」

 …ぐふっ。

 > 進化的な数理モデルで解析

 …はひ?

・「「その数理モデルでは進化的分岐が起こり得るか?」を判定する一般的条件」(2015年3月)
 http://www.esj.ne.jp/meeting/abst/62/PB2-032.html

・ウィキペディア「進化的アルゴリズム」
 https://ja.wikipedia.org/wiki/%E9%80%B2%E5%8C%96%E7%9A%84%E3%82%A2%E3%83%AB%E3%82%B4%E3%83%AA%E3%82%BA%E3%83%A0

 著者やプレスリリースによくわからない表現があったとしても、わたしたち、現在の水準で最も一般的とみなされる表現はどれなのかを突き止めて、やんわりと「朱っ」してからでないと言及できないとの心構えにはございます。(あくまで心構えです。)

・情報通信研究機構(NICT)日本標準時(JST)グループ「NICT公開NTP FAQ」より「NICT で開発した耐負荷・耐クラッキング・高精度・高信頼なハードウェア(FPGA)時刻同期サーバー(箱型)」のイメージです
 http://jjy.jp/tsp/PubNtp/qa.html
 http://jjy.jp/tsp/PubNtp/nictntp.png

 「一般ユーザ」が「情報家電」から『直!』で参照することを想定されているので、まったく問題がないと期待されます。そのような期待を裏切るような運用態勢であるとすれば、それはNICT側の問題なんです。(恐縮ではございます。)

・「抱き合わせ販売等」
 http://www.jftc.go.jp/dk/soudanjirei/ryutsutorihiki/dakiawase/index.html
 http://www.jftc.go.jp/dk/soudanjirei/h25/h24nendomokuji/h24nendo02.html

 なんと、いつの間にか「等」がついてますよっ。これはすごいなぁ。いくら無償でも、事実上、ユーザー側に選択肢がない状況でいらぬものをセットにすること全般に監視の目を向けていけるということです。

 > 鉄道事業者によるテナント事業者に対する電子マネー契約の義務付け

 > 鉄道事業者が,自社の駅構内及び商業施設の新規テナント事業者が電子マネーに加盟することを希望する場合に,自社が運営する電子マネーの加盟店契約を自社と締結するよう義務付けることについて,自社の駅構内及び商業施設の新規テナント事業者に限定されたものであり,また,他の電子マネーとの併用を制限しないことから,独占禁止法上問題となるものではないと回答した事例

 > X社は,Z地方において鉄道及び路線バスの運行を行う鉄道事業者であり,X社の駅構内及び同社が運営する商業施設内の一部区画をテナントとして小売店,飲食店等を営む事業者(以下「小売事業者」という。)に賃貸している。
 > なお,Z地方においては,X社以外に他に有力な鉄道事業者が複数存在しており,大規模な商業施設もX社が運営するもの以外に多数存在している。
 > また,X社は,共通乗車カードを兼ねた電子マネー(以下「電子マネーA」という。)を運営している。

 > X社は,今後,電子マネーAの加盟店数を増やし,電子マネーAの利便性を向上させることで,一般消費者への電子マネーAの普及を促進させたいとしている。

 東名阪くらいの地方を思い浮かべて「Z地方」を想像しつつ、「X社」については想像すら控えるというゾンダッハのほうなど…げふんですのう。


●美しいハーモニーを奏でるトランザクションの夕べ(仮)


 しかし、図書館やシラバスのシステムは、発注者の仕様策定能力が低い(ついでに予算も少ない)ことから、きわめてゾンザイな仕様になってございますですはい。(※いま明らかに私見であり恐縮は想像です!)

※この「しかし」の用法はアレですからね。逆接ではないですからね、念のため。

・(類)「しかして」
 https://ja.wikipedia.org/wiki/%E3%83%91%E3%82%A6%E3%83%AA%E5%8A%B9%E6%9E%9C

 > 而して
 > こんなことがあって

 …びみょーにコレジャナイ。古い文学作品に出てくる古めかしい「しかしずいぶん時間を無駄にしたもんだな。」型構文とでもいいましょうか、そっちですね、わかります。しかし「トランザクションの夕べ」なんていかにもありそうなものなんだがな。おお、この構文ですよっ&構文のほうが話題なんですかっ。(※演出です。)

・トランザクションが不要な処理(※「予約」「履修登録」などの申し込みや、「貸出中」「希望者数」などの表示を除く、一覧や検索など参照系に閉じることが可能な処理)までなんでもデータベースを参照してしまう(キャッシュを設けようがない)
・データベースサーバーのHDDがいまごりごりしてますよ的な待ち時間がある(トランザクションだけを効率的に順序よく=なるべくオンメモリで=さばくべきサーバーに、参照系のランダムアクセスな負荷や、OS自体の非同期なフラッシュ処理などが重なっている)
・「トランザクションサーバー(と呼んでいるサーバー)の負荷が高い」といって(いわれて)トランザクションサーバー(同)を複数台に分散させてしまう:かえって待ち時間が長くなりますぞ! …本当でしょうか
・トランザクションではID(の整数値)だけ、ほとんどキーバリューストア(KVS)みたいなので高速に処理すればよいものを、管理(バックアップを含む)の手間(=仕様書ならびにマニュアルが厚くなるぞ★=しかし予算がタイトだじぇ=先にページ数が決まっているっ)との兼ね合いでなんでも「RDBMSみたいなの!」に放り込んでですね…ぎゃふんですのう

 ベンダーが「無能!」なのではなく、予算に応じた人材が配置された結果として当然であるとの…えっ!? これ『××事項です♡』? たいへん失礼いたしました!(棒読み)

※トランザクションを「安いサーバー複数台!」に分けた日にゃあ…予約開始日や締切時刻の間際に*ぃ吹くぜぇ。(※あくまで一般的なイメージです。)「お待ちください」を表示するためのフロントエンドサーバーがたくさん要りますって? …どことなく本末転倒かなぁ。そして、「お待ちください」と表示するとかえって待ちきれなくなって「F5」キーのほうなど連打! 即切り! フルコーラスっ…前から1列、2列の順で(大巾に略)24列くらい、ちょうど車いすのかたの席のちょっと上あたりでしょうか、オペラグラス(100円)を奪い合いながら「次はうちの子が歌うのよ!」からの「えー、どこどこ?」…せっかくの「第9!」で、「うちの子!」のところしか聴いてないひとって、いますよねぇ&「第9」ですかっ!!(違)

・河合楽器製作所 電子楽器事業部「連打」「切り」「フル」「コーラス」この順での用例です
 http://www2.kawai.co.jp/download_demo/product/ep/manual/CN35_20141006.pdf

・「神奈川県民ホール大ホール1階席」のイメージです
 http://www.kanagawa-kenminhall.com/about/mainhall
 http://www.kanagawa-kenminhall.com/doc/guide/seat_mainhall_140404.pdf
 http://www.kanagawa-kenminhall.com/img/about/pht_about_hall1.jpg

※仮には市民なんとかと銘打たれて、あられもなく手作り感がにじんであられようとも、いみじくもクラシックのコンサートである場にですよ(大巾に中略)しいていえばサングラスをかけてポップコーンを持ちこむような、といいましょうか、そういうレヴェルのミスマッチ感があるのが図書館やシラバスのシステムではないかなぁ。(きわめてイメージです。なお、本文中「いみじくも」の用法は本来とは異なりますので、ご了承ください。)

・(再掲)本来の「いみじくも」
 http://dictionary.goo.ne.jp/leaf/jn2/15015/m0u/

※現代的には、▼いみじくも(曲がりなりにも)○○である(⇒頼りなく見えるが実は頼れる、存外にきちんとしている)、▼いみじくも(残念ながら)××である(⇒期待を裏切るようだが○○ではなく××である)といった用法が定着しつつあるという感触にはございます。埋蔵金を発掘するような人あたりが使い始めたんではなかったでしたっけねぇ。…記憶にございません!(棒読み)こうした用法が誤用と言い切れないのは、省略されてはいるんですけれども、もともとの(古語に由来する)ニュアンスが残っていると考えられるからです。「この人、頼りなさそうに見えて、その実、いみじくもセンセイである。センセイとしてベストであるかはわからないけれども、確かにセンセイとしての務めを果たしているのである。だからセンセイと呼ぶにふさわしいと、ぼかぁ思うんだなこれが。しかし、やはり、いみじくもセンセイでもあるのである。いわゆるセンセイと呼ばれる人たちが持っているであろう欠点というものを、やはり、この人も持っていたのである。」…えーっ。ま、そんな感じですよ。目下の者に向かって使う言葉ではないなぁ。(あくまで試みの私見です。)

・だいたいそういうことが書いてありそうならへん!
 https://books.google.co.jp/books?id=pGCfCgAAQBAJ&lpg=PT293&ots=9ibR9mfH1o&dq=%22%E3%83%88%E3%83%A9%E3%83%B3%E3%82%B6%E3%82%AF%E3%82%B7%E3%83%A7%E3%83%B3%E3%82%B5%E3%83%BC%E3%83%90%E3%83%BC%22&hl=ja&pg=PT293#v=onepage&q=%22%E3%83%88%E3%83%A9%E3%83%B3%E3%82%B6%E3%82%AF%E3%82%B7%E3%83%A7%E3%83%B3%E3%82%B5%E3%83%BC%E3%83%90%E3%83%BC%22&f=false

※ここでわけもわからず「登録系と参照系」などという『2項対立!』のほうなど導入してしまっては頭が固くなりますよ。ええ。「推測統計からの記述統計」([3403])も参照。

[3403]
 > 『推測統計!』からの『記述統計!』(※)などと、あまり固定的に呼びつけないほうがいいと思いまーす。実際に学んで、結局、ぜんぶ学ばないと統計を学んだことにならないと思いまーす。「新しい現実である」って、こうですねー。(棒読み)
 > 「量子計算機」が出てきてから『古典計算機!』と呼ぶソレ([3180])、の意。「量子計算機」が出た以上は、既にセカイは変わったのですよ。のうのうと「古典計算機」と呼び分けさえすれば従来の領域は手つかずで教えたり研究できたりするかといって、とんでもない! 「量子計算機」のために導入された発想や新しい知見は、「計算機」というセカイの全体に効いてくるわけです。これを「新しい現実」と認識できなくてどうしますか、の意。

 どのような科目をどのような順番で履修すべきかについては[3096]も参照。

[3096]
 > 一般教養の科目のどれを選択すべきか、大学の職員も教員も教えてくれません。それは、最初の大事な1歩だからでもありましょう。もちろん、聞きにいけば相談に乗ってもらえましょう。自分から相談に行くということが欠かせないのです。自分から来ない人には、誰も、何も、教えてくれません。

 聞きに行きさえすれば何でも教えてもらえるというのもアレです&わかってください的であります。

・日経SYSTEMS(日経BP)「[次世代DB編]分散KVSで正規化をしてはいけない」(2010年7月26日)
 http://itpro.nikkeibp.co.jp/article/COLUMN/20100713/350213/?rt=nocnt

 > 分散KVSにはいくつかの制約があり、システム開発に利用する際には、これまでの“RDBMS脳”をいったんリセットする必要がある。

 うわぁ「RDBMS脳」低〜い…。ニアショア…じゃなくて、リアルサイトで「RDBMS脳」とかいっちゃうひとがいたらひくわ〜マジひくわ〜。

 > 分散KVSではすべてが一つのノードに置かれていたRDBMSとは異なり、どのノードからデータを取り出すのか分からない。このため一つのテーブルを正規化して三つに分割した場合、三つのノードにアクセスしてデータを取得する可能性が高い。データ取得にかかる時間は、単純に見て正規化しない場合の3倍だ。ノードが物理的に近くに存在すればよいが、クラウド上では拠点をまたいでデータを取得するケースがある。この場合、取得時間は3倍どころではなくなる。

・「参照系」「登録系」の用例です(2009年6月5日)
 http://www.atmarkit.co.jp/fdb/single/s_nwdwh2/dwh_01.html

 > 大きな企業では、ユーザー数が1万人以上となることもあります。一般的なBIシステムでは、ユーザー数全体の約10%程度が同時にシステムにアクセスするとしていますので、1万人のユーザーが意味することは1000人以上のユーザーによる同時アクセス、ということになります。

 > 情報系システムのほんの一部で、カラムストアデータベースやアプライアンスといった、データウェアハウス専用製品を使った参照系処理の高速化が行われていることを解説しました。

 シラバスの「登録系」はともかく(=実際に困ったことになるので早々に改善が進んできていて、の意)、図書館の「参照系」はかなり旧態依然としているのではないかなぁ。ほとんどユーザーがいないという前提で、形ばかりのシステムを(わずかな予算で)組んであるだけなのではないかなぁ。だからこそクロールやスクレイピングはしないでね、と、こういうわけです。(※一般的な理解です。)

 > 最後は好き嫌いということになるのかもしれません。

 しょーじきですのう。…実にしょーじきですのう。(恐縮です。)

 > 帳票バッチの切り離しといったお話をすると、すぐにプログラムの移行の話になります。「いま使っているプログラムはそのまま使えるのか?」という疑問です。この疑問の理由は、移行する先にも、現在と同じくたくさんのデータテーブルを持つものだと思ってしまうからでしょう。汎用データベースを長年使っているとこのような構築が常識になり、明細データによるシンプルな構造でそのまま参照できるというイメージがわかないのだと思います。

 > 大福帳
 > 大福帳

 わあぃ大福帳! ちゃんと知ってるよ☆大福帳だよね。うん。…大福帳って、なに?(棒読み)

・(参考)「大福帳型データベース」って、あるじゃないですかぁ
 http://www.itmedia.co.jp/im/articles/0308/22/news004.html

 (Web系でいえば)フォームのMETHODをぜんぶGETにしておいてApacheのログをそのまま何かに使おう的なソレですね、わかります!

・「業務処理が「なぜか」だんだん遅くなっていく」のほうも見てもらっちゃっていい感じですかっ
 http://www.atmarkit.co.jp/ait/articles/1705/08/news004.html

 こう、生温まったら再起動すればいいんですよ的なソレ(⇒そっちは富士通ですよぅ[3403])に読めるのは気のせいでしょうか。一定の規模を超えては追記しないとか、期間を区切って定期的にテーブルを分けていく(改ざん防止のアーカイブ!)とか、そういう工夫を何もせずにぜんぶ放り込んだうえで更新(※SQL文でいうUPDATE)しちゃったりするんですかっ&本当なんですかっ。(※わたし、現場を知らないのでわかりません、の意。)

※…OSやファイルシステムって、素朴に思い浮かべるよりは、はるかに高性能なんですよ@そっちですかっ!!

・かっこいいサーバー名とかって、ありますよね
 https://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q14101685114

 > A
 > A
 > B
 > B
 > C
 > C
 > C
 > C
 > D
 > D
 > D
 > E
 > E
 > F
 > G
 > G

 > I
 > I
 > J
 > J

 > L



 > P
 > P
 > P
 > p



 > T
 > t
 > U
 > U
 > v
 > W
 > W

 にょほほほっ。順に、H、K、M、N、O、Q、R、S、X、Y、Zから始まる語もほしいかもなのです! 英英辞典とか引くとよさげかもですよ。

・学研だし!「13か国語でわかる新・ネーミング辞典」「クリエーターのためのネーミング辞典」のイメージです
 https://www.amazon.co.jp/dp/405402453X
 https://www.amazon.co.jp/dp/4053034159
 https://images-na.ssl-images-amazon.com/images/I/51LoQRCM4kL.jpg

・ピクシブさん付近(2017年5月25日)
 http://forest.watch.impress.co.jp/docs/news/1061516.html

 ピクシブさんというのは技術的にはたいへん手堅いという印象がありますよね。

 > Preferred Networks(以下、PFN)
 > 線画と着色されたイラストを学習させることで、与えられた新しい線画にどのような色を塗るべきかを自動で判断し、ほぼ自動で自然な着色を行う。
 > ヒントとなる色を指定して着色する機能も備えており、自動着色処理をある程度、自分でコントロールすることもできる。

 スバラシイ。何がスバラシイかといって、その実、ピクシブさんのユーザーさんのデータがユーザーさんのために使われているところがスバラシイんです。しかし、長期的には過学習([3142])といいましょうか、こんな変な塗りかたはピクシブでしか通用しないよ的なアリガトウ状態(=じぶんで塗りますアリガトウ&自動着色機能を使うのは××までだよね的な何か)に陥ったりしないでしょうかねぇ。…気が早いかなぁ。さあさあ骨のある(?)ユーザーとしては、AIが着色を投げ出す(盛大にとんちんかんな提案をしてくる)ような(=これまで誰も見たことのないような)線画を投稿するのですよ!(違)

[3142]
 > BCNランキングへのPOSデータの反映を「お客さま」が意識して、すなわち、ただちに悪意とまではいえずとも意図的に販路を選ぶような「お客さま」が大半を占めるような状況が万一にも生まれてしまっては、BCNランキングは成り立たなくなります。

 BCNランキングはあくまでBCNランキングだよね、といわれるような状況になってしまうと(既になっている品目やカテゴリもあるかもですが)役立たずであると、こういうわけです。

・オー野原さん付近(2014年)
 http://itpro.nikkeibp.co.jp/atcl/news/14/100101159/

 > エヌ川氏やオー野原**氏が2006年に設立したPFIは、外部からの出資を受けない方針だった。Preferred Networksに関しては方針を転換し、NTTから出資を受けたほか、今後も他の企業の資本参加を受ける予定であるという。

 岩波の([3475]の本といっしょに買った)本が積み上がってます&読まなきゃ。(マコトに恐縮です。)なお、ここでいう「読む」とは、論文と同じ読みかたをして参考文献に挙げられているものも読むところまで含みます。…なかなかですのう。(※一般の意味での「読む」は、もちろん買ってすぐにしてますよ、の意。)目先のテーマについては論文そのもののほうがいいんですけど、結局、なぜそうするのかという考えかたがわからなくて2度手間になることがあって、1度もきちんと学んでいないことというのは本で学ぶほうがいいかなぁ、と思ったのでした。…実にたわしですね、わかります。(※たわしは付属していません。)

・「高速文字列解析の世界 データ圧縮・全文検索・テキストマイニング」岩波書店(2012年12月26日)
 https://www.iwanami.co.jp/book/b257894.html

・「調査観察データの統計科学 因果推論・選択バイアス・データ融合」岩波書店(2009年7月29日)
 https://www.iwanami.co.jp/book/b257892.html

・「データ解析のための統計モデリング入門 一般化線形モデル・階層ベイズモデル・MCMC」岩波書店(2012年5月18日)
 https://www.iwanami.co.jp/book/b257893.html

 3冊まとめて買ったので、たぶん2013年ごろだと思います。いま学生のかたにはピンと来ないかもですが、著者の若さにびっくりできますよ。きちんと世代交代していける、ある意味せいじょーな分野なんだなぁ。(※個人の感想です。)…博士といえば白衣で白髪([3405])だなんて、とんでもない! 認識のずれは、どこかで修正されていかないといけないかなぁ。(※見解です。)

・エフ代さん付近(2017年5月29日)
 https://news.yahoo.co.jp/byline/fujisiro/20170529-00071390/

 > ユーザーローカル社の「ソーシャルインサイト」を利用し、キーワード「ピー** **館」で確認を行った。
 > 当初はネガティブが多いが、26日にはポジティブが上回る=図参照。その違いはわずかで、割合はポジティブは8.7%、ネガティブは6.6%だ。

 「ポジネガ語辞書(みたいなの)」に載ってない言葉や、単語レベルでなく語彙レベル(≒文レベル)でののしったり憤りを示したりすると「判定不能」になるのでしょうから、そういう冷静でないつぶやき(=もはやありきたりの「ネガ語」で批判するレヴェルを超えている)が急増したとあらば、(判定可能な)ポジティブもネガティブも減ったように見えるということですね。仮には(ツイッター上で言い争いになるなどして)「じゃあ**なんですかっ!!」「**(※過去に何かネガティブな文脈で登場した固有名詞など)みたい」みたいな表現は、ポジネガのどちらとも判定できていないのではないでしょうか。本当でしょうか。(※あくまで一般的な推測です。)

※どこかから買ってきたデータの全域で件数を数えて割合などといって、その実、(ツイッターのユーザーがいう)「クラスタ」や(ツイッターのユーザーの)タイムラインでの見えかたひいては「固定ツイート」の内容や目立ちかたといったユーザーの実感が反映されないので、「“反発ムード”が高まっている」あるいは「“様子見ムード”が広がっている」というようなことというのは、まったく量れていないのではないかなぁ。いつかどこかで納豆([2363])のほうなど…そっちは塩澤センセイですよぅ。(見解です。)


●IRTかくしゃしゃりき(談)


・「ネットワークスペシャリスト試験(NW)」
 https://www.jitec.ipa.go.jp/1_11seido/nw.html

 資格の分けかたや名称がアレではあると思うんですけど、この内容はデータベースサーバーの仕様を策定する側としても承知していないと話にならないと…ゲフンゲフン。

 > 高度IT人材として確立した専門分野をもち、ネットワークに関係する固有技術を活用し、最適な情報システム基盤の企画・要件定義・開発・運用・保守において中心的な役割を果たすとともに、固有技術の専門家として、情報システムの企画・要件定義・開発・運用・保守への技術支援を行う者

 確かに「中心的な役割」を担うべきは本資格を有する者だとは思いますけど、「合格率15.4%」ではお寒い(≒来てほしいところには来てもらえない感じの人材)のかなぁ。(棒読み)

・「問題」「解答」「講評」
 https://www.jitec.ipa.go.jp/1_04hanni_sukiru/mondai_kaitou_2016h28.html

 > ハンカチ,ポケットティッシュ,目薬

 うーん。試験中にうなるひと、いますよねぇ。問題用紙の文字が大きすぎて一覧できなくて戸惑う(実際の業務では驚くほど細かい画面でPDFやパワーポイントなど一覧している)というようなこともあるかもですよ。

・ウィキペディア
 https://ja.wikipedia.org/wiki/%E3%83%8D%E3%83%83%E3%83%88%E3%83%AF%E3%83%BC%E3%82%AF%E3%82%B9%E3%83%9A%E3%82%B7%E3%83%A3%E3%83%AA%E3%82%B9%E3%83%88%E8%A9%A6%E9%A8%93

 > 試験の水準は高く、国内で実施されるネットワークに関する試験の中では最難関にあたり、実務経験者であっても合格するのは難しい試験として広く認知されている。

 この種の試験(記述式・論述式)をCBTで実施しようとするときに「使ってよいIME」がJISで定められていないといけないじゃないですかぁ&そっちからですかっ。

※資格制度の設計については「EQF」([3386])も参照。国家資格を設ける以上は、きちんと合格者を出して(=単に「選抜」であるという「相対値!」なところに頼って質を保証しようとするのでなく、『絶対値!』なところで能力を測れていなければなりません)、潤沢に人材が供給されなければ意味がありません。むやみに「最難関!」を誇っていては、ダメなんです。(あくまで私見です。)

・産経新聞「新大学入試文科省素案…「CBT方式50万人」前例なく 課題はシステムの安定性」(2015年6月18日)
 http://www.sankei.com/life/news/150618/lif1506180036-n1.html

 > CBT方式の導入は記述式問題の採用と表裏一体の関係だ。記述式は思考の跡をたどることができ、暗記中心から「思考力」重視へ転換する大学入試改革の根幹だが、採点には膨大な手間と時間が必要となる。

 > 文科省はコンピューターの十分な活用により、採点にかかる作業時間を大幅に短縮することができるとみており、記述式仕様の技術開発を課題としている。

 年6回(2ヶ月ごと)実施で8.3万人ずつに分散だっ…ともいかないんですよねぇ。ひいては(IRTでの)「第1回」の結果(※受験者の能力をテストが評価できる能力=テストの能力)は不安定なのではないかなぁ。

※IRTについて専門的な理解はしていませんので、あくまで産経新聞の記者さんと同じくらいのレヴェルでの言及に留まりますこと、どうぞご容赦ください。


この記事のURL https://neorail.jp/forum/?3487


(約20000字)

この記事を参照している記事


[3485]

【二条河原】機械翻訳とはにわを知りたい(再)【道明寺桜】

2017/5/26

[3490]

新訂よくわからないはなし

2017/6/14

[3494]

10年後に読む「第5世代鉄道 −知識創造による鉄道の革新」(2005年1月)

2017/6/26

[3496]

縦書きディープなラーニング(2017)

2017/6/28

[3520]

【自由研究】続・いばらき「主論文・野帳・掲示物・標本」を読み解く

2017/7/27

[3542]

「AI見てみる?」(2017年8月)を見てみた(談)

2017/9/18

[3563]

「都道府県別データを用いた図書館貸出冊数と書籍販売金額の相関分析」(2017年6月)ほかを「経済状況と公共図書館の利用 : 都道府県パネルデータを用いた分析」(2004年6月)ほかで読み解く(談)

2017/11/3

[3578]

【アンデスメロン】「スーパーサイエンスハイスクール事業の俯瞰と効果の検証」(2015年3月)を遠目に眺める(仮)【最小二乗法】

2017/12/3

[3594]

いま問う「相関係数計算機」のココロ

2018/1/1

[3640]

研究ホワイトボックス(32) 「単元」と「難易度」を示した「総合的な教材」をつくるには

2018/4/30


関連する記事


[3649]

【お知らせ】ストリートビューの表示を休止します tht - 2018/5/31

列車 車両 線路 発想 建物 研究 ゲーム 実装 仮名 決定版


[3685]

【木花開耶】「A9V5」かく語りき(仮)【2レーン15バースあり】 tht - 2019/1/1

列車 車両 線路 発想 道路 建物 ゲーム 実装 仮名 スダジイ


[3380]

いま問う「約225分」のココロ(談) tht - 2016/11/5

列車 発想 建物 研究 ゲーム 実装 マップ カスタム クラスタリング サンダル


[3803]

ぎんぎらぎん(後編) 「様々なアイデアから調和のとれた形態や経験を導くことの出来る統合力」とは【ムサビの博士後期課程あり】 tht - 2019/11/1

列車 車両 線路 発想 建物 研究 ゲーム 実装 仮名 調査中


[3539]

【自由研究】ゆるシミュ(5) tht - 2017/8/31

列車 車両 線路 発想 道路 建物 研究 ゲーム 実装 ショッピング


[3754]

【A9・Exp.】まだ見ぬ「模範演技」を求めて(三日月島MV編) tht - 2019/8/25

列車 車両 線路 発想 道路 建物 研究 ゲーム 実装 非常用


[3701]

【A10】『シリアス路線』への招待 tht - 2019/4/1

列車 線路 発想 道路 建物 研究 ゲーム 実装 仮名 満腹


[3674]

研究ホワイトボックス(33) なるべく「一般的」といわれる方法に則るには tht - 2018/9/1

列車 車両 線路 発想 道路 研究 ゲーム 実装 仮名 道路構造



話題を見つける

●多彩な方法でフォーラム内をサーチ!
●目的に合わせて使い分けよう。


2014年度以降の主な記事(スコア順)
HITSアルゴリズムを用いたブラウジングをお試しください。【詳細】


四半期ごとの主な話題
(1999年度〜最新


最近の主な話題
(2014年度〜)


キーワード (索引)
2014年度以降のキーワードや文字数の多いキーワードなどから、記事を探せます。


リファレンス (参考文献)
リンク先のタイトルをドメイン別に一覧しながら、記事および参考文献を探せます。

【自由研究】の話題
「主論文・野帳・掲示物」とは?(PDF)
【自由研究】の記事一覧(新着順)


国土地理院の空中写真 を紹介している記事
(PCでの閲覧をおすすめします)


「多変量解析実例ハンドブック」の記事一覧(新着順)
「R with Excel」の記事一覧(新着順)
(統計解析環境「R」を電卓のように使い、データの入力とグラフの保存のため「Excel」をノートのように使います。)


画像で探す
列車 | | 植物 | | 計算機 | 掲示物 | 食べもの
この記事に関連する画像





neorail.jp/は、個人が運営する非営利のウェブサイトです。広告ではありません。 All Rights Reserved. ©1999-2019, tht.