・朝倉書店「多変量解析実例ハンドブック」かく語りき(1)・(36) ・「ポリグラフ検査」を読み解く(仮) ・朝倉書店「多変量解析実例ハンドブック」かく語りき(63)・(51)・(53) ・表1 現代の水準で新規「TP」「TN」「FP」「FN」を見渡してみる(※用語を記号に揃えただけです)
(約23000字)
[3564],[3566]からの続きです。
★朝倉書店「多変量解析実例ハンドブック」かく語りき(1)・(36)
※括弧の数字は章番号です。
・朝倉書店「多変量解析実例ハンドブック」
http://www.asakura.co.jp/books/isbn/978-4-254-12194-0/
本書の索引に「決定木」はありません。なんと、本書の索引に「決定木」はありません。同じく、索引を見る限りでは「ランダムフォレスト」も出てきません…いえ、本書は2002年6月なので、「ランダムフォレスト」が出てこないのはしかたがないといえましょう。しかし「SVM」「サポートベクターマシン」も出てこないんですよ。…なんてこったい。(※一部の表現は演出です。)
それでは本書は(工学部の学生がいまから参考にしようとすると)まったくアレかといって、とんでもない!
・線形判別:1,4
※数字は掲載ページです。
索引で「線形判別」を見つけて(※勉強途中の学生が見つけられるかは別の問題です)出てくるのが、最初の稿です。
・1. 判別分析法によるポリグラフ反応の識別
※数字は章番号です。
> 分析法は線形判別,ノンパラメトリック判別やニューラルネットによる手法などを取り上げ,交差検証法やブートストラップによる方法で識別率を評価した結果,線形判別の結果をはじめ,比較的高い成績が得られた.識別の基礎になる事後確率の分布や判別手法間の類似・非類似関係も検討した.
> [足立浩平]
ぬおー(略)「キミたちSVMしかわからんじゃろ」みたいな解説を読むより楽しそうですよ。えー、どれどれ?(以下略)
・ご近況のイメージです
http://researchmap.jp/read0053596/
https://images-na.ssl-images-amazon.com/images/I/81DgQJBhZ3L.jpg
このキャリア上、業績(論文)の数じゃない評価指標で(も)評価されないと不利であるという、このかた自身が多変量解析を欲しているようなキャリアにも見えてまいります。「いわば切実なかたちで」とは、こういうことをいうのですよ。(棒読み)
・『カスタマーレビュー』が続々と寄せられていますっ!!(2006年7月)
https://www.amazon.co.jp/dp/4779500575
> 数学オンチの私にも、各統計手法の違いなど、わかりやすかったです。
> 数学が苦手な方も、そうでない方も。
> 現代的多変量解析入門書
> 1)統計学,および数学の予備知識をほとんど必要としない,しかしながら,2)最低限の理論的側面は知りたい,3)叙述が丁寧であるが,4)ページ数は少なく,さらには5)実践的な使用例を知りたい,という実に「欲張りな」条件を満たしてくれる最良の書ではないだろうか.
> 本書を読み終えた後は,SPSS,あるいはR等の統計ソフトを用いて実際のデータに触れることにより,さらに多変量解析への理解と興味が深まることであろう.
[3469]と同様に、ハンドブックの分担執筆ならびにハンドブックのほかの稿をぜんぶ見ての書き下ろしであるということが、2006年7月の本書につながっているのではないかと想像したくなってきます。
・[3469]
> わたしたち、わかった気になれる分析ツールがいいんです! メッソウもフタもあったものじゃありませんっ! …あ゛ーっ、背中のネジが飛んでゆくぅ。(※実在する背中のネジとは無関係であり、演出はイメージです。)
…コレジャナイ。
> 事典の執筆の直後の書き下ろしかなぁ、といって期待が高まってまいります。
> 「現代数理科学事典」の記事に具体例を添えて講義っぽくしたような本かなぁと想像してみます
同じ目で見たとき、索引で目に留まるのは「正射影ベクトル」でございます。
・正射影ベクトル:399
・36. 多次元尺度構成法を用いた運動イメージの分析
> 短距離走の運動イメージを収集するため,438名の大学陸上競技選手に自由記述法による第1次質問紙調査を実施し,その内容を224項目にまとめた.次に,これらの各項目の主観的重要度を7段階評定法で評価する第2次質問紙調査を543名の大学陸上競技選手に実施した.1から相関係数を引いた身体部位別(頭部,上肢部,体幹部,下肢部)の項目間の非類似性の行列を算出し,イメージを体制化している特性の性差について(略)SEM(単純ユークリッド距離モデル)やWEM(重み付きユークリッド距離モデル)をCOS-CAL,MDSCAL,SMACOF等で当てはめて仮説を検討した.男女の次元を比較するには,一般プロクラステス回転や重回帰分析を適用した.最後に各項目の経験的重要度を主観的重要度の評定値の標本平均値で設定し,経験的重要度と次元との関係を検討するため,経験的重要度を従属変数,各次元を独立変数とした線形重回帰分析を適用した.これらの分析の結果(略)
何の略かわからない略語が出てきます。
> ユークリッド距離モデル(Euclidean distance model)を適合し,その適合度からどのモデルが妥当かを判断した.
> SEM(単純ユークリッド距離モデル;simple Euclidean distance model)
> WEM(重み付きユークリッド距離モデル;weighted Euclidean distance model)
> モデルの適合度を比較するためには,共通した目的関数を用いるMDS(多次元尺度構成;multidimensional scaling)法を用い,その目的関数の値で比較すべきである.そこで,すべて距離における最小2乗基準を目的関数とする方法を採用した.
このあと、IF〜ELSEIF〜ELSE文みたいなのが(文章で)ごそっと書かれてございます。この中で▼「COSCAL(Cooper,1972)を変型した手法(以下,ICOSCAL)」、▼「MDSCAL(Kruskal,1964a,b)を変型した手法(以下,IMDSCAL)」、それに▼「Krane(1978)の方法(以下,KRASCAL)」、▼「SMACOF(scaling by maximizing a convex function; de Leeuw & Heiser,1977)」がぐちゃっと使い分けられていきます。(※感想は個人です。)
> 上記の方法はいずれも代数的に解が得られず逐次法を用いるため,初期布置(初期値)を必要とする.本来であれば多くの初期布置を用いて解析し最良の解を選択すべきであるが,本章では局所最小解や退化した解に陥る確率が少なく,かつ,少ない反復回数で収束するという点で優れていることから,Torgerson(1952)の古典的な計量的MDSによる布置を用いた.
・Wikipedia「bivariate convex function」のイメージです
https://upload.wikimedia.org/wikipedia/commons/6/6e/Grafico_3d_x2%2Bxy%2By2.png
https://ja.wikipedia.org/wiki/%E5%87%B8%E6%9C%80%E9%81%A9%E5%8C%96
> 凸最適化問題とは(…ざっくりざっくり!)を見つけることである。
・ウィキペディア「サポートベクターマシン」のイメージです
https://ja.wikipedia.org/wiki/%E3%82%B5%E3%83%9D%E3%83%BC%E3%83%88%E3%83%99%E3%82%AF%E3%82%BF%E3%83%BC%E3%83%9E%E3%82%B7%E3%83%B3
> 最適化問題の一種である凸二次計画問題で定式化される。
うーん。(あくまでいまとなっては)まどろっこしいとはこのことだよ。(棒読み)メニューから選ぶだけ(※)でぱしゅーっと(中略)というのでなく、あくまで自力で、中学・高校の数学からの幾何学的な理解(=ベクトルに関する単元ぜんぶ)を積み上げて同様の計算に取り組むとあらば、「凸最適化」(※「SMACOF」)なのだと、こういうわけです。つまり、2002年6月の朝倉書店「多変量解析実例ハンドブック」にあって「SVM」「サポートベクターマシン」との(一種『モダン』な)単語が見つけられなくても、「36」の稿は、(歴史的に「SMACOF」などといって)ほぼSVMと同じことをしているのだと(…『ほぼSVM』!)理解しなければならないわけです。
※このようなまどろっこしさは同ハンドブックの全域にわたって散見されるといっても過言ではなく、例えば主成分分析でいえば、(現在の読者から見て)したいことは主成分分析(による次元削減)だけなのに(慣れ親しんだ)MDSのほうのルーチンを使っちゃうっぽい…げふ。ひとのことはいえんですのう。(棒読み)
※3次元をあたりまえのように超える多変量を前提としているので、仮にセンセイが幾何学的な説明を『歴史的な経緯ゆえ「白板」と呼び下されながらも愛用される可搬式の平面上!』で繰り広げたとしても、(理系でない)学生としては実際の計算との間に著しい飛躍があるように感じられるのではないでしょうか。多次元空間上での凸関数みたいなのをきちんと説明する(センセイの)クロウを省いてあるのだという理解にはございます。なお、「白板(はくばん)」はホワイトボードの蔑称です。…べっ、蔑称だったんですかっ!!(棒読み)
・ニヒルなひねくれ者…じゃなくて、理系とはこういうことだよみたいなの(※恐縮です)
http://ibisml.org/archive/ibis2016/IBIS_sugiki.pdf
※便利でおトクな計算法を使うだけではだめで計算法そのものをあれこれしないと卒論や修論にならないというのが理系ですぞ。しかしあなた、もっとフリーハンドで図を描いたほうがよいのではありませんこと? パワポと呼ばれる便利でおトクなソフトの上で楽にきれいに描ける範囲(パーツを並べただけみたいな)でしか図解しないというのでは…なんだかなぁ。(※個人の感想です。)
・幾何学的な理解にはいっさい頼らずに計算していらっしゃるのかしら付近(※まったく想像です)
https://www.jstage.jst.go.jp/article/essfr/5/1/5_1_68/_pdf
> FR誌の多くの読者にとって信号処理のイメージは「○○変換を使って生のデータを分析し,△△フィルタを使って所望情報を引き出す方法や技術」というものなのではないでしょうか.通常,生のデータは適当なベクトル空間中のベクトルとして表現されます.音のような一次元データであれば適当なサイズのユークリッド空間中のベクトルとして表現できますし,画像のような二次元データも適当なサイズの行列とみなせるのでユークリッド空間中のベクトルとして表現できます.
> 信号処理では(略)異種格闘技のようなスリルと多様性の魅力に満ちています.(大巾に略)これらは,いずれもヒルベルト空間(すなわち完備な内積空間)として統一的に扱うことができます.最適化問題(2)の目的関数は(略)凸関数になっています.(さらに略)標準的なアルゴリズムは適用できません.筆者らは,(以下略)
※できないのでつくったですというお話でありました。
・いつかどこかで「MDSCAL」(mdscal.f)ございます付近
http://www.netlib.org/mds/mdscal.f
http://www.netlib.org/mds/
https://link.springer.com/article/10.1007/BF02289565
> multidimensional scaling
> Joseph B Kruskal
> kruskal@research.bell-labs.com
> Psychometrika, 1964, 29:1-17
※1964年の計量心理学の雑誌に載ったベル研のKruskalさんが編み出した計算方法の通りだよ的なことをおっしゃっておられます。この情報(=リファレンス)があればみんな安心して使えるよね。んだんだ(=当時)。
・Google ストリートビュー ゆえっせーっ「もしもしベル研究所はここですか」付近(※推定)
https://goo.gl/maps/hGVUFZbwE6A2
ベル研究所と「クラスタリング(k平均法)」については[3524]に略年表ございます。あわせてご利用ください。
・スーパーえむジンせんせい付近
https://www1.doshisha.ac.jp/~mjin/R/Chap_27/27.html
> 古典的多次元尺度法に用いる距離がユークリッド距離である場合は、相関行列を用いた主成分分析と等価である。
> 多次元尺度法を回帰分析のように「当てはめる」視点で扱うことができる。当てはまりの良さは用いた両距離のマトリクスと座標値の距離との相関係数を用いて考察することができる。
…はっ。わたしたち、思い出したように「36. 多次元尺度構成法を用いた運動イメージの分析」に戻ってまいります。
現在のわたしたち、いまならどの手法を使ってどのように“鮮やか”に(=より多くの情報を温存して=多様性を前提として=)分析できるか、同じデータを使わせていただきながら勉強していくという方法もあるかもですよ。えー、どれどれ?(以下略)
しかし、(いまでいう)Rのパッケージをぜんぶソースコードで見ながら説明するかのような説明が抜かりなく展開されていくさまは圧巻ともいえます。
> 空間における有意味な次元を同定するためには,因子分析で多用されているノーマル・バリマックス回転(normal varimax rotation;Kaiser,1958)を布置のセントロイドを中心として適用した.
※「布置のセントロイドを中心として適用」は原文ママ。
> 測定誤差や標本誤差を考慮して次元を比較するために,一方の座標行列を他方の座標行列にできるだけ似るように回転してから比較した.具体的には,Schonemann & Carroll(1970)の一般プロクラステス回転(general procrustes rotation)を適用した.
スマホでQRコードを読み取ろうとするときなどにわたしたち、知らないうちに「一般プロクラステス回転」を使っていそうではありますよね。…ギクッ。(※あくまでイメージです。読み取りやすい向きに回転してお使いください。)
・「プロクラステス」とはにわ一般
https://eow.alc.co.jp/search?q=Procrustes
> 人間を捕まえると鉄のベッドにくくりつけ、ベッドの長さに合うように人の足を引伸ばしたり切ったりした。
えーっ…。鉄が出てくる神話って、なかなか新しいですよね…じゃなくて、(この神話に親しむネイティブな文化圏の者にあっては)実に直感的なネーミングであることよのう。(棒読み)
・[3514]
> それらしく(エッジを張るか張らないかの閾値など『あしきり』などと称して恣意的に決定されながら)本件ネットワークをつくってみせているんですよね。ま、それがふつーですよね。ま、「あしきり」とかいっちゃだめですよ。少なくとも漢字で書いてはいけない気がするよ、うん。
・[3175]
> > 裾切り方式を活用した入札制限の設定
・[3528]
> 登場人物はわかりやすく呼びましょう。たいしょーたいしょー! けーまえとえちくらのかっつりをくらぺあでたのむよ。あと、えふてーね。…あいよ。オッ、きょうはまたずいぶんとはぶりがいいじゃないか。さてはりんじしゅーにゅーでもあったんだな?(※表現は演出です。居住まいを正して紙幣を数えるしぐさをして見せながら言うとGOOD!!)
> ふだん日本語で考えているわたしたち、英語を端折った形でつけられている関数名など、なかなか覚えられなかったり、字の並びを見ても何のイメージも湧かなかったりするという『ハンデ』があるのです。
> 「Verification」に供するデータなのだから「べりー」と呼べばいいのではないかといって、データフレーム名としても「まい・べりー」と呼んでみようというわけでした。翻って、日本語で「正解データ」「クロス集計表」と呼んでいると将来が危ういのではないかという気がしてきます…ちょっとだけ。JISで定められた用語を無視して「クロス集計表」と呼ぶ総務省統計局なるほど統計学園も、…なんだかなぁ。
・なんと日経リサーチ「プロクラステス」と西欧はにわ
https://www.nikkei-r.co.jp/glossary/id=1656
> 西欧人は(略)無理やり型にはめることの比喩として使われてきた。プロクラステス回転も、目標行列に近づくように数理的に回転させる方法であり、いかにも「無理やり目標に当てはめる」印象を抱いたのである。
再び「多変量解析実例ハンドブック」の36の稿です。
> 幾何学的には主観的重要度ベクトルを各次元が張る空間に射影し,この正射影ベクトルと各次元ベクトルとの関連性を検討する.このため各次元を独立変数とし,経験的重要度を従属変数とした線形重回帰分析を用いた.これによれば,各次元に対する専門家の肯定的な方法は,偏回帰係数の符号から判断できる.次元の関与の程度は標準回帰係数,寄与率,正射影ベクトルと各次元ベクトルとの角度や方向余弦(=標準偏回帰係数)から評価できる.
もはやきもちいいくらい数学の教科書をぜんぶひっくり返したみたいな説明だと思いましたけど、これがいちばんエレガントなんですよ。いくら等価であるからといって、『主成分分析(因子分析)』などと書くのは、やはりアレ(生半可)ではあるということなのですよ。たぶん本当です。ある分野で『定まった一定の定評ある手法みたいなの』を名前(固有名詞)で呼ぶというのは、あくまでその分野内でのみ許された慣行なのであって、その分野の外では許されないのですよ。さあさあ手法を説明するために、手法の名前でなく『数学用語!』だけを使ひたまへよキミたち…エー!!(※教室にひびく絶叫はイメージです。わあぃケテスタ。さあさあ「エ」によじのぼって「ー」を使って高い木にひっかかったボールを取ってあげるのですよ。)
※SPSSなど便利だけどお高い商用製品は使わず、ぜんぶじぶんで式を書いてから、1つずつ手作りでプログラムを書いていそうですよね。これはこれでスバラシイ。たぶんスバラシイのですよ。なお、参考文献としては1948年、1951年、1952年、1955年、1958年と、1964年、1972年、それに1980年と1977年、1978年のものが挙げられています。1980年に日本語で出版されたMDS(多次元尺度構成法)の教科書2冊(と、そこで知ったかのような1977年、1978年の英語論文)が、(この著者にとって)最新の知見の導入だということがうかがえます。…センセイは忙しいのですよ。
・[3528]
> 「分割表」はJIS(日本工業規格)で定められた用語で、英語では「contingency table(s)」と呼びますが、総務省統計局なるほど統計学園では「クロス集計表」と表記されています。なんと、総務省統計局なるほど統計学園では「クロス集計表」と表記されています。(※2回いいました。)
「分割表」がJISで定められたころには、プログラミング言語もJISであってだなぁ(中略)それより新しい時代の計算やプロットの手法は提案した者のいうがままに呼ばれ…なんだかなぁ。(※見解です。)
・「品質管理用語」のイメージです
http://www.jsqc.org/ja/oshirase/jsqcichiran.pdf
> JIT(ジャストインタイム)
> 力量
> 文書
> 仕様書
> 手順
> 官能検査
> 限度見本
> 因子,要因,factor
> パレート図
> 特性要因図
> ヒストグラム
※いずれもJISで定められた用語です。何の用語であるかはそれぞれいろいろですので割愛します。
このためJISで「確率及び一般統計用語」「統計的品質管理用語」それに「実験計画法」が定められたということでした。…ギクッ。
・(参考)「RとFDA」
http://www.okadajp.org/RWiki/?R%E3%81%A8FDA
> FDAが使っている統計言語はSASですが、FDAの性格上固有の会社の統計言語に依存することには問題があるため、パブリックなRが注目されるようになりました。
> FDAの薬事申請はCDISCと呼ばれ標準化されています
「MDS」や「PCA」といえば、どのソフトを使っても同じ結果が得られることが(国内ではJISで)保証されるようになったりしませんかねぇ。…ギクッ。さあさあ統計ソフトや表計算ソフトは「JISマーク認証を受けた製品」かどうかを確かめて導入する時代ですよぉみたいなの、迎えたいですよね、わかります。…グリーン? いまどき外箱とか分厚いマニュアルとかはないんでぇ…もっとギクッ。
・富士通九州システムズのイメージです
http://www.fujitsu.com/jp/group/kyushu/solutions/software/applications/development-tool/fortran/faq/ssl.html
> SSLII は、線型方程式や微分方程式などの数学的問題を解く、約270種類のサブルーチンからなる汎用数値計算ライブラリです。
> 利用者の Fortran プログラムから CALL 文で使用することができます。
> 以下の10分野をサポートしています。
> 線型計算、固有値問題、非線型方程式、極値問題、補間・近似、変換、数値微分・積分、微分方程式、特殊関数、擬似乱数
うわぁ特殊関数。首筋に冷たいものが…(違)。
・首筋に冷たい「特殊関数」とはにわ
https://ja.wikipedia.org/wiki/%E7%89%B9%E6%AE%8A%E9%96%A2%E6%95%B0
http://ejje.weblio.jp/content/send+a+shiver+down+your+spine
・日本特殊陶業です(※本件とはぜんぜんちっともまったく無関係です)
https://www.ngkntk.co.jp/corporate/profile/overview.html
・いつかどこかでNゲージの車両セットみたいなケースのイメージです
https://s3-eu-west-1.amazonaws.com/thelab.gr/uploads/monthly_2017_07/large.SOFTWARE.jpg.13d866f686918dd910d5473b727ee3a0.jpg
・いつかどこかで「$79.95」のイメージです
http://i.ebayimg.com/images/i/272121098996-0-1/s-l1000.jpg
・「COSCAL」(1972年9月)のイメージです
http://www.anderson.ucla.edu/faculty/lee.cooper/Pubs/A%20NEW%20SOLUTION%20TO%20THE%20ADDITIVE%20CONSTANT%20PROBLEM.pdf
・「まどろっこしい」
http://thesaurus.weblio.jp/content/%E3%81%BE%E3%81%A9%E3%82%8D%E3%81%A3%E3%81%93%E3%81%97%E3%81%84
だれですか「まどようかんきせん」と似ているなどとのたまうのは。…ギクッ。
★「ポリグラフ検査」を読み解く(仮)
じぶん、よくわかっていなかったんだなぁと気づいて詳細を確かめてみようと思ったところ、もっとわからなくなってくるということって、ありますよね。…ギクッ。
・「ポリグラフ検査に対する正しい理解の促進に向けて」(2014年3月10日)
http://www.ritsumei.ac.jp/acd/cg/lt/rb/636/636PDF/zaitu.pdf
> 建内・鈴木・山本(2010)は、警察職員(ポリグラフ検査の利用や実験参加経験がなく、ポリグラフ検査の講義を受けた経験がない者)を対象に、ポリグラフ検査に対する評価、印象そして知識を調査している。
> この調査結果から、警察職員でさえも、質問によってはおよそ半数が誤った理解をしていることが分かる。このことは、犯罪捜査に対する関心が警察職員に比べて低いと考えられる一般市民においてはさらに顕著となることが予想される。
もっと基本からわかっていない感じなんですけど(※恐縮です)、▼ポリグラフ検査なんて、そんなの、量刑がきわめて重いとか金額の大きな経済犯罪とか、そういう重大事件の捜査で、ほかのさまざまな証拠に上乗せして一種「とどめの証拠!(どやぁ」としてポリグラフ検査するんでしょ(※あばれたりわめいたりするひとに対してはできない検査でしょ)、▼(比ゆ的に)『小さな事件』にあって、ポリグラフ検査で非常に多くの人を薄く広く調べたりなんてしないんでしょ、との理解でよろしかったでしょうか&だからこそ裁判員制度との関係で周知を図られたいということなんですよね。(棒読み)
> 犯罪捜査で使用されるポリグラフ検査に対する意識調査 日本心理学会第74回大会発表論文集, 455.
> 全国警察で同じ装置が配備されていること、今現在使用されている装置はデジタル化されており(廣田・松田・小林・高澤,2005)、世界でも類をみない性能を有しているため問題ないといえる。
内容が「ヘビー」なので、(内容に見合った手間をかけるべきであるという意味で)書いた後のチェックが手薄な感じに「今現在」などと書いていてよい場合ではないのではないかなぁ。(※個人の感想です。)
> 検査者は、少なくとも科学警察研究所法科学研修所の養成科を終了しており、終了した後も現任科等の研修を受けているため、資格ならびに技術に問題はないといえる。
> 感度は86%、特異度は95%であった
※ここから「1−0.86=0.14」「1−0.95=0.05」という数字が出てきています。そういう計算でよろしかったでしょうか。本文ではいきなり(※いきなり見ても出しかたのわからない)数字が出てくるので…なんだかなぁ。市民が(裁判員制度で)云々とおっしゃる割には、この説明や文章の運び(段取り)自体は「丁寧」とはいえないよね、の意。
> 小川他(2013)
> 事件内容を知らない無実の被検査者に4質問表を実施して、すべての質問表について記憶を有すると誤判定する確率(フォールスポジティブ率)は0.000625%であり、ほぼ100%の正確性といえる。一方、感度の86%については、仮に実際の犯人であれば、4質問表すべてについて記憶がないと誤判定する確率(フォールスネガティブ率)は、14%の4乗であるから0.0384%となる。このことから、フォールスネガティブを減らすには、5ないし6質問表あることが望ましいかもしれない。
うーん。「1,000,000回に6回」(16.7万回に1回)は「(「事件内容を知らない」のに)すべての質問表について記憶を有すると誤判定」しちゃうんですよ。検査としてはあくまで「4質問表」だけど取り調べとしては恣意的に「1質問表」だけに着目しちゃったりすると、0.05%…えーと(略)「10,000回に5回」(2000回に1回)は「(「事件内容を知らない」のに)ある1つの質問表について記憶を有すると誤判定」するってことですか&本当でしょうか。RAIDは壊れるときは壊れるんですよ。かけ算しさえすれば確率が下がった(だから『ほぼ100%(安全)』です!!)などと…なんだかなぁ。
※フォールスポジティブ:FP。フォールスネガティブ:FN。「TP」「TN」については[3283]も参照。(この分野としては歴史的に)用語がバラバラなままで(最近の学習者にとって)体系的な知識になりにくいと見受けられるような気がしてきます。(※個人の感想です。)
■表1 現代の水準で新規「TP」「TN」「FP」「FN」を見渡してみる(※用語を記号に揃えただけです)感度 TP/(TP+FN) =0.86 | 特異度 TN/(FP+TN) =0.95 | | | TP:a | FP:b (第一種過誤) | FN:1−a (第二種過誤) | TN:1−b |
※よくある(2×2の表にaからdまで入ってる)「過誤の定義」の表から、「感度」「特異度」の計算に即して「c=1−a」「d=1−b」に置き換えた表です。(http://www.med.niigata-u.ac.jp/lab/labmed/page3.html)
・感度:「a/(a+1−a)=0.86」なので「a=0.86」「1−a=0.14」でいいんですね。
・特異度:「(1−b)/(b+1−b)=0.95」なので「1−b=0.95」「b=−(0.95−1)」「b=0.05」でいいんですね。
感度 | 特異度 | | | TP:0.86 | FP:0.05 (第一種過誤) | FN:0.14 (第二種過誤) | TN:0.95 |
・陽性尤度比:「0.86÷0.05=17.2」
・(あまり考えないかもですが)陰性尤度比:「(1−0.86)÷0.95≒0.15」
※2×2の表なので、少なくとも3通りのマスの組合せで出した3つの指標を使って説明されたい(陽性尤度比を省略してはならない)と思われないでしょうか。本当でしょうか。
※陽性尤度比が17.2倍! どちらかといえば「見逃し」を防ごうという検査であるとの印象が出てきましょう。いわば「紋切型」の『論文レポートでの報告文例!』みたいなのとしては、陽性尤度比が10倍を超えるということは「インパクト」が「かなり高くなる」とのこと。陰性尤度比が0.1倍近くにまで下がるということは「かなり低くなる」とのこと。
> パーソナリティ等の特性はポリグラフ検査に影響がない、もしくはあったとしてもより検出しやすい方向に影響を及ぼす。
陽性尤度比と陰性尤度比の対比(コントラストのようなもの)にも言及いただくと、そのことがもっとはっきりしてくるという感触でございました。▼「パーソナリティ等の特性」が(被検査者ごとに)異なるのはあたりまえで、その影響は必ず全体にポヤンとかかってくるということ、▼検査では『絶対値!』ではなく『差!』を見るので判別を誤ることはまずないだろういうことを、しかし「影響がない」といってしまうのは誤解のもとではないかと思いました。
また、▼ある被検査者1名の結果について「どの方向」に影響するかは、まったくすっかりその被検査者の「パーソナリティ等の特性」によって決まるのですから、「パーソナリティ等の特性」を問わずに誰でも「より検出しやすい方向に影響」といいきることはできないと思えてきますが本当でしょうか。…だいぶややこしくなってきました。
※「それは誤解だ!」といいながら、さらなる誤解のもとみたいなのを…えーっ。「「都市伝説」と断言してしまうのは語弊がある」([3015])も参照。
それとは別の課題として、健康で過度なストレスがない(測定された生理的な指標の上で、陰性というものがはっきり判別できる)ことを前提にしていますけれども、その前提が崩れていて検査がうまく機能しない(ことが増えているかもしれない?)ということを無視して「影響がない」と強弁したりしてはいけないとは思うのですよ。類似の事件が続いたときなど、前の事件のニュースで聞いた手がかりに反応してしまうなどの(中略)って、きちんと(データ処理上)打ち消すことができるんでしょうか(もしくはそのせいで余罪の追及から逃げおおせてしまう者など出てしまわないのでしょうか)。…かなりむずかしいはなしですのう。(※個人の感想です。)
> 我が国の判例もさることながら、諸外国特に米国では、科学的証拠としての信頼性を有するか否かを判断するための基準として、ドーバート(Daubert)基準を設けている。これについて、Benshakhar & Kremnitzer(2011)は、CITが次の要件を満たすことから、ドーバート基準を満たしていると結論づけている。
実際の検査はそんなもの(※限界を踏まえて運用されている…はず!)との認識とともに、しかし、科学警察研究所と関係なく書かれた文章の正確さは、よくわからない(※かえって市民を混乱させる=科学警察研究所だけが公式見解を述べるべきである)との印象をストレートに表現しようかと、こういう気持ちになってきました。(※あくまで気持ちです。)
※おてもとの論文が新たな研究に資する(=いますぐじゃないけど『資すりうる!(資しうる)』)論文になっているのかという観点では、先人の研究にカワサキこまかくケチをつけていくのが研究というものですよ。現行の手法に何も問題がないといいはれば、研究しなくていいってことになっちゃうんですよ。…えーっ。
・[3015]
> 「都市伝説」と断言したくなる気持ちはわかりますが、断言して納得させることは、「都市伝説」を鵜呑みにしてしまう人に、新しく別の「伝説」を鵜呑みにさせるも同然といえます。現実はもっと複雑で、バタフライなのです。ひとつひとつのケースについて、個々人が自分で、しっかり考えられるようになっていかないと、絶えず何らかの「都市伝説」が生まれてしまって、それに振り回されるということをなくせません。
・(数学的に)むずかしいNHKあります「5回に1回」からの「発表の31倍以上」(2017年11月18日)
http://www3.nhk.or.jp/news/html/20171118/k10011227871000.html
いえ、ここまでの話題を見てきたいまのわたしたち、このニュースがかなりむずかしいということを、かえって理解できようかというものです。
> **主導の**による**が行われた**北部の150近くの場所を去年4月から1年以上かけて追跡調査し、住民や当局者への聞き取りや衛星写真の分析なども実施した結果、**の発表の31倍以上に当たる、5回に1回の割合で****になっていたということです。
破片でケガをして24時間以上が経ってからという人は数に含めないなどの(略)そのような定義の違いも検めずには何もいえまいて。(※見解です。)
・「これで簡単! 感度・特異度・尤度比」(2014年12月11日)
https://www.pref.nagano.lg.jp/doctor/kenko/iryo/ishikakuho/documents/tamura.pdf
> 日本語の言葉のレベルで、何となく
> “感度がいい”
> “特異度が高い”
> とやっていませんか?
> 何となく
> 何となく
…ギクッ。
> やみくもにアルファベットを
> 暗記しようとしてませんか???
> やみくもに
> やみくもに
…ギクギクッ!!
> かの天才数学者
> ベイズ先生は
> 気が付きました!
ワー!!
> 確率p(%)で
> 考えるから計算する
> のが難しいんだ!
> 比なら
> 簡単じゃないか!
わーわー!!
> 当たり前だよね。
> 当たり前だよね。
習いたてのときはおもしろがっていろいろ考えますけど、わたしたち(中略)ンじゅー年のときをへていまよみがえる…じゃなくて、なにがどうしてこうなったみたいな(等式の変形はせずに「1−0.86=0.14」みたいな)ことをうっかりしちゃうことってあるんですよ。(棒読み)
・「小川他(2013)」です
https://www.jstage.jst.go.jp/article/jafst/18/1/18_35/_article/-char/ja/
> 実務で行われた検査のうち,その後の捜査の結果から記憶と検査結果との照合ができた217事例1137質問表を対象に(略)…割合(感度)は87.8%,(略)…割合(特異度)は64.8%であった.しかし,(略)記憶の有無は不明と結論された事例を,記憶無しと結論されたものとして処理している.そのため,実際に記憶無しと結論した事例に限定した場合の特異度が不明である.また,(略)どの程度の生理的変化の差異の下で上記の感度・特異度が得られたのか分からない.
そこで、結論をはっきりさせた模擬の実験をしたというのが本報告ですね。
> 実験参加者 167名(男88名,女79名,18-59歳,平均37.1歳,SD 11.6歳)
> 実験者 ポリグラフ検査研究および実務検査に従事している36名
> 刺激
> 3から7までの5つの数字
> 指輪のほか,ネックレス,イヤリング,腕時計,ブローチ
> 足立・鈴木等に従い,
> ROC曲線
> その曲線下の面積と95%信頼区間を求めた.
> 指標が複数にわたるため,指標を統合するためのルールも探索的に検討して設定した.基準の設定に際しては,特異度を90%以上で,感度ができるだけ高くなり,かつ不明事例ができるだけ少なくなる基準を探った.
うーん。
> 不明事例を除外すると(略)(感度)は,66名中57名(86%)(略)(特異度)は,55名中52名(95%)であった.群と判定結果の連関係数(φ係数)は.81(p<.01)であった.
※有意水準1%。
このあと、(生理的変化の差異の)最大値を使ったり平均値を使ったりして、基準を探っておられます。…うーん。科学警察研究所のかたとしては当然、このような一種『やわ』な部分があるということをよくわかっておられるとわかります。(※当然ですけどね。)
> 感度は60名中50名(83%),特異度は,54名中49名(91%)であった.群と判定結果のφ係数は.74(p<.01)であった.
※有意水準1%。
そして、まったく研究の本質にはかかわらないことで恐縮ではあるんですけど、謝辞が…謝辞がっ(略)「36名」って、そういうことですか、よーくわかります。
・(公社)日本心理学会の説明です
https://www.psych.or.jp/interest/ff-09.html
> もともとポリグラフとは複数の生理反応を同時に記録する装置のことをさしますが,検査でも皮膚電気活動や呼吸,心拍などを同時に測定するので,ポリグラフ検査と呼ばれているのです。
最初から多変量とはこのことだよ!! やーい『歩く多変量!』みたいなのーっ…いえ、それがわたしたち(生き物)ではあるんですよね。(棒読み)
> この生理反応は,ウソをついたから起こるというわけではありません。通常の検査では,各質問に対してすべて「いいえ」と返答してもらうため,真犯人はネクタイにも「いいえ」と返答します。この意味では確かに「ウソ」をついているのですが,すべての質問に「はい」と答えても,また,すべてに何も返答しなくても,やはりネクタイにほかの質問とは異なる反応が生起することが明らかになっています。つまり,生理反応は,質問に対して「ウソをつくから」生じるのではなく,それが実際の犯行に関連した内容であると認識するから生じると考えられます。
多変量を「同時に」記録するというのが威力ばつぐんなのですよ。ほとんどぜんぶ(の測定項目)が(一斉に)「ギャッ」と(データ上)『叫びをあげる』ようなものなんですよ@たぶん! (統計処理される前の)実際のデータを見たことはないんですけどね。(※恐縮です)
※箱田センセイ「ギャーッ!!!」について[3169]も参照。
どちらかといえば、「自白」が「身代わりや口裏合わせ」でないことを(念には念を入れて)確かめるための検査であると理解できそうですよね。(個々の検査や手法の単独での正確さなどでなく)そういう証拠(群)としての順序関係や位置付けというもの全体の「体系」を説明してほしいというのが、裁判員に選ばれたときにわたしたちが知りたいことなのかもですよ。…その発想はなかった!(棒読み)
★朝倉書店「多変量解析実例ハンドブック」かく語りき(63)・(51)・(53)
再び「多変量解析実例ハンドブック」の索引を見直しますと、「MDSCAL」が出てくる稿がほかに1編あるとのこと。すっかりFORTRANな気分でほろ酔いのわたしたち(違)、索引から「ADCLUS」「ALSCAL」「INDSCAL」「LISREL」「MDPREF」といった6〜7文字の文字列をなんとなく見つけることができてまいります。…不思議だなぁ。(棒読み)
※実はSPSSにはFORTRANの時代の痕跡が残っている場所があるんです&いきましょーいきましょー。とっても飲みやすいお酒ですね&まるで水みたいっ!(棒読み)
・「Fortran 標準コーディングルール」(2005年12月1日)
http://www.mri-jma.go.jp/Project/mrinpd/coderule.html
・63. 『君台観左右帳記』の伝書解析
> 『図絵宝鑑』との共通部分の50×(1−順位相関係数)を計算し(略)順序からの相違度(%表記)と見なす.これは各写本ごとに3次元ベクトルで与えられ,それを「『図絵宝鑑』乖離度」と呼ぶ.さらに,詳細は省くがもう2組の3次元ベクトル,空隙数,非準拠部所属数,を定義する.これらの指標は,いずれも『図絵宝鑑』の利用度が高ければ高いほど0ベクトルに近くなる.すなわち,原初的な状況ではこれらは相応な値を持っているが,最終的な完成品では0になると思ってよい.
学生のレポートのオリジナリティーを測ろうというソレと同じですね、わかります。(違)…そっちではなく、写本の完成度といいますか、オリジナル(と考えられる)に近い写本と『写本からの写本!』みたいなのを見分けていこうというようなですね(以下略)。写本をつくる技術やコストが未熟であると、おいしいところだけつまみ食いしたダイジェストみたいなのになるのだということでよろしかったでしょうか。(※恐縮です。)
> 芸道伝書のように多種類の写本が大量に存在するものでは,通常の文芸作品と同様な校合をおこなってもなかなか系統が見えてこない.多変量解析の方法を併用すれば,写本の親近度が見やすい結果として与えられるので,複雑な系統を持つ『君台観左右帳記』の研究にはとくに最適である.
うそーん。ただのアルゴリズムなんですから、入力あるところに出力ありっ! …いえ、「見やすい」というのは(アルゴリズムに着目せず統計ソフトを操作するだけに留まる者にあっての)錯覚であって、見えなくなっている部分や(このアルゴリズムでは)本来的に見えない部分が多分にある(削ぎ落した結果である)という理解が欠かせませんぞ。(棒読み)
> なお,本章では触れないが,写本相互の共通部分順位相関係数を用い,数量化IV類,あるいはALSCAL等で分析して並び方の類似性を探ることも可能である.
うーん。(略)
・51. 5因子モデル(FFM)による性格特性の分析
> 因子数に関しては,多変量統計的観点からは,χ2による無相関検定の帰納論的適用が最も望ましいであろう.しかし,FFM研究においては,最尤推定的成果は多くない.(略)それほど多く利用されていない.なぜなのか.理由は単純で,FFM研究者にとっては,χ2検定で示唆される因子数が多過ぎるのである.ただし,ビッグファイブを因子数とした,行列Bを最尤推定する研究は数多く発表されている.アプリケーションパッケージのLISRELなどが利用可能なためである.
うーん(略)。
・「LISREL(リズレル)」
http://www.sigmath.es.osaka-u.ac.jp/~kano/essay/statistics_for_future.html
> 最近,共分散構造分析や構造方程式モデリングという言葉が日本でも知られるようになった.別名 LISREL(リズレル)と呼ばれるモデルのことである.一言でモデルの概要を述べるならば,「共分散構造分析=因子分析+多重回帰分析」となる.例えば,因子分析を行い,因子得点を用いて回帰分析をするということが,共分散構造分析では一気に実行できる.「一気に実行する」という方法は,実は多くの長所を持つ.さらに重要な点は,「因子分析+多重回帰分析」という枠組みは相当に広く,事象に関する様々な仮説をモデル化して分析できることである.つまり,モデル規定の柔軟さがその特徴であり,一方,従来の多変量解析に分類される各手法はこのような柔軟性をもたない.
> 多変量解析では,いわゆる数理統計学者が取り組んできた数学理論と応用の研究者が実際に適用する手法の間の乖離が指摘されて随分になる.その中にあって,共分散構造分析では統計理論が,実際に使う手法に大いに活かされていると言ってよいと思う.理論と応用とが刺激し合ってうまく発展してきた理由の一つは,統計学者・プログラム開発者・ユーザーの三位一体ではないか.先に述べた LISREL は,ウプサラ大学(スウェーデン)の Joreskog と Sorbom が開発してきた. Joreskog は高名な統計学者であり Sorbom はプログラマーである.その解説書には,多くのユーザーからの質問やコメントよって理論とプログラムが発展させられたとある.日本の統計学者は,このような研究スタイルに学ぶことが多いのではないかと思う.
「LISREL」は新しいのに古風なネーミングであるという理解でよろしかったでしょうかみたいな(以下略)…ゲフンゲフン。
・カタカナで「リズレル」のイメージです
http://www2.rikkyo.ac.jp/~murase/lisrel.htm
・(参考)Rでは「lavaan」(※ベータ版です)
http://www.ec.kansai-u.ac.jp/user/arakit/documents/lavaanPackageVer0.5-12.pdf
既にAmosしているひとじゃないと使えそうもないっぽくないです? …えーっ。(※私見です!)
・53. 年齢・性別によって価値観は異なるのか? −個人差多次元尺度構成法(INDSCAL)と重複クラスター分析(ADCLUS)による分析
> 美しくなりたい…という思いに(大巾に略)簡単お手入れ派,しっかりお手入れ派
…コレジャナイ? いえ、これでいいんです&そういう内容の分析なんですよ。
> 本章では,MDSの1つである個人差多次元尺度構成法(INDSCAL)や重複クラスター分析法(ADCLUS)などを用い,年齢・性別の異なった集団において価値観に差が見られるのか明らかにする.
> 「最近の若い者は…」
> 「これだからオジサンは…」
…やっぱりコレジャナイ? いえいえいえ! そういう内容なんですよっ。(棒読み)
> INDSCAL(個人差多次元尺度構成法;individual differences multidimensional scaling)
> ADCLUS(重複クラスター分析法;additive clustering)
> 空間的表現を用いるMDSと離散的表現を用いるクラスター分析法を併用することは,分析結果の解釈からも有用であるため,両者はできる限り併用することが望ましい(Arabie, Carroll & DeSarbo, 1987;Arabie & Hubert, 1994;Shepard, 1972),とされている.
ほぉお!(以下略)
> MDPREF(multi dimensional preference analysis)モデル(Carroll, 1972;岡太・今泉,1994)
> 3元データの重複クラスター分析法であるINDCLUS(individual differences clustering)
> VAFの最大値
> 質問項目間の非類似度をINDSCAL(略)
> 質問項目に対する回答の平均値を用いてコーホート間(表4の行間)の相関係数を計算し,(略)
なんかぱっとしないんですけど、気のせいでしょうか。(※個人の感想です。)
たぶん、▼せっかく「重複クラスター分析法」なのに主成分分析みたいな使いかた(※「質問項目間の非類似度」≒「本質的な次元の抽出」)しかしていない(&先にそれを単独でしちゃうですかっ)、▼「ADCLUS」を使いながらも(伝統的に用いられる「属性」である)「世代」と「性別」にとらわれ、せっかく収集されたデータの特徴を素直には見ることができていない、というあたりが残念系なんだと思いました。(※個人の感想です。)これはもう最初から全データを「ADCLUS」に放り込んでみて、あとから属性との相関というか「分割表」みたいなのをつくってみるという(以下略)きょーははぶりがいーじゃないかっ。(※この続きは有料ですっ!)
※いったそばからむりょーっ「「TP」「FP」「FN」「TN」のすべてを見渡しての考察」については[3283]を参照。…もちろん『完全無料!』ですからね。(違)
・[3283]
> R2が1になることはないとして、どこで「切る(切られる)」かというのは、有意水準を決めれば決まることであり、この分析で「0.230」になったというのは、▼有意水準を「5%」にしたことと、▼分析に用いたデータ(首都圏の鉄道駅)に依存したものである、と理解しました。
> 棄却されなかった147領域について、まったく考察されていません。
> 「TP」「FP」「FN」「TN」のすべてを見渡して考察しなければいけません。TとF(「真の正解」)をまったく問わず、Nとされた147領域を考察せず、わあぃPが432領域! …といっているに等しいということです。
> 579領域を、25.4%(147領域)と74.6%(432領域)に分ける分類器(※あえて分類器と見る場合)というのも、かなりアレだなぁ、大丈夫かなぁ、と、割合を見ただけで心配になってくるような気がしないでもありません。(これはあくまで気のせいです。読者がそんな心配をしなくてよいように考察を尽くしてくださいね、の意。)
▼「世代と関係なく形成されるクラスター」、▼「性別と関係なく形成されるクラスター」、それに▼「世代とも性別とも関係なく形成されるクラスター」を明示的に扱いはなれよ(⇒扱った上で「無視できる」とするかは考察しだい)、の意。それを先に「無視できるはずだ」と決めてかかるような雑な分析(※分析の計画=どの分析法にどのデータをかけるかの算段を練ること)ではいけないのですよ。せっかくの「ADCLUS」が泣いてますぜ★お客さーん!(※あちらのお客さまからでございます。)
・「完全無料とは」とは
https://www.weblio.jp/content/%E5%AE%8C%E5%85%A8%E7%84%A1%E6%96%99
http://renso-ruigo.com/word/%E3%81%9F%E3%81%A0%E3%82%88%E3%82%8A%E9%AB%98%E3%81%84%E3%82%82%E3%81%AE%E3%81%AF%E3%81%AA%E3%81%84
> (完全無料 から転送)
うーん。微妙なニュアンスが解説されていないのは気のせいではあるまいて。(※表現は演出です。ラインフィードでお願いします。)
> 落とし穴
> 危ない橋を渡る
> ひとつ間違えると
> ハイリスク
> リスクが大きい
> 当たり外れの大きい
> 博打のような
> 射幸性の強い
> 命取りになりかねない
> おそれが高い
> リスキーな
> 冒険
> リスクが高い
> 危険が大きい
> 失敗の確率が高い
> 投機的な
> 危険性が高い
> ギャンブル性が強い
> 無謀な
うわぁ…「勉強しました!(=値引きしたときに店のひとが言う)」とか「冒険だなぁ(=実質の価値が容易には見定められない商品やサービスの値段が高いときに、それを買おうとするひと(じぶんでもいい)に対して言う)」とか「勉強だと思ってひとつ試してみるか(=などと言い出した時点で第三者には明らかであるが、実際、そのように失敗に向かうことが多い、そのことをうすうすとは本人も自覚しながらも目先の魅力から自力では逃れられないようす)」からの「高い授業料だったなぁ!(=じぶんの失敗をじぶんで納得するため本人が言う)」などと(違)。こういう慣用句のむずかしさは、だれがだれに対していうことばなのかという、関係性みたいなのが入ってくる(制約がある)からですね、わかります。
・ご近況のイメージです
https://researchers.waseda.jp/profile/ja.63cc51b70d3bec958b11c72f4ced82fc.html
http://jglobal.jst.go.jp/public/200901031438642979
http://www2.tmig.or.jp/jahead/contents/organization.html
必ずしも論文にはならないっぽくも着実に研究しておられる気配が漂います。(多変量解析を用いないと特徴がじゅうぶんには見えてこない領域にいらっしゃるという意味での)多様性って、こういうことなのかもしれませんよ。直近の5年間の論文の(延べ!)件数だけで『(研究者の)アクティビティ指標(AI)!』だなんて([3543])いわないでくださるかしら。(※見解です。)
引き続き朝倉書店「多変量解析実例ハンドブック」より「得点プロフィールの形状も考慮した31類型の学力型」については[3568]に続きます。
|