・テストのつくりかた ・TOEICにまつわる「幻想」を斬ってみる ・「書く」にも「聞く」が必要? ・「読む」「書く」と「話す」の関係
(約11000字)
英語の話ですが、テストの設計の話です。
「夏休みの計画」を立てる人が出始めるのが6月で、それにともなって英語の学習を「再開」される方が多い…らしいです(TOEICのメールマガジンによります)。本当でしょうか。このように、英語と交通機関には密接な関係が…もっと本当でしょうか。
・NHK「中学生に英語力を測る全国テスト実施へ」(2015年6月5日)
http://www3.nhk.or.jp/news/html/20150605/k10010103981000.html
> 文部科学省は、平成29年度までに中学校卒業時点で英検3級程度以上の力を身につけた生徒の割合を50%にすることを目標にしていますが、ここ数年、30%台と横ばいの状態となっています。
> テストは民間の試験団体の協力を得ながら実施する予定で、今年度は試験的に6万人を抽出してテストを行うということです。
> ただ、100万人以上いる中学3年生全員の「話す」力をどのようにして測るのかなど課題もあり、
「英検3級以上」の目標が「50%」なら、全体的には以下のような「期待」をするということですね。
・上位20%に「英検準2級」以上の合格を期待(受検させるからには合格率をほぼ100%とするよう手厚く指導する)
・平均的な60%のうち上位半分(全体の30%)に「英検3級」合格を期待(同)
・下位20%には、より基礎的な何かを期待(期待しないということではない)
これに対して「30%」とされる現状は、以下のような、たいへん「悩ましい」状況になっているということでしょう。
・上位20%が「英検3級」以上を受検し、概ね4人に3人(全体の15%)が合格(4人に1人は、受検する級が実力を明らかに超えている=「チャレンジ」させられる)
・平均的な60%のうち上位半分(全体の30%)が「英検3級」以下を受検し、概ね2人に1人(全体の15%)が「英検3級」に合格
・下位20%には、英検なんてどこの雲の上の坂だよ的な何かがあると懸念(生徒本人でなく、現行のカリキュラムを間接的にせよ信認している、すべての大人の責任です)
※上記の推定は、仮想的な「平均的レベルの学校や地域」を想定したものです。東京の都心でも、田舎でもないどこか(千葉か埼玉なんでしょうか)に住むとされる「有業者の夫と専業主婦の妻、子ども2人」という「標準世帯」と同じですね、わかります。このあたりは、今年実施の国勢調査で最新の状況が明らかになります。コワイですね。
※また、学力(平準化を目指した学習指導の結果、得られる学力=実績ダイヤ的な意味で)についても正規分布(ピークが中央に1つ)を想定していますが、現状は上と下に山が2つといわれます。ただ、このことは別の問題であると認識します。
・総務省統計局「家計調査 用語説明」(2004年)
http://www.stat.go.jp/data/kakei/2004np/04nh02.htm
・英検
http://www.eiken.or.jp/eiken/merit/
・英検「各級の審査基準」
http://www.eiken.or.jp/eiken/exam/criteria/
> 準2級
> 日常生活に必要な英語を理解し、また使用することができる。
> 話す:日常生活の話題についてやりとりすることができる。
> 3級
> 身近な英語を理解し、また使用することができる。
> 話す:身近なことについてやりとりすることができる。
> 4級
> 簡単な英語を理解することができ、またそれを使って表現することができる。
> 話す:(面接試験なし)
・英検「各級の目安」
http://www.eiken.or.jp/eiken/exam/about/
> 4級 中学中級程度
> 3級 中学卒業程度
> 準2級 高校中級程度
> 2級 高校卒業程度
> 医療やテクノロジーなど社会性のある英文読解も出題されます。
面接試験のある「英検3級」以上については、「50万人」の中学3年生にもれなく「英検3級」以上を受検させる(試験の形式に慣れるための模試をする、検定料を補助する)ことで十分です。問題となるのは、「英検4級」以下において「話す力」が測定されない(面接試験がない)ということですね、わかります。とはいえ、「英検4級」以下の基礎的なレベルであれば、通常の授業を通して、また、その成績をもって、十分に評価(※)できる範囲ではないでしょうか。
※英語だけを考えるならば、成績証明書(いわゆる「内申書」)から独立して、英語だけの成績を示す公的な書類(紙切れ一枚)をつくるとか、一定の成績をもって自動的に認定とする級なりを英検に設けたりすれば済むのではないでしょうか。
私自身はといいますと、中学校卒業の目前において、自信なく(また面接試験があるのを嫌って)「英検4級」を受けようとして「『3級』を受けなさい、『準2級』でもいいんじゃない? そのくらい受かるでしょ」と英語教諭に促され、面接試験のある級を受けた(※)ところまでは記憶しているのですが、その後、英検を受けることはないまま(面接試験があるのを嫌って)現在に至り、また、「英検2級」以上でないと「特記すべき何か」にはあたらないため、それっきり忘れてしまい、合格したのか不合格だったのかも記憶が定かではございません。
※新検見川駅から徒歩ン分の中学校が面接試験の会場でした。資格試験も含め、試験会場の記憶って、かなり鮮明に覚えているものですね。それだけ緊張するということです、たぶん。それなのに、自分が受けたのが「3級」だったのか「準2級」だったのかは、まったく覚えていないのです。たぶん「3級」だと思うのですが。
その上で申しますと、「話す力」はまったく別物だと感じます。「読む」に限定すれば2級に相当する内容を日常的に読んで(ただし時間はかかります=一次試験だけにも合格できるか微妙です)いますし、辞書を引きながら[3059]を書くことはなんとかできるようなできないような、といったところですが、これを口頭で、その場で話せるか、あるいは原稿があれば話せるかというと、どちらも限りなくできません。(「話す」ことができないということを隠す…いえ、「補う」べく、「読み書き」に特化して学習しているという面もあります。)
●テストのつくりかた 英語など語学のテストについては、どうやって問題をつくるのでしょうか。一般には、新聞記事や書店で売られる本などをランダムにとってきて、そこに出てくる単語の、単語ごとの出てくる回数を調べます(本当に調べるんですよ)。
出てくる回数の多い単語は、確率的には読者の目に触れる回数が増えることとなり、結果として社会においてよく知られた、「やさしい単語」とみなすことができます。その逆の「むずかしい単語」は、単純には、出てくる回数が少ないということで決めることができます。
とはいえ、これは時代によって大きく変わります。また、長い時間をかけてジワジワと変わるばかりでなく、変わるときには一気に変わるものもあります。例えば、「臓器移植」がニュースにならなかった時代には「臓器」という単語は医学部にでも行かないと使う機会がなかった(初等教育では「ここに心臓があります」「こっちは肝臓です」などとはいっても、これらを総称して「臓器」とはいわず、「からだの中をみてみよう!」などといって、一種はぐらかされるわけです=「第一種はぐらかし」と仮に呼んでみます)ところ、「臓器移植」という単語によって「臓器」という単語もまた、「やさしい単語」に(ニュースに出てくる回数だけで判断すれば)なるわけです。
そうした、いわば「惑星」のような変な動きをする単語は、ちょっと例外として、そうした単語を除いた、それなりに安定したところで、テストをつくっていくわけです。
・[3034]
> 自動的には測定(評価)しようがないのでやむを得ず採用する官能評価には、俗に「100人に聞きました」と揶揄される危うさが残ります。どんな100人を呼んでくるか=どんな評価者が評価するかで、結果が大きく変わり得るからです。評価者がどのくらい適切に評価できるのかという「評価者の評価」も、本来は必要です。
> 明らかにそん色のある音声に対して低い評価を下すことはできても、甲乙つけがたいものに対して無理に甲乙つけようとすれば(適切な指示がなければ、評価者は無理にでも差異を検知しようと躍起になるはずです)、その評価は結果としてランダムになります。
> 評価方法そのものの限界として、品質が一定以上である(いわば「平均点」や「及第点」を超えている)ことは保証できても、それ以上の部分でA技術とB技術のどちらがどのくらい優れているかということは測れない(測ることを目的としていない)評価方法といえます。
テストを受ける身になって、話を読み替えてみてください。答えがパッとわからない問題の答え(特に多肢選択の設問で)を、どうやって答案に記入するでしょうか。「鉛筆」を転がして…いえ、ランダムですよねぇ。対して、答えがわかる問題は、悩まずに答えを書くことができ、自分でも自信があろうかと思います。あるいは、カナシイことに、まったくお手上げの問題というのもまた、悩まずに「自分はわからなかった」ということが自信を持ってわかると思います。テストはそれでよく、逆に、「わかっていないのに偶然、正答した」ということがあっては(多発しては)、能力の測定の上でノイズ、測定の誤差として問題になるわけです。
テストをつくるときには、なるべくはっきりと(小さな誤差で)、受検者の能力を測定できることが求められます。いま、もっとも単純なテストをつくるとしますと、うんとむずかしい単語1つを出して、これを知っていますか、意味が分かりますか(漢字なら、読めますか、書けますか)と問うわけです。ただ、そのままでは、うんとむずかしい単語を知らなければ、ただちに「0点」になってしまいますし、うんとむずかしい単語をたくさん知っているわけではないのに、たまたま出題された単語だけは知っていた場合に、いきなり「満点」をとってしまいます。ものすごく誤差の大きいテストですね、わかります。
このため、テストでは1問や2問でなく、それなりに多くの問題を出すのです。また、中間的な理解度の学習者についても、ある程度の分解能(細かさ)で評価できるよう、中間的な単語(1/2)や、その間の単語(1/4や3/4)、もっと間の単語(1/8、3/8、5/8、7/8)を出題していくわけです。
また、(実力の高い受検者から見て、相対的に)やさしい単語をわざわざ出題するのはなぜでしょうか。これも、むずかしい単語を偶然、正答したのではなく、確かに実力があるんだということを確かめるためのものです。
・宝くじ公式サイト(全国自治宝くじ事務協議会)「宝くじ長者白書」
http://www.takarakuji-official.jp/entertainment/report/data/
※厳正に「抽せん」されている限り、いかなる「相関」が出ようとも、すべて偶然です。テストは「逆・宝くじ」ともいえ、理想的にはすべての「相関」がきちんと説明できることが求められます…が、市中(マチナカ)の学校の教員では、そこまでは難しく、文部科学省でも難しく、専門の知見が蓄積された「民間の試験団体」に手伝ってもらおうというのは、たいへん合理的なことです。やはり、活きた大量のサンプル(受検者)に日々鍛えられているということは、たいへん強力です。
●TOEICにまつわる「幻想」を斬ってみる 似たような測定の問題は、英語力を測るとされる民間の試験「TOEIC」でもあります。
・国際ビジネスコミュニケーション協会「TOEIC(R)テストについて」
http://www.toeic.or.jp/toeic/about/result.html
・同「ETSのテスト開発理念」
http://www.toeic.or.jp/toeic/about/what/philosophy/philosophy_03.html
・同「TOEICテストはどのようにつくられるか」
http://www.toeic.or.jp/toeic/about/what/philosophy/philosophy_03/philosophy_03_01.html
> イクエイティング
> ETSがテスト開発で長年培ってきたノウハウが詰まっているのが、「イクエイティング(スコアの同一化)」といえます。TOEICでは、素点で最終評価を下すのではなく、素点を換算点に置き換えて最終的なスコアを算出します。その方法は、新しいテストを作成する際に、以前に実施した問題のごく一部を必ず新しい問題の中に織り込み、スコア算出時に新旧テストを比較し、難易度によってスコアにブレが生じないように調整。スコア基準の不変性を確保しています。したがって受験者は、実力が変わらなければスコアも一定となり、また時系列的に学習到達度を確認することもできます。
・同「PROFICIENCY SCALE」
http://www.toeic.or.jp/library/toeic_data/toeic/pdf/data/proficiency.pdf
> A 860
> B 730
> C 470
> D 220
> E
TOEICテストの開発元であるETS(※)が英語力の差が見分けられることを保証しているのは、上記の5段階だけで、860点以上は何点でも同じ、220点未満は何点でも同じ、ということです。また、同じレンジ(スコアの範囲)の中では、点数の違いがリニアに英語力の優劣を示すわけではない、ということです。これをきちんと理解してTOEICスコアを「利用」できている組織や学校が、どれだけあるでしょうか。
※日本でのナントカ協会は、いわば販売代理店のようなものですから、いかにしてたくさん売るか=受検者を集めるか、に腐心するのが仕事で、開発元のETSとは必ずしも利害が一致しません。このことから、ETSが言っていない(「製品」の設計上、保証していない)ようなことまで、宣伝文句として言ってしまっている面もあり、かなり危うい状況にあります。
以下、少し長いですが転記させていただきます。
> Communicative Proficiency(コミュニケーション能力)とTOEICスコアとの相関について裏付・検証調査(Validity Study)を実施いたしました。
> ただし、このProficiency Scaleは本来、それぞれの状況や、各自の置かれたコミュニケーションの環境を考慮して解釈されるべき性格のものです。ですから、実際のScore Interpretation(スコアの解釈)は、現実に英語力を求められる個人や学校、あるいは企業・団体によって規定されることとなります。
かなり難しいことを言っています。「編集部の者より鉄道に詳しい方」([3017])と似たような問題が起きてきます。結局、上記のいわんとするところがわからず、あるいはわかった上で、自組織では規定しきれないといってさじを投げ、結果としてよくわからないことになってくるわけです。
・同「スコアの目安」
http://www.toeic.or.jp/toeic/about/result.html
> 企業が期待するTOEICスコアとビジネスパーソンの平均スコア
> 「TOEICスコアとできることの目安」は2011年1月の第160回TOEIC公開テストを受験した方を対象に実施したリサーチの結果を元にしています
「企業の期待」だなんて、企業が勝手に示したんだ、そんなもの(※)と潔くいってみたいですが、いえいえ、そこまでは申しません。ただ、ここで注目すべきは「平均スコア」のほうで、「海外部門:657点」ということは、配属されたばかりで四苦八苦している人からベテランまで平均して「657点」だということはありますが、少なくとも配属はされているということから、仮にも海外部門の仕事が務まっているということを示しています(ということにします)。
TOEICの「657点」は、上掲のランクでいえば「C」にあたり、とはいえベテランは「B」で、その助けも得ながら仕事が成り立っているという面もあるでしょう。仕事をする中でも英語力が鍛えられ、やがて「B」になっていれば御の字で、誰でも一定の時間、試験勉強をすれば「B」の英語力が身に着く、というほど単純に伸びるものでもない領域だと思います。そうした観点からは、まるで資格試験のような扱いでTOEICの高いスコアが期待されることは、あまりにも無邪気なことだと感じます。
そもそもTOEICというテスト自体が「平均点」といいますか「ビジネスパーソンとしての及第点」というべき一定のレベルの英語力の有無という2値的な(バイナリの)判定を目的としており、その2値の判定の確からしさ(尤度)を示しているのがTOEICの「スコア」といえます。800点が400点の「2倍」優れている、というわけでは、決してないのです。
・同「スコアの目安」
> CEFRはヨーロッパで作成された外国語学習者の習熟度レベルを示すガイドラインとして、欧米で幅広く導入されてきています。A1〜C2までの6段階の言語力レベルのうち、TOEICプログラムでは、おおよそA1〜C1程度の英語力を測定できます。
TOEICでは「C2」は測定できませんと明示しています。これは重要です。
・ETS「Mapping the TOEIC(R) and TOEIC Bridge(TM) Tests on the Common European Framework of Reference for Languages」
http://www.ets.org/s/toeic/pdf/toeic_cef_mapping_flyer.pdf
> The CEFR describes language proficiency in listening, reading, speaking and writing on a six-level scale:
> A1 – A2 (Basic User)
> B1 – B2 (Independent User)
> C1 – C2 (Proficient User)
> For this study, the panel consisted of 22 experts (English-language instructors, administrators or directors of language programs and language testing experts) from 10 different European countries.
(欧州の10か国から集めた)「22人に聞きました」という報告書です。わずか22名ですし、通常の受験者からの無作為抽出というわけでもなく、「語学講師、管理職、語学教育や語学試験の専門家」という顔ぶれからは、限りなく身内っぽい雰囲気が濃いように感じられます。(感想は個人です。)
・NHK出版「CEFRとは」
http://eigoryoku.nhk-book.co.jp/cefr.html
> C2:ほぼすべての話題を容易に理解し、その内容を論理的に再構成して、ごく細かいニュアンスまで表現できる
> C1:広範で複雑な話題を理解して、目的に合った適切な言葉を使い、論理的な主張や議論を組み立てることができる
TOEICでは、CEFRの「C2」は測定できません。TOEICにおいて「A」となっても、CEFRの「C1」しか保証されないのです。いくらTOEICが満点でも、それはTOEICの「A」であることの確からしさ(尤度)が100%であるという、それだけのことなのです。ちょっと(かなり)ウラヤマシイことでもありますが(本人にとっては測定できないというのはたいへん困ることだとも思われますが)、いわゆる「浮きこぼれ」ですね。
●「書く」にも「聞く」が必要?
・筑波技術大学「筑波技術短期大学聴覚部学生の英語統語能力」筑波技術短期大学テクノレポート Vol.1(1994年5月2日)
http://www.tsukuba-tech.ac.jp/repo/dspace/bitstream/10460/231/1/Tec01_0_18.pdf
> 聴覚部の英語指導のレベル設定を定量的に把握するために英語統語能力検査を行った。その結果,聴覚障害学生群の平均得点は健聴中学3年生1学期群の得点にも及ばず,聾学校出身で英語II未履習群は,健聴中学3年生1学期の約70%程度の得点であることが示された。また,英語II履習群は健聴中学3年次2学期終了程度の得点であることが推測された。
> 現在,県立聾学校高等部普通科の多くは英語Iまでしか授業を開設しておらず,生徒の勉学意欲とは無関係に,それ以上のレベルを学習する機会に恵まれていない状況にある。また,その内容は健聴の高校の英語Iには達しておらず,中学の英語に留まっている。聾学校職業科では英語を代替科目にしており,英語の学習は高校1年次しか行っていない。一方,普通校出身者の大半は英語IIcまで履習しているが,読みと会話中心の授業について行けず,受験英語になじめず,定期試験前に友人からノートを借りて範囲を勉強するだけだと言う。
> このように能力差,履習条件に差異が見られ,このことが本学の英語指導のレベル設定を困難にしている。
> キグレーらが開発した統語能力検査を用いた。
> 言語的学習に制約を持つ聴覚障害者の場合,国語以外の書記言語を更に習得するのはその人の国語力に大きく依存していることは容易に想像できよう。
> 図1 学力レベルからみた発達類型の想定図(都築,1993)
おもしろい、といっては語弊があるように受け取られるかもしれませんが、これは論文(紀要ですが論文に違いなく)ですから、論文としておもしろいということです。
しかし、査読がなく、著者自身のチェックも不十分だったのか、図2と図3の説明がどこにもありません。
> 図2 言語力の分Wi「想定図
> 図3 英語力の分布想定図
※「分Wi「想定図」は「分布想定図」のOCRミスですね。冊子からページをスキャンする際に、ちょうど文字間にゴミが、ということのようです。原稿台(スキャナーのガラス面)はキレイにしておきましょう。
言語には、文章を「書く」場合であってもかなり、音声に依存する部分があり、確かに私が[3059]を書くに際しても、字面の上での並びの良さばかりでなく、「音」としてのつながりやリズムの良さも(わからないなりに)考慮して書いているなぁ、と実感されます。
英語の授業で、やたら「音読」させられるのが苦痛な(<過去形で>苦痛だった)方も多いと思いますが、正確な発音ができるかどうか、ということとはまったく別に、英語としてのリズム感といいますか、自然さのようなものを体得することが、「読む」(関係代名詞節などの区切りを、それこそ「関係代名詞節だから、えーっと…」などと「日本語」(の文法用語)を使って考えるまでもなく、自然にわかる)にも「書く」にも活きてくることだったのだと、後からジワリジワリとわかってきます。
●「読む」「書く」と「話す」の関係 ということからは、「読む」「書く」の能力を測れば、それなりに「聞く」の能力も測れていることになりつつ、また「読む」「書く」の測定をより確実にするために「聞く」の測定(リスニングテスト)を加えるのだともいえます。
ここまでしても、なお浮いているのが「話す」ことで、これはどうにも別格なことだと思われます。「健聴」であっても、ネイティブの発音が正確に(知覚のレベルで)聞き取れるとは限らず(到底、思えず=主観で恐縮ですが)、「聞き取れる」という人はその実、認知のレベルで補正(文脈から判断して単語を選択し、脳としては一種「後付け」で聞き取れたと思い込んでいる=「第二種はぐらかし」とでも呼びましょうか)しているんではないでしょうか。私はそこまで聞き取れませんので実感はありませんが、我こそはという方、いらっしゃいませんでしょうか。
正確な発音ができるかどうかということと、コミュニケーションを成立させられるかということは、これも別のことだといえます。フィリピンやマレーシアの人の英語を聞いたことがありますが、なんか、妙に聞き取りやすいんです。ああ、これでいいんだと、ホッとするような何かも感じられます。
「50%」に「話す」をも期待するとあっては、何かフィリピンやマレーシアのような何か、生活の中でよほど英語があふれているか、母語の発音の範囲内で無理なく発音して、発音のまずさから誤解されそうな単語を回避していくような、何か戦略的なものを入れていかないと、ダメなんではないでしょうか。(あくまで感想は個人です。)
|