|
(約5000字)
[3033]の続きです。
・[3033]
> しかし、(技術的には)残念です。
というわけで、改めて音声合成技術の動向をアップデートしておきたく思います。
・アルカディア(大阪府箕面市)「音声合成 SpeeCAN(スピーキャン)」
http://www.arcadia.co.jp/technologies/speecan
> アナウンサーと遜色の無い音声が評価されて、構内アナウンスや施設案内で利用されています。
> 大量の音声を短時間で準備できる制作体制や不快感を与えない音声が評価されて、館内放送で利用されています。
> アルカディアでは「肖声権」という考え方を提唱しております。「肖声権」とは、音声における肖像権のような権利です。コーパスベースの音声合成を行う場合には、声優やナレーターの協力が不可欠です。声優やナレーターの権利保護と音声合成技術の普及の為にご理解とご協力をお願いいたします。
立地からして、とある総合電器メーカーのグループと関係があったりするのでしょうか。あるいは、あえて系列に縛られず取引したいということなのでしょうか。いずれにしても、単に売れればよいということでなく、立場によってはあまり触れたくない(かもしれない)「肖声権」という微妙な問題([2942]も参照)をきちんと取り上げているのは好感が持てます。「音声合成でコストダウン」は、ナレーターの仕事を奪う面もあるのです。
だからといって技術開発にブレーキがかかる(比ゆ的な意味で)のは避けたいことです。将来的にロボットなどで、リアルタイムに適応的な発話が必要となる場面では、どうやってもナレーターではなく音声合成のソフトウェアが必要になります。ロボット以前の状況下でも、音声ガイド機能などの需要が増えれば増えるほど、どうやってもナレーターが足りない、追い付かない、その一方でコストダウンが要求されるという「ブラック」な何かになってしまいかねません。そのような「面倒な録音」では、むしろナレーターの分身として、ソフトウェアが代役をしてくれれば、ナレーターにとっても利益になります。そうしたこといっさいもろもろを考えることなく、一面だけを見て「人がいちばん(機械はケシカラン)」あるいは「人が足りないならぜんぶ機械にしてしまへ〜」(上から鉛筆)などということは、どちらもあってはならないことに思えます。
・「自然な対話を実現する合成音声デザインの一考察」(2011年)
http://www.interaction-ipsj.org/archives/paper2011/interactive/0179/1LNG-3.pdf
・アルカディア「活動事例 日本電信電話株式会社 NTTコミュニケーション科学基礎研究所」(2012年11月20日)
http://www.acousticcore.com/?p=16
> 言語認知情報処理オープンラボでは、膨大な量の幼児の音声サンプルをデータベース化し、親子のコミュニケーションと幼児の言語獲得の研究を行っています。
> 音声データベース検索システムと連携し、音声波形に加え基本周波数やラベルなどの付加情報を閲覧するためにAcousticCoreが利用されています。
音声合成技術の開発のために作られた分析ツールやデータベースシステムが、ほかの研究や開発にも役立っているということですね。むやみに競争するばかりでなく「お互いさま」という面が、研究開発にはあります。
傍題ですが、研究や開発は研究者や技術者だけによって完成するものではなく、評価者や実験協力者という形で、広く一般の多くの人々によって支えられています。いろいろなところがそれぞれに、実にいろいろな研究内容で協力者を募っているかと思います。ご興味がありましたら、一度、何かの研究に協力してみると、研究というものがよくわかるかと思います。
・アニモ「導入事例 保線システムおける音声自動応答案内」
http://www.animo.co.jp/case/2581.html
> 某鉄道会社 様
> 日々の保線業務において利用される音声自動応答システムにて音声読上げを実施。
> ナレータ音声収録の費用ならびに収録期間に依存しないシステムの構築を実現。
・同
http://www.animo.co.jp/company/company
> アニモは自社開発の最先端音声技術を駆使してお客様のニーズに最適なシステムを構築します
> 株式会社アニモは富士通株式会社のベンチャー第一号企業として1994年8月に創業いたしました。
アルカディアさんに戻りまして、合成音声のサンプルを聴いてみましょう。
・アルカディア「音声サンプル」
http://arcadia.co.jp/SpeeCAN/sample.html
・同「導入事例」
http://arcadia.co.jp/SpeeCAN/donyu.html
消防などのサンプルもありますが、ここは迷わず「まもなく/1番線に/南東京行きの/電車が/まいります」のサンプルを聴きますと、ATOSの初期の音声における「トーキョー」の長音、「電車が」の発音と酷似(※)しています。技術的には非常に近いところに同一のルーツがあるのではないか(同じ時期に音声合成の研究開発をしていれば、会社が違っても似たようなアプローチをしていた:研究のコミュニティとしてはひとつ:出身の大学研究室が同じであるとか、師匠=指導教員が同じであるとか、指導教員の指導教員が同じであるといったことは往々にしてあるものです)と感じさせられます。
※合成の素となるナレーターの録音音声(コーパス)が別人のものであるので、できあがった合成音声としても「声紋」(合成音声に対して声紋と呼んでいいのかわかりませんが)は異なりますが、それ以外の特徴がことごとく似ている、ということを「酷似」と仮に表現します。
初期のATOSでは「1番」と「線」が分かれていたため比較できませんが、「まもなく」の一音一音に力が入った感じ(音素間のつなぎ方が強引で波打つような感じ)も酷似しています。逆に、その後にATOSで使用されるようになった「1番線に」という音声のフニャフニャな感じとは似ても似つかず、このあたりからATOSに追加された音声は既に合成音声ではなく肉声の録音だったのかもしれません。ちょっと(かなり)がっかりです。
・[2481]
> 「快速」「中央特快」「トーキョー」「オーメ」…
合成音声の品質は自動的には評価のしようがなく、最終的には人が評価(官能評価:耳で聞いて)するしかありません。お客さまとして聞いた時にも、聞いて頭の中できちんと漢字かな混じりで想起できるか、あるいはよくわからない「音」としてしか聞こえないか、というところで、それなりに「官能評価のようなもの」ができます。その結果、私としては「トーキョー」「オーメ」という「音」にしか聞こえませんでした、というのが、このサイトやフォーラムで、一部の音声についてカタカナ表記としている趣旨です。
・「生涯学習施設の館内放送はどうあるべきか:聴覚実験による肉声と人工合成音声の聞きやすさの比較」兵庫県立大学(2014年)
http://www.hitohaku.jp/publication/r-bulletin/No25_02.pdf
> くんくんくん おいしそう
> 赤とんぼ
> あなたのことが だーいすき
> ねずみの嫁入り
> おもちゃのマーチ
> あなたのことが だーいすき(音声のみ)
> あなたのことが だーいすき(音声+漢字かな混じり文と絵)
> あなたのことが だーいすき(音声+ひらがなと絵)
> (この実験は,疲れましたか?)
提示モード(音声と、文字や絵)の違いも組み合わせて実験しているんですね。たいへん網羅的だと思います。同じことを駅でもやってみたいですね。どこかのフロンティアなところで既に着手されているとよいのですが、まだであれば、工学や心理学の我こそはというみなさん、卒論や修論でやってみるとよいかもです。
・富士通研究所「プロのナレーションに迫る高品質な音声合成を実現」(2009年7月27日)
http://pr.fujitsu.com/jp/news/2009/07/27.html#footnote2
> 本技術による合成音声は、音声品質の評価方法であるCMOS評価(注2)において、プロのナレーションの品質に迫る高いスコアを達成しました。
> 注2 CMOS (Comparison Mean Opinion Score):
> ITU-T勧告P.800 Annex Eで規定されている音声品質評価方法の国際標準。評価対象音声を評価基準となる音声と聞き比べてマイナス3〜プラス3の7段階の点数で評価し、複数の評価者の評価点を平均して算出する。主に、音声通信における受聴品質の評価に使われる。
・NTT「3.音声品質の主観評価法」
http://www.ntt.co.jp/qos/technology/sound/03_3.html
> CMOS評価も、DMOS評価と同様に、レファレンス音声と評価対象音声を受聴し、2つの音声を比較して評価します。DMOS評価と異なる点は、2つの音声の順番がランダムに変化し、どちらが評価対象音声であるかは評価者に知らせないことです。評価者は最初の音声に比べ後の音声をどのように感じたかを、比較範疇尺度法(CCR: Comparison Category Rating)を用いて評価されます。
自動的には測定(評価)しようがないのでやむを得ず採用する官能評価には、俗に「100人に聞きました」と揶揄される危うさが残ります。どんな100人を呼んでくるか=どんな評価者が評価するかで、結果が大きく変わり得るからです。評価者がどのくらい適切に評価できるのかという「評価者の評価」も、本来は必要です。
明らかにそん色のある音声に対して低い評価を下すことはできても、甲乙つけがたいものに対して無理に甲乙つけようとすれば(適切な指示がなければ、評価者は無理にでも差異を検知しようと躍起になるはずです)、その評価は結果としてランダムになります。
評価方法そのものの限界として、品質が一定以上である(いわば「平均点」や「及第点」を超えている)ことは保証できても、それ以上の部分でA技術とB技術のどちらがどのくらい優れているかということは測れない(測ることを目的としていない)評価方法といえます。
・「合成音声の音質評価のための主観評価項目の抽出」(1987年8月)
http://www.jstage.jst.go.jp/article/jje1965/24/6/24_6_387/_pdf
> 従来行われてきた汎用的な音声合成システムの研究・開発では,明瞭性,了解度の次の問題として,人間に近い,より自然な音声の合成を目標としている.
> "人の声に近い"というのではあまりに漠然としていて,適切で一般的な評価の方法を定めにくい.そうしたなかで,今回の実験結果で"透明感"や"やわらかさ"などといった具体的な評価指標を明らかにできたことは有意義と考えられる.
こうした主観的な評価項目の取り扱いが確立していないようで、やむを得ず「CMOS評価」でお茶を濁しているという面もあるのでしょうか。
将来的には、合成音声で「対話」するロボットに子守りをさせると、子どもの発音が合成音声を忠実に模写した発音になってしまいかねないという懸念もあります。自分が聞いたようにしか、自分でも発音できないのです。これは外国語の学習でも同じですね。また、あまりに合成音声ばかりを聴いていると、かえって肉声が聞き取りづらく(聴覚でなく認知のレベルで、相手が言っている内容が頭の中で言語化しにくく)なるなどの悪影響がないとも限りません。そうした安全面での検討は、まだ始まってはいないのでしょうか。
・科学技術振興機構(JST)/社会技術研究開発センター(RISTEX)「「音声言語知覚機構の解明と英語教育法への展開」研究実施終了報告書」
http://www.ristex.jp/examin/brain/program/pdf/H16.03_koyama_houkokusyo.pdf
| |