・機械翻訳の高電社
(約5000字)
[3186]の続報です。(方向性はちょっと異なりますが目的の似たソレとして)九州では「実証実験」が、既に(1月から)始められていたということです。
・「東芝インダストリアルICTソリューション社、JR九州博多駅でRECAIUS実証実験 」(2016年3月14日)
http://biz.bcnranking.jp/article/news/1603/160314_141710.html
> 3月11日、(略)の実証実験を実施していることを発表した。
> RECAIUSを用いた混雑緩和のサービス
> JR Kyushu Rail Pass専用窓口に設置したカメラを利用して、デジタルサイネージの利用状況や、JR Kyushu Rail Pass窓口の混雑状況を把握し、RECAIUS人物ファインダで収集したデータ(属性情報や滞留時間)の分析・活用を検討していく。
・東芝 インダストリアルICTソリューション社「JR九州 博多駅での訪日外国人向けRECAIUS実証実験の実施について」(2016年3月11日)
https://www.toshiba.co.jp/cl/news/news201603_02.htm
> 本実証実験は1月下旬から開始し3月末まで行われる予定です。
> 4.RECAIUS人物ファインダによる窓口の混雑度把握
> 「JR Kyushu Rail Pass」専用窓口に設置したカメラを利用して、デジタルサイネージの利用状況や、「JR Kyushu Rail Pass」窓口の混雑状況を把握し、RECAIUS人物ファインダで収集したデータの分析による活用を検討していきます。
それ以外の目的には使いませんという一種『確やく!』が欲しいと思われるほうのかたもあられそうに思えました。実証実験で取得した映像データを、いかなる範囲の、いかなる権限の人が閲覧したり利用したりできることとするのか、いくら「実証実験」と(当事者が)称していても、外形的には「防犯カメラ」のソレと同等の厳格な扱いがなされることが素朴には期待されているとみられます。(あくまで素朴です。)プレスリリースの文面だけでは、どのくらい厳密なのかが伝わってきません。
・東芝 インダストリアルICTソリューション社「RECAIUS 同時通訳」
https://www.toshiba.co.jp/cl/pro/recaius/lineup/interpreting.html
> RECAIUS 同時通訳なら、文の長さを気にせず発話
> (図より)
> この近くはまだ
> 回ってないけど
> うーん
> あんまり歩きたく
> ないんで
> バスツアーが良いけど
> 何かありますか?
> どんどん翻訳するので
> いつも通りにしゃべるだけ
> 日英/英日、日中/中日、日韓の4か国語に対応
「韓日」には対応していないとのことです。確かに難しそうです。(あくまで想像です。特に、話者の言語の自動識別などしようとすれば、日本語と混乱しそうな気がしてきます。本当でしょうか。)
・東芝 インダストリアルICTソリューション社「RECAIUS 人物ファインダ」
https://www.toshiba.co.jp/cl/pro/recaius/lineup/finder.html
> カメラ映像を通して、人々のさまざまな情報を取得。人物の属性(年代・性別)認識や顔照合、行動分析や混雑度の測定結果を、マーケティングや安全対策に活用できます。
大阪駅でもアレでしたが、いつの間に博多駅で実験なさっていたんですかと、ちょっと驚きました。そして、なるほど、3月11日に発表すればニュースにならないんですね、わかります(略)…などと、やだなぁ、背中のネジのほうなど気にしながら棒読みしてみようと思ってしまったじゃないですかぁ、と「素」でいってみます。(恐縮ですが外形的には事実です。)
技術そのものはたいへんおもしろく、うまく使えばきわめて有用だろうと主観的に決めつけます。(あくまで個人は主観です。)プレスリリースではそれなりに、目的や方法をきちんと説明されていて、少なくとも職場や研究室で「機械学習!(キリッ」というソレが飛び交うのがあたりまえという状況にあられるかたでありさえすれば、それなりに理解して「理解を示す」反応をされるだろうと予想しますが、いえいえいえ、まだ世の中はそこまで技術を読み解ける(人が多い)状況にはないと心配されます。
もっとも、「緊急時に使える」ということを本気で(鉄道事業者が)打ち出されるのであれば、ローカルで(端末の)バッテリーが持つ限り使えるようなソレ(Wi-Fi、構内LAN、一般的なバックボーン回線[2936]、それに大手町[3173]のいずれかがダウンしても使える、の意)が実現されないとアテにならないと判断されそうだと見受けられました。本当でしょうか。
☆機械翻訳の高電社
上掲の例文(自然な日本語の発話:このフォーラムでいう『日常日本語会話』[3103])を使って(恐縮です)、試しにエキサイト先生してみました。(中身は「高電社さん」であることが知られています。)
・(A)改行位置も図の通りでエキサイト先生に聞く
> This neighborhood is unready.
> I'm not going around.
> Umm
> It remains and I'd like to walk.
> By not having that.
> I'd like a bus tour.
> Is there something?
・(A)の『超訳!』
> (ボランティアのガイドさんが)頼りにならないよ。(もういいよ! 自分で歩くよ!)
> ソレ(『余りある余力』のようなもの)が余っているので歩くよ! どんどん歩くよ!
> (いまは)アレ持ってないんで。(だから歩けないよ。)
> (どんどん歩くよ! といったのに)バスツアーがいいな。うん。わあぃバスツアー。
> それ、その、なんとかいうの、ある?
・(B)改行をいじっての同
> I have not gone around near here yet.
> Umm
> The one I don't want to walk so much is fine for a bus tour.
> Is there something?
・(B)の『超訳!』
> こんなとこ来ようとも思わなかったわ。
> あたしがたくさん歩くのキライってこと知ってるでしょ。バスツアーにしてあげる。感謝しなさいよね!
> それ、その、なんとかいうの! あるならよこしなさいよ!
・(C)東芝 インダストリアルICTソリューション社
> (図より)
> I have not gone around.
> I would rather not walk so much.
> I prefer a bus tour or something.
> Do you have anything?
うーん。あくまで高電社さんもしくはほとんど同じ機械翻訳のソレがコアになっていると仮定して、リバースっぽい何か的なものを試してみます。(マコトにイカンです。)
・「まだ回ってない」→「I have not gone around yet.」
・「あんまり歩きたくない」→「I don't want to walk so much.」
・「I prefer a bus tour or something.」→「私はバスツアーまたは何かを好む。」
・「ありますか」→「Do you have that?」
※エキサイト先生越しでは、このようなきわめて短い日本語の文に対し、このような英訳が出力されます。(1字1句、原文ママ。3つ目のみ「英→日」です。)短く切れば切るほど、高電社さん辞書の「お決まりの(英語で自然っぽい)フレーズ(collocationのようなもの)」をそのまま引いている感じ(高電社さんシステム上で、日本語1フレーズ=「見出し語1つ!」に英語1フレーズ=「対訳1つ!」が対応する、文の構造をまったく解析しないかのような、の意)が高まってまいります。(あくまで印象です。)ひそかに「電子辞書もーどっ!(感動はワンフレーズっ!)」と呼んで活用している人、いませんか?
きわめて機械的には、以下のような「しょ理!」が想像されて…きませんか。
・主語にならない「○○は」(「この近くは」)をバッサリ切り捨てている?
・翻訳結果から「yet」を削る。
・「don't」を禁止(除外)すると「Nベスト」的に「would」があがってくる。(比ゆ的には「丁寧に翻訳!」オプションにチェックマークをつけるようなソレ。)
・「良い」とくれば、遡って先頭に「私は」を補う?
・名詞deかぼちゃファインダー…いえ、名詞の並列関係を別口で追っている?(「or something」が出てくるのは『秀逸』だと思われました、の意。)
・(きわめて短い文を入れると)翻訳結果のクセとして「that」とか「it」と出るのを、適当に(とはいえ複雑で網羅的な)パターンマッチで「anything」などに置き換えている?
・「何か」を前の文にも後の文にも、両方に含めて、それぞれ翻訳に渡している?(ウィンドウ的なものがスライドしていく?)
とはいえ、どこで切るか(「翻訳単位を自動判別して翻訳」「意味のまとまりを検知」)について、それなりに「利用シーン」を(かなり)限っての「膨だい」なコーパスを用意して「がく習!」(※)させているんだとしますと、このシステムを例えば理系のポスターのソレ([3093]など)に持ってきたとして、全然ちっともまったく役立たずということもあるかもしれないと思われてきそうです。あるいは、外国の大学院生([3181])が『温泉アイランド!』について理系の(地学や化学などの)用語混じりで理路整然と質問したとすると(「翻訳単位」と称する細分化処理がかえってじゃまになって:そのまま訳せば正しく訳せるのをかえってダメにして、の意)お手上げだという…もっと本当でしょうか。(『要出典!』、の意。)
※素朴には、(品詞の境界の)あらゆる部分で切ってみたのを(翻訳に渡す前の段階で)、「意味のまとまり」らしさ(尤度)が云々といって、そこを「学しゅう」しているのかなぁ、と想像されました。(あくまで勝手な想像です。)
論文もしくは技報が出ていないか、後から探してみます。
・高電社「Myサイト翻訳 導入実績」
http://www.kodensha.jp/web/casestudy/#case_business
> 大阪ステーションシティ様
> 英語・中国語・韓国語
※事実上『オンリーワンにして「孤こう」!』ではなかろうかと思っています。高電社さんとしては豊富で多彩な辞書をメンテナンスされているのに、フロントエンドの実装がアレで(≒駅では『日常***語会話』しか発話されないと勝手に決めつけて)本領が発揮できない(辞書の自動使い分けがうまくいかない)というのはモッタイナイことだと感じます。
・「yet」
http://ejje.weblio.jp/content/yet
・「unready」
http://ejje.weblio.jp/content/unready
|