フォーラム - neorail.jp R16

【自由研究】の話題

 → 茨城県内で必要な「主論文・野帳・掲示物」とは? 【詳細】(2017/10/19) NEW!
 → 【自由研究】の記事一覧(新着順)


【研究ホワイトボックス】

研究を楽しく「追体験」! 真っ白のキャンバスに虹色の未来を描く方法、教えます。
R with Excel prcomp | kmeans・hclust | rpart | ggvoronoi | spantree | lm NEW!


Googleの「AIによる概要」で誤った内容が表示される事象について


発行:2017/5/10
更新:2017/12/8

[3471]

【ITU】あえて問おうMP3とやらを。【PEAQ客観音質測定法あり】

実装 SPSS 読解問題 ADPCM 最尤法 ビットレート オー 符号化 PCM


(約9000字)

 好むと好まざるとを問わず問おう! 圧倒的にMP3じゃないかっ。(棒読み)

[3456]
 > レコードこそが正式な音程であって、もっともらしい「市販の楽譜!」なんて、まったく信用ならんといって、レコードの音をFFTするんですよ。ええ。

[3269]
 > ワタクシ、MP3はキライです。サンプリングが粗くてギスギスな音にはなろうとも、ADPCMのほうが好ましい音を再生できると感じます。(恐縮ですが、こう、比ゆ的に視覚的には、音声にブロックノイズが盛大に出ているような感じなんですよね。ええ。意味不明ですね、わかります! 『音声信号にブロックノイズ!』のようすを可視化したり定量的に示せないと、わかってもらえないです。)

 > MP3でも、▼分割の境界に生じるノイズ(にじみやズレ)、▼急峻な変化に追随できず生じるノイズ(もたつきやズレ)が生じているはずです。そのようすを直感的に可視化することができそうになく、JPEGになぞらえて理解(曲解)するしかなさそうです。

 ちょうどインプレスさんがそういう記事を出されているようですよ。えー、どれどれ?

・インプレスさん「MP3ファイルを作るエンコーダは進化した? 昔と今のiTunesで比較検証」(2017年5月8日)
 http://av.watch.impress.co.jp/docs/series/dal/1058250.html

 > 「MP3のエンコーダが進化した」なんて発想がなかったので、チェックしていなかったのだが、確かにそれから16年も経過しているので、改めて試してみたい。
 > いつも利用させてもらっているフリーウェア、WaveSpectraで解析してみる

 > 聴いてすぐに分かるほどの違いがあるのか、
 > 周波数分析をかけて違いが見えるのだろうか?

 > 考えてみればMP3エンコーダ性能の年代による比較はしたことがなかった。

 FFTで見える違いと、FFTでは見えない違いがあって、FFTのほかにも分析方法を駆使しないとわからないのではないでしょうか&草々。

・「高速リアルタイム スペクトラムアナライザー WaveSpectra」
 http://efu.jp.net/soft/ws/ws.html

 > 測定機能としては、ピークホールド波形、平均波形、リードアウト、オーバーレイ(ロード、セーブ、Excel等へのエクスポート)、THD(+N)、S/N、RMS などがあり、その他、Spectrum 3D表示や、Waveリサジュー(X-Y)表示、レベルメーター表示もできます。

 > WaveSpectraを用いた周波数特性の測定と、歪率の測定についての注意点などです。
 > ヘルプに書いてあるもののコピーですが、読んで頂けないのか(涙)よく質問のメールを頂くのでここに掲載しておきます。

 えーっ…。

・「‎Praat入門‎」
 https://sites.google.com/site/utsakr/Home/praat/install

 > 既に他の音響分析ソフトを扱った経験がある人は,Praatが多くの面でそれらのソフトと異なっていることに注意する必要があります。例えば,FFTやLPCといった分析を行う方法は,他のソフトとは異なります(が,もちろんPraatでもできます)。Praatを使っていて,なぜこんなにめんどくさい手順をふまないといけないんだろうと思うこともあるかもしれません。しかし実は,そうした手順は,スクリプトを書くときにやりやすいように出来ているのです。(そういう意味では,スクリプトを使いこなせるようになってはじめて,Praatの便利さを実感できると言えるでしょう。)

※Excelを使ってきた人から見たgnuplot、ひいてはSPSSを使ってきた人から見たRのイメージみたいなものでしょうか。わあぃCUI! CUI!([3225],[3336]

・(学部生の発表です)「歪み音からの原音の復元のための音響分析」(2010年)
 https://www.ieice.org/tokyo/gakusei/kenkyuu/15/pdf/132.pdf

・う!「LPC」⇒「赤池情報量規準」⇒「劣化した音質の補完」
 https://ja.wikipedia.org/wiki/%E7%B7%9A%E5%BD%A2%E4%BA%88%E6%B8%AC%E7%AC%A6%E5%8F%B7
 https://ja.wikipedia.org/wiki/%E8%B5%A4%E6%B1%A0%E6%83%85%E5%A0%B1%E9%87%8F%E8%A6%8F%E6%BA%96
 https://ja.wikipedia.org/wiki/%E9%9F%B3%E5%A3%B0%E5%9C%A7%E7%B8%AE#.E5.8A.A3.E5.8C.96.E3.81.97.E3.81.9F.E9.9F.B3.E8.B3.AA.E3.81.AE.E8.A3.9C.E5.AE.8C

 > LPC の先駆けとなったのは1966年、電電公社の斉藤収三と板倉文忠が行った、最尤法を使った自動音素識別法による音声符号化であった。
 > 低ビットレートで高品位音声を符号化することができ

 予測に基づく間引き的なソレがうまくいったかどうか(符号化後の音声が、元の音声をどのくらい保っているか)を確かめる、逆方向からの何か的な分析をしたいという要求だと思いました。

 > 失われた高周波数音域を擬似的に復元する手法で、原音の通りに復元することは不可能だが、それに近い波形を再現することができる。しかし品質の低い圧縮で耳障りなノイズが付加された場合などにはほとんど効果がない。

 そういうおおざっぱな話ではなくてですね(略)「原音」が原形をとどめないほどひしゃげた音声ではあっても「ノイズが付加」されているわけではないと思いますよ。それに(大巾に略)…うーん。いつ誰が開発したという類の記述は確からしく見受けますけど、技術面の記述はかなりぐだぐだっぽいかもですよ。…ギクッ。他人のことはいえないなぁ。(棒読み)

・(個人のブログ)「320kbpsでもCDと全然違う」
 http://prog.blog4.fc2.com/blog-entry-64.html

 > 「320kbpsでもCDと全然違う」という意見もありますので実際の所どれだけ違うのか比較してみました。

 おおー!(略)

 > 64kbpsとの差分:はっきりと元の曲が分かる程の差分になりました。
 > 192kbpsとの差分:128kbpsよりは「シャカ♪シャカ♪」音が小さいです。
 > 320kbpsとの差分:192kbpsとほとんど同じでした。

 64kbpsなんて、そんなの、セミの抜け殻みたいなものですよっ。(※個人の偏見です!)

 > 128kbpsでは思いのほか音が削られてしまうようですので、これからは192kbpsでエンコードしていこうと思います。
 > 320kbpsと192kbpsの差は「ほとんど同じ」というより私には違いが分かりませんでした。ただ、小さい音ですが明らかに消えていますので「CDと全然違う」と感じ取れる人がいても不思議ではないですね。

 デスヨネ〜。根本的にMP3なんだからといってあきらめれば192kbpsでよくて、320kbpsにする積極的な理由はないという認識でございます。このサイトの動画では、音声はAAC(=後述)でモノラル44.1kHzの40kbps(映像と合わせて300kbps)に設定してございます([3082])。

※きちんとしたステレオ録音ができているわけでもないのですから、ええい、モノーラルにしてしまへっ。…やーいモノーラル。(棒読み)

・このサイト「音声はAAC(=後述)でモノラル44.1kHzの40kbps(映像と合わせて300kbps)に設定」付近
 http://atos.neorail.jp/atos2/future/haijima.html

 ページの中で写真に見えるかもしれないですけど、動画が貼ってあるのですよ@なんてこったい! これでいいんだと気づくまでに時間のかかったことよのう。(棒読み)

・「モノーラル」
 https://kotobank.jp/word/%E3%83%A2%E3%83%8E%E3%83%BC%E3%83%A9%E3%83%AB-646230

 再びインプレスさんです。

 > 曲はいつもリニアPCMレコーダのテストで使っている***の***から抜き出した約45秒のWAV。

 そちらの目的には好適な楽曲でも、今回のテストにそもそも楽曲を使っていいのかは、よく考えないとですよ。

 > ビットレートをどうしようかと思ったが、2001年の連載時にも標準ビットレートとして扱っていた128kbpsに設定した上で変換してみた。せっかくなので、iTunesがおすすめする192kbpsでもMP3変換するとともに、AACエンコーダでも128kbpsで試すという、計3種類の形式でエンコードを行なった。

 32kbpsや64kbpsなどを設定して、エンコーダをいじめつくすのがテストというものではないのでしょうかねぇ。そして、漫然とてきとーな楽曲をエンコードしても、まったくテストになりませんよねぇ。

・単調な単音が途中でいきなり別の単音に切り替わるような音声とか
・ひたすらシンバルの余韻と残響が繰り返されるような音声とか

 前者は、画像でいうエッジににじみが出ないかどうか、映像でいうもたつきが出ないかどうかというテスト、後者は、画像でいうグラデーションの階調の再現性にあたるソレのテスト…みたいなのをしたいと思うんですけど、こういう音声でよろしかったでしょうか&そこからですかっ。(※恐縮です!)

 ビットレートについては、デジタルカメラでいう感度の設定とノイズの少なさを見ていくレビューと同じ考えですね、わかります! 128kbpsでは大差なくても、より高性能なエンコーダでは、よりビットレートを下げても、大きな破たんなくエンコードできますよ的な「下限!」が下がってきているとか、そういうことがあったりしないでしょうか&本当でしょうか。

・あえてホワイトノイズとか

 平坦で特徴が何もない音声なのに、エンコーダが余計なことをしてくれちゃったりすると、ありもしない音がブツっとかボンとかキーンとかいって出てしまうとか、そういうことってありません?

・NTT(持ち株)「メディアレイヤモデル」
 http://www.ntt.co.jp/qos/technology/sound/04_2.html

 > SNRは信号のレベルと雑音(元の音声との差分)のレベルとの比を表します。この値は波形符号化モデルの主観品質には比較的良く対応するのですが、スペクトル符号化やCELP符号化などの評価においては主観品質を低く推定する傾向がありました。

 > 80年代になると、波形歪みよりもスペクトル歪みに着目した客観品質評価モデルが数多く提案されるようになり、これらのモデルを比較検討した結果、1998年にITU-T勧告P.861 PSQM (Perceptual Speech Quality Measure) が標準化されました。

 …VoIPって、たいへんですねぇ&そっちですかっ。(恐縮です。)

・NTTアドバンステクノロジ「マルチメディア主観品質評価サービス」
 http://www.ntt-at.co.jp/product/multimedia/

 > 国際電気通信連合(ITU)で標準化された評価試験法や試験環境設備でのマルチメディア評価サービス。

 > 映像/音声品質評価試験法
 > ITU-T(電気通信国際標準化の委員会)に準拠した音声品質試験法

 なお、電話向けと放送向けでは要件が異なるというような、そこまで専門的な事項等はわかりかねますので、あしからず。

・「低ビットレート符号化音の客観音質測定法 : MPEG-2 AAC AM 相等符号化音の客観評価」映像情報メディア学会技術報告(2002年12月12日)
 http://ci.nii.ac.jp/naid/110003671928

 > 電波産業会(ARIB)・品質評価法調査研究会では、オーディオ信号の低ビットレート符号化方式におけるAM〜FM程度の符号化音質を客観的に測定する、客観音質測定法を調査した。調査した客観音質測定法は、ITU-Rで勧告されているPEAQ客観音質測定法と、PEAQ法を改良したジェニスタ社客観音質測定法である。ARIBが1998〜99年に行った「MPEG-2AAC低ビットレート音声主観評価結果」とこれらの客観音質測定法の測定結果との対応を求めた結果、音源カテゴリーを「スピーチ、スピーチ+背景音」に限定すれば0.9強の高い相関をもつことが分かった。また、「音楽」カテゴリーにおいてはジェニスタ社測定法がPEAQ測定法より優れていると考えられる。

 技報ですので、あまりエレガントではなく新規性があるわけでもない(≒ITU-Rの勧告に沿って「試してみた!」からの「さあさあキミたちも同じようにやってみたまへ」)…いえいえいえ! メッソウでしたっ。

・2001年10月時点での「株式会社ジェニスタ」付近
 https://www.atpress.ne.jp/news/196

 > 「VideoQoS」は、人間の視覚認知に基づく知覚品質メトリックスとANSI で定義された物理品質メトリックスの両方を取入れた、ビデオストリーミング画像品質を客観的に分析するユニークなソフトウェアツールです。ネットワークにおけるパケットロスや遅延と同様にコーデックや電子透かしのようなビデオプロセシングによるビデオ品質への知覚的影響を客観的に評価します。

 おおー!(略)うっかり真似すると特許ですのん@なんてこったい! わたしたち、わざと素人じみたローテクなテストしかできないのかもですよ。もっとなんてこったい!(棒読み)

・「AAC」KDDIの見解です
 http://www.kddi.com/yogo/%E3%83%9E%E3%83%AB%E3%83%81%E3%83%A1%E3%83%87%E3%82%A3%E3%82%A2/AAC.html

 > MP3などのフォーマットに比べ、高音質でデータを小さくできるため、ネットでの音楽配信などに利用されることが多い。
 > マルチチャンネルオーディオなどにも対応している。
 > 地上デジタル放送やワンセグなどの音声にMPEG-2 AACで符号化されている。

・ウィキペディア「AAC」
 https://ja.wikipedia.org/wiki/AAC

 このページから「MP3」と「AAC」の違いを読み取りなさい的な読解問題のほうなどできちゃったりするかもですよ。えー、どれどれ?(※演出です。)

 > AACは同程度のビットレートであればMP3より高い音声品質を実現している。

 > ステレオの音質は96kbpsのジョイントステレオモードで適度な要件を満たすことができるが、Hi-Fi透明性(低雑音性)のためには、少なくとも128kbpsのデータレート(VBR)が必要である。MPEG-4 Audioによる検証では、AACが128kbpsのステレオ(略)においてITUが「透明的」として規定している要件を満たしていることが示されている。

 おおー!(略)

 > AAC (AAC-LC) の符号化処理は以下の流れで行われる。
 > MP3が一旦時間領域のフィルタで 32 サブバンドに分割した後にMDCTを行っていたのに対し、AACでは入力サンプルに対してそのままMDCTが行われる。
 > アタック音など時間領域で急峻な変化を見せる信号にはshort blockが使われる

 MP3のもさっとした気持ち悪さのおおもとであったここが、AACではサクッと解消されていると読み解けます。

 > 聴覚心理モデルで決定した許容量子化雑音エネルギーと量子化雑音エネルギーが比例するようにスケールファクタ・バンド(近い周波数のMDCT係数をまとめたグループ)毎に量子化を行う。long blockのスケールファクタ・バンドの数は49 (44.1kHz) であり、21 であったMP3と比較して細かい制御が可能になっている。

 MP3のきゅうくつでギラギラした感じ(荒いマス目がひかれて押しこまれる感じ⇒マス目が目立ってギラギラした感じ)のところが、きめ細かくなりましたと読み解けます。

 > MPEG-4 AACは、MPEG-2 AACにPNSやLTPといった追加技術を利用可能としたもの

 限定的に「可逆圧縮」を組み合わせたような、とでもいいましょうか。…その発想はなかった!(棒読み)

 AACができてから、AACの発想や辞書(=聴覚モデル)などを応用して、MP3にあっても(MP3の規格上、できる範囲で)AACっぽいエンコードのできるエンコーダ、とでもいうようなものがあるのだとすれば、それは確かに「進化」ではありますけれども、その実、それはMP3エンコーダとしての進化ではなく、あくまでAACの『後方ナントカ!』(フィードバック※)であると…もっと本当でしょうか。

※よい例が見つけられませんが、比ゆ的には「PDFと呼ばれるフォーマットが策定(1993年)されてからPostScript(1984年)がPDFに合わせて改良される感じ!」みたいなの! …ゲフンゲフン。

※そして、そのような辞書(≒コーパス)があるからこそ、音声の内容を「これはスピーチだな」「これは映画だな」「これは音楽(クラシック)だな」などと高精度に推定できるので、副次的に、そのようなアプリケーション(サラウンドスピーカーなどの自動的なモード追随)が実装できてくると、たぶんこういうわけです。

・同じような話の映像バージョン
 http://www.4gamer.net/games/278/G027801/20141014062/

 > アイ・オーがギガクリア・エンジンIIの技術供与を受けたことにより,リアルタイムで画像を解析し,解像感を向上させる「超解像技術」による映像補完や,コントラスト自動調整といった同エンジンによる映像補完機能は,すべてそのまま新製品にも継承された。さらに,映像補完機能を利用する状態でも表示遅延が約0.1フレームで済むという「スルーモード」機能も搭載。

 「リアルタイムで解析」しているのは単純なヒストグラムであって、どの領域をどのくらいしゃきっとさせようかというのを動的に調節するアルゴリズムみたいなのがスバラシイのだと想像してみ…えっ? これ××です? …想像してみるのもいかんとですか、さいですか。…なんだかなぁ。(※あくまで演出です。)

・Wikipedia「PEAQ」
 https://en.wikipedia.org/wiki/PEAQ

 > The PEAQ technology as recommended by ITU-R Rec. BS.1387 is protected by several patents and is available under license together with the original code for commercial applications according to ITU fair, reasonable and non-discriminatory terms. An early open-source implementation of the basic model, named EAQUAL, was discontinued in 2002 because of patent infringement claims. For educational use, there exists a free cross-platform program called Peaqb which accomplishes the same functions in a limited manner, as it has not been validated with the ITU data. Another unvalidated implementation of the PEAQ basic model for educational use, PQevalAudio, is available from the TSP Lab of McGill University.

 > because of patent infringement claims
 > because of patent infringement claims

 うーん。

・「音響信号に対する情報ハイディング技術の評価基準と電子透かしコンテスト」(2012年)
 http://www.ieice.org/iss/emm/ihc/audio_H24/audio.html

・「電子透かしコンテストの紹介」(2014年)
 https://www.tokyo-ct.ac.jp/wp-content/uploads/2017/02/report-45-2.pdf#page=124

 > 客観的音質劣化評価には,ITU-R BS.1387-1で勧告されたPEAQ(Perceptual Evaluation of Audio Quality)を実装したPQevalAudio v2r0を用い,以下に示すようなODG(objective difference grade)を求める。
 > 基準値としては,(略)2.については,20個の音源に対するODGの算術平均が-2.0以上であることとする。

 ほぉお! 目的は違いますけど、評価のしかたが具体的にイメージできましたよ。さっそく教育目的に限っては使えそうですけど、インプレスさんがじぶんで使うのはアウトっぽいなぁ&そっちですかっ。そこらの研究室にお願いして評価してもらった結果をお伝えするのもアウトかなぁ。…なんだかなぁ。


この記事のURL https://neorail.jp/forum/3471/


この記事を参照している記事


[3476]

【自由研究】博物館法に基づく博物館相当施設等の利活用等を含む「科学工夫作品いわゆる工作」あり方等検討会(略称:工作あり検)

2017/5/15

[3518]

【インタラクションとディスプレイ】「プロジェクションマッピング」から「ノイズキャンセリングヘッドホン」まで【アニメーション】

2017/7/25

[3553]

「電子電鈴」で遊ぶ(模)

2017/10/9

[3583]

JR西日本「データ分析コンテストの開催」を遠目に眺める(談)

2017/12/7

[3592]

貨物線のいま(15) どうなる神奈川東部方面線(鶴ヶ峰編)

2018/1/1

[3608]

浅草橋駅とその周辺(談)【JR馬喰町駅C3出入口あり】

2018/2/24

[3661]

「弥彦色」と「長野色」 / 「ブルー・トレーン」 / 「京都高速鉄道株式会社」 / 「出逢えたらラッキー Peach×ラピート ハッピーライナー」 / ほか

2018/7/21

[4641]

うるう年の翌年の10月1日

2021/10/31

[5255]

動画無用論 v.s. 動画の矜持(前編)

2024/9/1


関連する記事


[4064]

縦書きディープなラーニング(2020) tht - 2020/5/7


[5308]

きょうはAIによる概要で現代的な運行。 tht - 2025/8/1


[4505]

シンギュラリティは早い者勝ち(?) tht - 2021/4/1


[5226]

「静岡県人」とは何か(談) tht - 2024/5/1


[5269]

【知恵袋】「パッと見てピン!」(実践編) tht - 2024/9/9


[4167]

【A9・Exp.】時間拡張「 3倍」の罠(再) tht - 2020/8/1


[5150]

「画期的な新説」とは何か(序) tht - 2023/12/1


[5228]

【Copilot】「A9V6とは何か」とは(談)【寿限無】 tht - 2024/5/1






neorail.jp/は、個人が運営する非営利のウェブサイトです。広告ではありません。 All Rights Reserved. ©1999-2026, tht.