chord_presentation

人間の聴覚と音質について

Pocket

このような資料を見つけました。コード社の資料ですがなかなか良く出来ています。最も先進的で個人的な経験とも一致する箇所が多い内容です。もちろんすべて同意ではありませんがここ近年でみた資料のなかではもっとも同意できる内容の多い資料だと思いましたので、同意できる部分についてのみですが、ここで紹介しておきたいです。

hugo_technology.pdf

ただし元の資料は当然ながらフル英語なのでかなり意訳というか自分の勝手な解釈による文章と、分かる範囲で個人的経験からの捕捉を追加しています。後半は持論の展開になりますので、原文の正しい解釈を求める方はそのまま原文の資料を御覧ください。

元はパワーポイントのファイルだったので原文はこちらでPDFにコンバートしておいておきます。

音の知覚

  • 既存の音響技術は単純な耳のキャパシティ(20-20kHzなどの聴覚の限界やスペック?)をもとにした測定値で評価されます。たとえば聴感補正された歪率やSN比です。
  • 画像認識では目から入るデータは10%で残り90%は脳内処理によるもので、オーディオでも同様です。
  •  我々は個別の音を知覚しますが、これは耳からではなく脳から来ています。
  •  それらの分離した音は3次元空間に配置され、これも脳の処理によります。
  •  どのように個別の音を脳が分離しているかについての科学はまだ未発達であり、脳がどのように処理しているのかは乏しい理解しか持っていない。

ここで出ている話についてですが、たしかにオーディオ、いやこれは音楽制作のほうが個人的に経験が多いのでこちらで例えてしまいますが、非常に同意できる内容が多いです。耳の訓練によって聞こえる音=認識できる音の質と量は全く別物のように変わっていきます。それは脳の処理によって獲得された情報なのかもしれません。

たとえば音楽制作では音程やスケールの認識、コード進行、パート編成、音色、それらを組み合わせた楽曲の意図を正しく理解し、さらに表現するためには相当の訓練が必要です。音楽のエンジニアリングでもEQやコンプによる音の変化、そこからミックスやマスタリングへの応用、意図的な音づくり等、どちらも何年にも及ぶ訓練が必要な世界です。そして聞こえなかった音が聞こえる=認識できるようになるという経験は常に自分自身の成長とともにありました。

これはオーディオでも同じで部品や音質差の聞き分け精度は訓練で向上します。聞こえなかった音は頑張ればだんだん聞こえるようになるはずです。(もちろん自分自身も聞こえていない音がまだまだあるはずです)

そして現状では体系的な音質についての研究は進んでおらず、世間では音質議論そのものがヘタしたらオカルト扱いです。そもそも未だに従来の単純な測定スペックでしか評価ができないオーディオ機器の現状があります。見かけのスペックと音質の相関関係は事実上ほとんど崩壊しているのですが、そのような事実に対して納得の行く説明が未だにつかないのが現実です。

この資料で指摘しているのは、このような従来の指標のみではまったくオーディオ機器の性能を評価することは出来ないし、従来の常識に不足していることが多いということを訴えたいのでしょう。これはもちろん測定が無意味という意味では決してなくて測定には限界があるというのが重要な捉え方です。

バーでこのシーンを想像してみて

chord_presentation2

  • あなたは楽器を別々に認識できます。
  • あなたは誰かが隣で話している内容を理解できます。
  • あなたは3次元空間で2つの音がどれくらい離れているか、実際の配置、高さ、左右、奥行きを認識できます。
  • あなたが後ろに3メートル下がったとき、バンジョーはより遠くに聞こえます。それが20メーターならばその深さで感じ取れます。
  • 脳はそれらすべての処理と計算をリアルタイムで行います。
  • 科学は人間の脳が行うこれらの詳細な方法についての理解を持っていません。
  • まだこの処理ができるように設計されたコンピュータはありません。
  • そして私たちは当たり前のようにそれができます!

この話はまさに測定器と人間の感覚の違いを示しているように思います。個人的に思うオーディオでの音質差でこの内容が妥当だと思う根拠はノイズフロア内に埋もれた情報を聞き取ることが出来るという経験です。従来の学説ではそれは不可能ということになっていますが、オーディオ開発における経験ではそのような従来の説は完全ではないように感じています。

それはちょうど上記で言う、沢山の人や楽器の存在する実際の空間で、さらに反射音が複雑に絡み合っている環境で音を聞く例を使うと確かにうまく説明ができます。コンピュータや測定器がそのような環境で、どのような楽器がどんな曲を流しているのか、そしてまわりにいる誰が何を話しているかそれらを同時に全て認識することが出来るのかという話です。しかしそんなことはまず不可能です。人間でも母国語であれば騒音の中でも脳内補完で理解が出来ますが、それが聞き慣れない方言や覚えたての外国語だったら途端に聞き取れなくなってしまいます。

このように人間の聴覚は訓練に獲得された脳内処理によって成り立っており、単純なセンサーではないという話はそのとおりです。そして学習内容は人によって癖がありますから、オーディオにおける印象の個人差はそれらの経験の差によって方言のように生じていることでしょう。これがオーディオにおける評価の難しさではないかと思います。

ノイズフロア変調

  • 音楽信号に合わせてノイズが増減することは、ノイズフロア変調を生じます。
  • 耳と脳はこの問題に非常に敏感であり、それは脳が個々の実体へ音を分離するのを妨げます。
  • リスニングテストは測定可能以下のレベルにあるノイズフロア変調に対する感度を示しました。
  • ノイズフロア変調は音を明るく、固く、攻撃的にします。それは楽器の分離とピントを悪化させます。ノイズフロア変調を減らすことはなめらかさ、ピント、品位を改善します。それはより自然な音です。

ノイズフロア変調という意味はよくわかりませんが、この部分で述べられている実験結果は当サイトの基本的価値観である「音質=分離の良さ」と同じだと考えると、個人的な試行錯誤の経験と直接関係している内容です。特に測定限界以下にあるノイズフロアの成分変化=音質の変化というのは経験的にも確実にありました。

例えば当サイトで主張している電子ボリュームやアナログボリュームによる音質劣化抵抗の音質差などがまさにこれに当てはまります。これらの熱雑音は音の分離を即座に確実に奪います。このようなランダムノイズは非常に音質にとって害のあるものです。しかしその変化は測定限界以下、ノイズフロア以下での変化でしかありません。そのような違いは認識不能ではないのです。ですがそこまで害があるようにはまだまだ主張されていないように思います。

たとえば100Ωと10Ωの違いなんてノイズレベルで言えば相当微小な差ですがそれでも耳で聞けば違いがわかります。実際にはそれよりずっと大きなノイズ要因を残した状態であっても、ずっと微小領域のノイズ源を除去したときにその違いはちゃんと聞こえるのです。これはノイズに埋もれた音は認識できないという俗説と反しています。たとえばノイズの多いオーディオ機器でも電源ケーブルや中の部品を変えたら音の違いがわかるという話です。それらの違いは完全にノイズに埋もれている超微小領域の差のはずですが、人間にはそれがわかるのはこのような耳の特性があってこそです。このような大きなノイズに埋もれた微小領域のノイズの差は測定することが不可能な領域ですが、音質にとっては違いが出てしまうのが事実です。この領域の精度はおそらく認識に個人差がありますがそれは訓練の多寡によるものでしょう。

上記のバーでの例えから見てみますと、人間の耳はノイズの中での特定の微小音を認識、特定できるように作られているようです。その理由はモガミ電線の方も書いていましたが、生命の進化の歴史に根拠があると思っています。たとえば風の音や水の音等さまざまな音が存在する自然界で天敵に襲われるときの状況を考えてみます。そのようなシチューエーションで外敵の存在を聞き分ける能力の有無は直接死活問題だったのでしょう。

このような特定の微小ノイズは測定限界以下の領域での変化であっても耳にとっては大きな影響があるということ…それはChord社も同様の見解のようです。ただし私自身は何でもノイズフロアを極限以下に持っていくことだけが重要という考えより、音質を悪化させる特定の要因に注目してそのような成分を減らすことが重要だと思っています。音質にとって害にならない=脳で分離処理できるノイズ成分はオーディオでは実はあっても構わないとも言えます。ですが測定器では害のあるノイズかそうでないかは区別が出来ません。測定器の単純なノイズフロアだけでは音質は評価できない可能性はあります。もちろん測定上でノイズフロアが極限に低ければ悪質なノイズも少ない可能性が高いというのは正しいです。逆にノイズフロアだけ低くても害のあるノイズばかりなら同じスペックの機器より音が悪いというのもありえます。

経験的に害のないノイズ、問題になりにくいノイズは振動とか電源の残留リップルとか歪成分とか発振波形も大丈夫のようです。これらの共通点は特定の周波数に依存している成分です。何らかの相関性があるノイズは耳で分離が出来る=これらは空間を埋めたり音を消したりしない(限度問題ですが…)ことが多いです。たとえばカップリングコンデンサの音質変化なども振動起因だと思っているので、こういうノイズは積極的に音作りに利用しても良いのではと思います。実際にハイエンドメーカーの設計を見てもコンデンサだけはそういう使い方を見かけます。ですが抵抗や半導体の発する完全なランダムノイズは音質の分離を即座に悪化させるので、出来るだけこういうノイズの発生を防ぐことが高音質への道、それがオーディオ開発での重要なポイントになるでしょう。

Chord社の主張するインターサンプルのタイミング精度について

私はChord社の主張しているタイミング精度の重要性、長大なFIRフィルタの必要性については同意していません。その理由を画像を使って説明したいとおもいます。もちろん画像と音声は性質が違うので単純比較は出来ませんが、ひとつの例えと思ってください。しかしこの例えではFIRフィルタの優位性はそこまで大げさな正当性があるのかどうか疑問という要点はなんとなく伝わるのではと思います。

chord_orijinalオリジナル(生音)

まずアナログの原音がこれだとします。この時点では情報量がめいいっぱいあるとします。

chord_nos44.1kHz NOSのイメージ

こちらは44.1kHzで収録されたデジタルデータのイメージです。この時点で情報はすでに失われてしまっています。NOSの場合はデジタルのカクカクをそのまま再生するのでこのようなイメージになるかと思います。

chord_firFIRフィルタのイメージ

こちらはFIRフィルタのイメージ画像です。この画像自体はバイキュービックというフィルタですが、FIRフィルタに似ている特性のフィルタです。

ここで重要なのはNOSもFIRフィルタも元画像に近づいているわけではないということです。Chord社の主張はこのFIRフィルタの精度を高めるほど元のタイミングに近づくと主張しているようですが、実際には失われた情報は元に戻るわけではないのは画像で例えるとよりわかりやすいように思います。特に国内ではNOSがベストと主張するタイムドメイン派の存在もありますので両者の主張は真っ向から対立することになってしまいます。

ではどちらが正しいのでしょうか。

正直画像から優劣を判断するとしたら、元の画像(音源)の傾向によってフィルタが合う合わないは変わる=フィルタ自体に絶対の正解は無いのではないかというのが本当の答えのように思います。どちらにせよ決して元のデータに戻るわけではないなら、音源に合わせて好みに応じて選べるのが一番良いのではないでしょうか。

性質が違うとはいえ画像でこういう例えが成立してしまう以上Chord社の主張するフィルタの重要性は正しいのかかなり疑問に思っています。自社のFPGAが完全独自技術で超長大なFIRを使えることが既存メーカーに対する数少ない優位性なのでこのような主張をしているように考えてしまいますがどうでしょう?

Hugo等の高音質はこのFIRフィルタの長さによるタイミング精度の向上より、内部処理のハイサンプル化により内部SN向上と外部フィルタ回路を大幅に簡略化出来たことによる恩恵が殆どであって、実はフィルタはそれほど音質に貢献していないのではないかと考えてしまいます。実際彼らの言う貧弱なフィルタしか搭載していない典型的な既存DAC-ICであるAK4495でもHugoの音質は超えられました。この事実は彼らのフィルタの絶対的優位性の主張は完全ではない=音質にとって最重要な要素ではないことを示していると思います。

ついでですが、画像で例えるなら多分DSDはこんなイメージです。RGB各単色+ノイズによる拡散ですがそのかわり解像度は高いイメージです。もちろんハイレゾになればPCMもDSDよりも多くの情報量を持つことが出来ますので、この画像比較だけでDSDが良いっていう話じゃありません。あくまで一例なので厳密には違います。

chord_dsdDSDのイメージ

関係するかもしれない話

追記で面白い話なのでリンクを貼っておきます。人間の認識能力の限界は予想よりも高そうです。生まれつき持っていない感覚を補うことが出来る能力が脳にはあるようです。これをみると脳が世界を見せているという話もますます信ぴょう性が高まります。

人間に新たな感覚を作り出すことは可能か?