このような資料を見つけました。コード社の資料ですがなかなか良く出来ています。最も先進的で個人的な経験とも一致する箇所が多い内容です。もちろんすべて同意ではありませんがここ近年でみた資料のなかではもっとも同意できる内容の多い資料だと思いましたので、同意できる部分についてのみですが、ここで紹介しておきたいです。
ただし元の資料は当然ながらフル英語なのでかなり意訳というか自分の勝手な解釈による文章と、分かる範囲で個人的経験からの捕捉を追加しています。後半は持論の展開になりますので、原文の正しい解釈を求める方はそのまま原文の資料を御覧ください。
元はパワーポイントのファイルだったので原文はこちらでPDFにコンバートしておいておきます。
音の知覚
- 既存の音響技術は単純な耳のキャパシティ(20-20kHzなどの聴覚の限界やスペック?)をもとにした測定値で評価されます。たとえば聴感補正された歪率やSN比です。
- 画像認識では目から入るデータは10%で残り90%は脳内処理によるもので、オーディオでも同様です。
- 我々は個別の音を知覚しますが、これは耳からではなく脳から来ています。
- それらの分離した音は3次元空間に配置され、これも脳の処理によります。
- どのように個別の音を脳が分離しているかについての科学はまだ未発達であり、脳がどのように処理しているのかは乏しい理解しか持っていない。
ここで出ている話についてですが、たしかにオーディオ、いやこれは音楽制作のほうが個人的に経験が多いのでこちらで例えてしまいますが、非常に同意できる内容が多いです。耳の訓練によって聞こえる音=認識できる音の質と量は全く別物のように変わっていきます。それは脳の処理によって獲得された情報なのかもしれません。
たとえば音楽制作では音程やスケールの認識、コード進行、パート編成、音色、それらを組み合わせた楽曲の意図を正しく理解し、さらに表現するためには相当の訓練が必要です。音楽のエンジニアリングでもEQやコンプによる音の変化、そこからミックスやマスタリングへの応用、意図的な音づくり等、どちらも何年にも及ぶ訓練が必要な世界です。そして聞こえなかった音が聞こえる=認識できるようになるという経験は常に自分自身の成長とともにありました。
これはオーディオでも同じで部品や音質差の聞き分け精度は訓練で向上します。聞こえなかった音は頑張ればだんだん聞こえるようになるはずです。(もちろん自分自身も聞こえていない音がまだまだあるはずです)
そして現状では体系的な音質についての研究は進んでおらず、世間では音質議論そのものがヘタしたらオカルト扱いです。そもそも未だに従来の単純な測定スペックでしか評価ができないオーディオ機器の現状があります。見かけのスペックと音質の相関関係は事実上ほとんど崩壊しているのですが、そのような事実に対して納得の行く説明が未だにつかないのが現実です。
この資料で指摘しているのは、このような従来の指標のみではまったくオーディオ機器の性能を評価することは出来ないし、従来の常識に不足していることが多いということを訴えたいのでしょう。これはもちろん測定が無意味という意味では決してなくて測定には限界があるというのが重要な捉え方です。
バーでこのシーンを想像してみて
- あなたは楽器を別々に認識できます。
- あなたは誰かが隣で話している内容を理解できます。
- あなたは3次元空間で2つの音がどれくらい離れているか、実際の配置、高さ、左右、奥行きを認識できます。
- あなたが後ろに3メートル下がったとき、バンジョーはより遠くに聞こえます。それが20メーターならばその深さで感じ取れます。
- 脳はそれらすべての処理と計算をリアルタイムで行います。
- 科学は人間の脳が行うこれらの詳細な方法についての理解を持っていません。
- まだこの処理ができるように設計されたコンピュータはありません。
- そして私たちは当たり前のようにそれができます!
この話はまさに測定器と人間の感覚の違いを示しているように思います。個人的に思うオーディオでの音質差でこの内容が妥当だと思う根拠はノイズフロア内に埋もれた情報を聞き取ることが出来るという経験です。従来の学説ではそれは不可能ということになっていますが、オーディオ開発における経験ではそのような従来の説は完全ではないように感じています。
それはちょうど上記で言う、沢山の人や楽器の存在する実際の空間で、さらに反射音が複雑に絡み合っている環境で音を聞く例を使うと確かにうまく説明ができます。コンピュータや測定器がそのような環境で、どのような楽器がどんな曲を流しているのか、そしてまわりにいる誰が何を話しているかそれらを同時に全て認識することが出来るのかという話です。しかしそんなことはまず不可能です。人間でも母国語であれば騒音の中でも脳内補完で理解が出来ますが、それが聞き慣れない方言や覚えたての外国語だったら途端に聞き取れなくなってしまいます。
このように人間の聴覚は訓練に獲得された脳内処理によって成り立っており、単純なセンサーではないという話はそのとおりです。そして学習内容は人によって癖がありますから、オーディオにおける印象の個人差はそれらの経験の差によって方言のように生じていることでしょう。これがオーディオにおける評価の難しさではないかと思います。
ノイズフロア変調
- 音楽信号に合わせてノイズが増減することは、ノイズフロア変調を生じます。
- 耳と脳はこの問題に非常に敏感であり、それは脳が個々の実体へ音を分離するのを妨げます。
- リスニングテストは測定可能以下のレベルにあるノイズフロア変調に対する感度を示しました。
- ノイズフロア変調は音を明るく、固く、攻撃的にします。それは楽器の分離とピントを悪化させます。ノイズフロア変調を減らすことはなめらかさ、ピント、品位を改善します。それはより自然な音です。
ノイズフロア変調という意味はよくわかりませんが、この部分で述べられている実験結果は当サイトの基本的価値観である「音質=分離の良さ」と同じだと考えると、個人的な試行錯誤の経験と直接関係している内容です。特に測定限界以下にあるノイズフロアの成分変化=音質の変化というのは経験的にも確実にありました。
例えば当サイトで主張している電子ボリュームやアナログボリュームによる音質劣化、抵抗の音質差などがまさにこれに当てはまります。これらの熱雑音は音の分離を即座に確実に奪います。このようなランダムノイズは非常に音質にとって害のあるものです。しかしその変化は測定限界以下、ノイズフロア以下での変化でしかありません。そのような違いは認識不能ではないのです。ですがそこまで害があるようにはまだまだ主張されていないように思います。
たとえば100Ωと10Ωの違いなんてノイズレベルで言えば相当微小な差ですがそれでも耳で聞けば違いがわかります。実際にはそれよりずっと大きなノイズ要因を残した状態であっても、ずっと微小領域のノイズ源を除去したときにその違いはちゃんと聞こえるのです。これはノイズに埋もれた音は認識できないという俗説と反しています。たとえばノイズの多いオーディオ機器でも電源ケーブルや中の部品を変えたら音の違いがわかるという話です。それらの違いは完全にノイズに埋もれている超微小領域の差のはずですが、人間にはそれがわかるのはこのような耳の特性があってこそです。このような大きなノイズに埋もれた微小領域のノイズの差は測定することが不可能な領域ですが、音質にとっては違いが出てしまうのが事実です。この領域の精度はおそらく認識に個人差がありますがそれは訓練の多寡によるものでしょう。
上記のバーでの例えから見てみますと、人間の耳はノイズの中での特定の微小音を認識、特定できるように作られているようです。その理由はモガミ電線の方も書いていましたが、生命の進化の歴史に根拠があると思っています。たとえば風の音や水の音等さまざまな音が存在する自然界で天敵に襲われるときの状況を考えてみます。そのようなシチューエーションで外敵の存在を聞き分ける能力の有無は直接死活問題だったのでしょう。
このような特定の微小ノイズは測定限界以下の領域での変化であっても耳にとっては大きな影響があるということ…それはChord社も同様の見解のようです。ただし私自身は何でもノイズフロアを極限以下に持っていくことだけが重要という考えより、音質を悪化させる特定の要因に注目してそのような成分を減らすことが重要だと思っています。音質にとって害にならない=脳で分離処理できるノイズ成分はオーディオでは実はあっても構わないとも言えます。ですが測定器では害のあるノイズかそうでないかは区別が出来ません。測定器の単純なノイズフロアだけでは音質は評価できない可能性はあります。もちろん測定上でノイズフロアが極限に低ければ悪質なノイズも少ない可能性が高いというのは正しいです。逆にノイズフロアだけ低くても害のあるノイズばかりなら同じスペックの機器より音が悪いというのもありえます。
経験的に害のないノイズ、問題になりにくいノイズは振動とか電源の残留リップルとか歪成分とか発振波形も大丈夫のようです。これらの共通点は特定の周波数に依存している成分です。何らかの相関性があるノイズは耳で分離が出来る=これらは空間を埋めたり音を消したりしない(限度問題ですが…)ことが多いです。たとえばカップリングコンデンサの音質変化なども振動起因だと思っているので、こういうノイズは積極的に音作りに利用しても良いのではと思います。実際にハイエンドメーカーの設計を見てもコンデンサだけはそういう使い方を見かけます。ですが抵抗や半導体の発する完全なランダムノイズは音質の分離を即座に悪化させるので、出来るだけこういうノイズの発生を防ぐことが高音質への道、それがオーディオ開発での重要なポイントになるでしょう。
Chord社の主張するインターサンプルのタイミング精度について
私はChord社の主張しているタイミング精度の重要性、長大なFIRフィルタの必要性については同意していません。その理由を画像を使って説明したいとおもいます。もちろん画像と音声は性質が違うので単純比較は出来ませんが、ひとつの例えと思ってください。しかしこの例えではFIRフィルタの優位性はそこまで大げさな正当性があるのかどうか疑問という要点はなんとなく伝わるのではと思います。
まずアナログの原音がこれだとします。この時点では情報量がめいいっぱいあるとします。
こちらは44.1kHzで収録されたデジタルデータのイメージです。この時点で情報はすでに失われてしまっています。NOSの場合はデジタルのカクカクをそのまま再生するのでこのようなイメージになるかと思います。
こちらはFIRフィルタのイメージ画像です。この画像自体はバイキュービックというフィルタですが、FIRフィルタに似ている特性のフィルタです。
ここで重要なのはNOSもFIRフィルタも元画像に近づいているわけではないということです。Chord社の主張はこのFIRフィルタの精度を高めるほど元のタイミングに近づくと主張しているようですが、実際には失われた情報は元に戻るわけではないのは画像で例えるとよりわかりやすいように思います。特に国内ではNOSがベストと主張するタイムドメイン派の存在もありますので両者の主張は真っ向から対立することになってしまいます。
ではどちらが正しいのでしょうか。
正直画像から優劣を判断するとしたら、元の画像(音源)の傾向によってフィルタが合う合わないは変わる=フィルタ自体に絶対の正解は無いのではないかというのが本当の答えのように思います。どちらにせよ決して元のデータに戻るわけではないなら、音源に合わせて好みに応じて選べるのが一番良いのではないでしょうか。
性質が違うとはいえ画像でこういう例えが成立してしまう以上Chord社の主張するフィルタの重要性は正しいのかかなり疑問に思っています。自社のFPGAが完全独自技術で超長大なFIRを使えることが既存メーカーに対する数少ない優位性なのでこのような主張をしているように考えてしまいますがどうでしょう?
Hugo等の高音質はこのFIRフィルタの長さによるタイミング精度の向上より、内部処理のハイサンプル化により内部SN向上と外部フィルタ回路を大幅に簡略化出来たことによる恩恵が殆どであって、実はフィルタはそれほど音質に貢献していないのではないかと考えてしまいます。実際彼らの言う貧弱なフィルタしか搭載していない典型的な既存DAC-ICであるAK4495でもHugoの音質は超えられました。この事実は彼らのフィルタの絶対的優位性の主張は完全ではない=音質にとって最重要な要素ではないことを示していると思います。
ついでですが、画像で例えるなら多分DSDはこんなイメージです。RGB各単色+ノイズによる拡散ですがそのかわり解像度は高いイメージです。もちろんハイレゾになればPCMもDSDよりも多くの情報量を持つことが出来ますので、この画像比較だけでDSDが良いっていう話じゃありません。あくまで一例なので厳密には違います。
関係するかもしれない話
追記で面白い話なのでリンクを貼っておきます。人間の認識能力の限界は予想よりも高そうです。生まれつき持っていない感覚を補うことが出来る能力が脳にはあるようです。これをみると脳が世界を見せているという話もますます信ぴょう性が高まります。
RT @_yohine: 人間の聴覚と音質について: このような資料を見つけました。コード社の資料ですがなかなか良く出来ています。最も先進的で個人的な経験とも一致する箇所が多い内容です。もちろんすべて同意ではありま… https://t.co/2MwEeURR9Q
人間の聴覚と音質について
https://t.co/iroVtnTnFN
実際にFIRのタップを増やすことによるステレオイメージ、分離と低域の音質の向上は、自宅やスタジオ環境でもFIRのタップ数を選択できるVSTプラグインで確認できますのでお時間があればぜひ確認してみてください。間違いなくご意見が変わるのではないかと思います。プラグインはEQuilibriumが有名で、これはたしか25万タップまで可能です。フィルターなしでオーバーサンプルした素材はAudirvanaから出力可能です。そもそも低タップのFIRフィルター自体が、高級オーディオにふさわしくない非常な低レベルなものでありながら、それ自体はカタログスペックにはあまり影響せず、さらにハードウェアで高度な演算を高速で行うことが不可能だったために、わざと無視され続けてきたという歴史があります。そして聴感上おかしいと思う少数の人たちのあいだで、NOSやアナログフィルターなどの試行錯誤が長年続けられてきたということではないでしょうか。
tascamさん
凄いですね。私が最近気づいたことについて的確な指摘です。音楽制作関係にも詳しいかなりの実力者と見えます。話を本題に戻しますが、NOS+アナログフィルター、そしてデジタルフィルターの性能の重要性についてはこちらの記事で触れています。これ以降は意識を変えましたのでご指摘どおりです。
http://innocent-key.com/wordpress/?page_id=11019
フィルターのタップ数の検証はProQ2よりEQuilibriumのほうが良いですね。EQuilibriumは最近導入したのですが素晴らしい音質と性能でした。ただ同一サンプル周波数ですと再生側DACの内蔵フィルターの性能が支配的になりますのでアップサンプル時にフィルターを掛けて性能を評価しないと違いはわかりにくいです(追記:Audirvanaでアップサンプル素材を作ってフィルタリングするという意味だったのですね)。アップサンプル時のフィルター検証のためのソフトはresampler-vが視覚的で良かったです。
ちょっと前にPCだけではなくてSigmaDSPを使ってハードウェアでDACの手前にフィルター&アップサンプル処理を追加して実際に優位性を試しましたが1200タップのフィルターでも十分に違いが感じられました。ただし音源依存性があるので古いアナログ音源で評価しないとわかりにくい差でした。
初めまして。
このページのコード社の資料や画像を使った例えはとても参考になりました。
安い機材しか聴いたことがないので恥ずかしい限りですが、私自身の体験として、最近NOSの音に衝撃を受けました。
NOSの情報量と比べると、ヘッドフォンで聴いたOSの音はまるで書き割りに張り付けた音源のようにも感じます。
PCM-501ESの項も拝見しましたが、畳み込み型のリバーブに対称形のインパルス応答を設定すればFIRフィルタとなるため、リバーブ同様音が滲むのは当然の結果のように思われます。
一度ごちゃ混ぜにしてしまったものは通常の再生環境では決して元に戻ることはないはずです。
にもかかわらず、ある程度以上インパルス応答が長くなると分離などが良くなるのだとすると、脳が残響特性としてのFIRの応答を認識して分離することが可能になるのかも知れないですね。
NOSからDAC ICのOSで一旦劣化していくのが、タップが長くなると再度改善するとしたら、そのような理由しか思い当たりません。
通常のDAC ICのOSは、PCM5102のデータシートでは400タップ程度あるようですが、残響時間として捉えると僅か4.5msしかありません。
これでは脳の信号処理でも分離不可能な気がします。
個人的な目標としては、NOSの気になる響き対策としてFluencyかトランジスタ技術で紹介されていたOSに適切なカットオフのAFを組み合わせる方向で検討しています。
直線位相にしやすいデジタルで半分程度処理すればAFの設計難度も軽減されるものと思っています。
FN1242Aは入手難、トラ技はFPGA自体は1400円で買えてもI2S出力は自力で設計する必要がありますが。
コメントありがとうございます。NOSの音を聞かれたとのことですが、どのような機種の音を聞かれましたか?
16bitのNOS+ノンフィルターは試しましたがフィルターレスの音は生音ではありえないような付帯音がついた音質になってしまうので、ストレートさや出音の誇張感のなさの部分がいくら良くても個人的には無しだとは思っています。脳が補正することを前提としたサウンドかなという印象です。
次にChord社のフィルター性能ですが、これはフラッグシップのDAVEをチェックすると優位性がよくわかります。そして不思議なことに一般的なDACと比較してみると積分形DACとDAVEは高域の描写力が非常に高く、一般的なOS-DACはこの部分が駄目という意味がよくわかりました。ただしこれは耳で聞いた印象なので音的には体感できますが、技術的にはなかなか説明しにくい現象です。WM8741は良いという意見がありましたのでこのあたりは折返しノイズが関係しているかなと思ってます(WM8741だけ他のDACとフィルター特性が違います)。
ということで世間では既に矩形波応答波形やプリリンギングの問題を指摘する声がありますし、実際に現代的DACでノンフィルターNOSのインパルス特性を売りにする製品が出てきていますが、Chord社の実装はこの反例だと思うのです。だからインパルス特性の優秀さを追求することは本質的な回答ではないと思います。
こちらになかなか参考になる意見と図があったのでぜひ見てください。ADC時の特性で既にインパルス特性の再現の意義が失われているという内容だと思います。
https://twitter.com/chebyshevLPF/status/1052742783268610050
フルーエンシーやスプライン補間の音をもしお聞きになったらぜひご感想聞かせてください。
すみません、オーバーサンプリング後のデータに対するタップ数なので実際は約1/88になりますね。
現状のDACのFIRフィルタは脳に与えるヒントが少なすぎて元々の音なのか残響に似た付帯音なのか区別がつかない状態になっているのではないかという予想になります。
Commentのシステムの関係で順番が入れ替わってしまって申し訳ありません。
NOSで聴いたのは手に入れやすくて回路が比較的簡単なTDA1543Aです。
付帯音は私も気になりますが、Fluencyのインパルス応答の式があったのでそれを適用してみると付帯音は減少しました。
CDを再生する限り可聴域のすぐ近くにある阻止帯域の歪の問題は不可避で完全なものは得られないのは判っているので、さらにAFを使ってどこまで削るかどうか等までは好みの問題なのでしょう。
高次のAFは通過帯域と阻止域の境界付近のゲインや位相特性が犠牲になりやすく、一般に入手可能なコンデンサの精度も低いため使われなくなったのだと思います。
スイッチトキャパシタフィルタのICもあったはずですが現在はあまり見かけないようですね。
BBの技術文書でも8ページの終わり部分に「ワンビットでは一般的にPDMあるいはPWM変調された信号をSCF(Switched Cap Filter)でアナログ信号に変換するが、これはキャパシタに電荷をチャージし伝送するのでその信号に応じた電荷にパワーが無く、パワー感を失うと推測されます。」という記述があります。
http://www.tij.co.jp/jp/lit/ml/jajt042/jajt042.pdf
次に時間軸デジタルLPFの問題ですが、画像だと時間軸の情報が無いため動画で説明するのがイメージしやすいと思います。
動画に於いて時間軸に関するLPFに対応する処理はブラーとなります。
動画は解像度に関係する空間サンプリング周波数に重点を置いているため時間軸のサンプリング周波数は数十fpsと低く、オーディオのように機械的にLPFを適用するとブラーのように著しく品質が低下してしまいます。
オーディオでも同様の影響はあるはずなのですが、サンプリング周波数が数十khzと高いために比較対象が無いと影響に気付きにくくなっています。
しかし一度気付くと無視できない差があるのはyohineさんのPCM-501ESの経験からも明らかでしょう。
tascam氏の指摘通り、「そもそも低タップのFIRフィルター自体が、高級オーディオにふさわしくない非常な低レベルなもの」なのだと思います。
100~400タップ程度の中途半端なFIRを避けるためにNOSやFluencyのようなシンプルなアプローチをするか、Chord社のように超長大タップのFIRを使う方法両方に効果があるのが面白いです。
先程の話のように、ブラーの継続時間を増やしても画質が改善するはずがないのに、オーディオに関してはFIRのタップを増やすと状況が改善するのは人間の脳による処理が関与しているものと思われます。
先のコメントで書いたように、人間の脳が畳み込んだインパルス応答を「残響」のように認識して分離しているのでしょう。
そのような能力がなければホールが変わると楽器の音が聴き分けられなくなるでしょう。
これはyohineさんの指摘されている「外敵の存在を聞き分ける能力」の応用なのだと思います。
人間が音程を聴き分けられるのは等価的に多数の自己相関関数の演算を行っているためだと推測しますが、脳が波形の自己相関を使って楽音と残響を分離するには少なくとも一周期以上のインパルス応答畳み込み期間が必要だと思われます。
20hzの音の周期は50msですが、現状のOSはその1/88程度のタップ数しかありません。
1200タップのフィルタで効果があったというのはこのこととも無関係ではない気がします。
度々長文を書いて申し訳ありません。私の気付いた点などは以上のようになります。
長文でのご回答ありがとうございました。
分析の内容そのものについては深く考察されていますし、ひとつのまとまった結論にたどり着いておりますので、特にこちらからそこについて内容に個別に言及するような部分はないと思いました。
その上でいくつか回答したいと思います。
AFの問題点で記載されていないのは残留ノイズです。多次アナログフィルタ=AFは例外なくノイズレベルが高いです。現在はいろいろな方式のフィルタICがありますが、積分形DAC内蔵のAFも現行のICも現在のハイエンドDACと比較して高いノイズレベルを持っています。廃れた理由にはノイズの問題もあるかと思います。
ちなみにフィルターについては頂いたご意見と私自身はちょっと違う考え方をしています。あくまで私自身の考え方について書いてみます。
個人的には確かにAFは位相ずれや諸問題を抱えていますが実際の音が良い点について、数式やデジタル領域での理屈前提から考えてしまうと大事なところが見えにくくなると考えています。
まず音質面の結果のみから考えてみますと、積分形DACと高度FIRの音が良いわけですが、積分形DACで言えばNOS+高次AFによるポストリンギングがありますし、高度FIRならプリリンギングもあります。なのでリンギング排除とインパルス応答の追求は音の重要要素ではないと考えます。同様に歪率も、位相ずれも、残留ノイズも問題ないとなります。
このように音質を前提に条件を整理すると現代のハイエンドDACが進めている方向は大半が間違っているとなります。歪率と残留ノイズを追求して簡易FIRフィルターを内蔵しています。
その上で多次AFと高度FIRに共通する条件は何かを考える必要があると思います。よくあるリンギング、プリエコーが駄目というのはこの2つの方式から離れる考え方なのでどうなのかなというところです。
まだ確定はしてないと思うのですが、人間の感覚に合う(脳に合う)方式が一番いいとは思います。少なくとも個人的にはですがNOS+ノンフィルターは駄目、簡易FIRは駄目ですね。スプラインの音は聞いてないのでなんとも言えません。でも多次AFと高度FIRがどちらも抑圧しっかりで急峻な特性なのでそこから離れるフルーエンシーとスプラインはちょっと違う方向性じゃないかって予想しています。