人間の聴覚メカニズムの研究を基礎として、Earthworks の創設者 David E Blackmer が、高精細オーディオに対する主張とそのビジョンを提示します。 コンパクトディスクの規格では、20kHzより上には有用な情報はないと仮定しているため、20kHzのすぐ上にレンガの壁のようなフィルターがあります。 20kHzの帯域制限されたオーディオ信号と広帯域の信号を比較すると、多くのリスナーは大きな違いを感じる。 多くのエンジニアは、人間の聴覚は 20kHz 以上の周波数成分から意味のある入力を得られないと信じるように訓練されてきました。 私は、そのようなエンジニアから、20kHz 以上の情報は明らかに無意味であり、そのような情報をオーディオ信号に含めようとする試みは、欺瞞的で無駄で愚かなことであり、正しい考えを持つオーディオ エンジニアは、この 20kHz の制限が何十年も前から絶対的制限であることが知られていることに気付くべきだと主張する多くの怒りの手紙を読んだことがあります。 少なくとも 40kHz までは、決定的に重要なオーディオ情報があると確信している私たちは、見当違いと見なされるのです。 その理解を通じて、人間の聴覚における伝達および分析システムの能力のモデルを開発し、オーディオ システム設計のための新しい、より良い基準に向けて取り組むことができます。
人間の聴覚の 20kHz を超える能力を理解するための私の探求を始めたきっかけは、80 年代後半のある出来事でした。 ちょうど MLSSA システムを手に入れたところで、高品質のドームトゥイーター群の音とレスポンスを比較していました。 これらのうち最高のものは20kHzまでの周波数特性がほぼ同じでしたが、音は非常に異なっていました。
20kHzを超える応答をよく見ると、それらは目に見えてかなり異なっていました。 メタルドーム・トゥイーターは、20kHz以上の振幅特性において、山と谷の不規則なピケットフェンスがありました。 シルクドーム・トゥイーターは20kHzを超えると滑らかに落ちていく。 メタルドームがシルクドームに比べてキツイ音になっているのです。 これはどうしてなのでしょうか? 私は20kHzまでの音は聴き取れないのに、その差は歴然としている。 3612>
進化論的な観点から見ると、人間の聴覚は生存のための道具であるため、このような形になったのでしょう。 人間の聴覚は、私たちや祖先が危険を避け、食べ物を見つけ、コミュニケーションをとり、自然の音を楽しみ、私たちが音楽と呼ぶものの美しさを理解できるように、周囲の世界から可能な限りの詳細を抽出するのに非常に効果的です。 人間の聴覚は一般的に、主に周波数分析システムであると誤解されているように思う。 一般的な聴覚モデルは、聴覚が周波数分析システムの出力を脳が解釈することに基づいていると仮定しています。このシステムは、本質的に広ダイナミックレンジのコムフィルターであり、それぞれの周波数成分の強さが脳に伝達されます。 この櫛形フィルターは、確かに私たちの音分析システムの重要な部分であり、なんと素晴らしいフィルターであることか。 各周波数帯は負性機械抵抗方式で鋭くチューニングされています。 さらに、各フィルターエレメントのチューニングQは、脳幹付近にある一連の事前分析センター(蝸牛核)から蝸牛に送り返される指令に従って調整されている。 有毛細胞の出力は、伝送速度の速い神経線維によって、この蝸牛核に接続されている。 周波数情報を解釈する人間の能力には驚かされる。 しかし、明らかに、音を聞き分ける能力という観点からは完全に説明できない何かが起こっている。
内耳は、その構造に驚くべき詳細を持つ複雑な装置である。 音圧波は内耳、特に液体で満たされた螺旋状の管である蝸牛の中で神経パルスに変換される。 音響信号は鼓膜で受信され、機械的な力に変換され、卵円窓を経て蝸牛に伝わり、圧力波は脳底膜を通過する。 この脳底膜は、音響的にアクティブな伝達装置である。 3612>
内側有毛細胞は、明らかに前述の周波数分析システムに関連している。 この進行波フィルタの出力を使って周波数情報を伝達するのは、脳底膜の有毛細胞15,000個のうち約3,000個にすぎません。 外側の有毛細胞は明らかに他のことをしていますが、何でしょうか。
約1万2000個の「外側」有毛細胞が3列か4列に並んでいます。 外毛細胞の数は内毛細胞の4倍です(!)。しかし、外毛細胞を脳につなぐ神経経路は全体の約20%にすぎません。 外毛細胞は、神経線維によって分散したネットワークで結ばれている。 この配列は、波形解析器、低周波変換器、超高速筋繊維(アクチン)の司令塔として機能し、脳底膜を通過する進行波を増幅・先鋭化し、櫛形フィルタを生成しているようだ。 また、情報を抽出し、オリーブ複合体の分析センター、そして音波のパターンを意識的に認識する脳の大脳皮質に伝達する機能も持っている。 3612>
私たちの聴覚分析システムは、境界(重要な初期または最終イベントや変化点)に対して非常に敏感である。 この境界検出プロセスの結果の1つは、残響音場のような複雑な音の連続の中で、最初の音をより強く意識することである。 この最初の音の成分が、複雑な信号の内容、意味、周波数バランスなどの感覚の大部分を担っているのである。 人間の聴覚系は、明らかに音に埋め込まれたインパルス情報に敏感である。 この感覚は、ハイエンドの文献で一般的に言われている「空気感」の背後にあるのではないかと私は考えています。 これはおそらく、私たちが考える「テクスチャー」や「音色」、つまりそれぞれの音に独特の個性を与えるものにも関係しているのではないでしょうか。 3612>
蝸牛からのすべての出力信号は、パルスレートおよびパルス位置変調信号として神経線維に伝達されます。 これらの信号は、周波数、強度、波形、変化率、時間に関する情報を伝達するために使用される。 低周波は、意外な方法で聴覚系の神経インパルスに変換される。 低周波の有毛細胞出力は、主に音圧波の正の半分に強く対応するパルスのグループとして伝達され、音圧波の負の半分にはパルスがほとんど伝達されない。 事実上、これらの神経線維は、正の半波のみで伝送している。 この状況は1kHzよりやや上まで存在し、少なくとも5kHzまでは聴覚神経信号の上に乗っている半波のピークがはっきりと確認できる。 各正圧パルス群の始まりと終わりには、圧力波のほぼ中心軸に鋭い境界線がある。 この軸の鋭い境界を持つパルス群伝搬は、人間の耳の時間分解能を説明する重要なメカニズムの一つである。 1929年、Von Bekesyは人間の音位置の鋭敏さを測定し、耳と耳の間の時間分解能が10μs以上であることを発表している。 Nordmarkは1976年の論文で、耳内の分解能は2μs以上であると結論付けています。250Hzでの耳内の時間分解能は約10μsと言われており、この周波数では位相が1°より優れていることになります
人間の聴覚システムは周波数だけでなく波形を使って信号を解析しています。 最高周波数領域まで正確な波形を維持し、5μsから10μsまでの詳細を正確に再生することが重要です。 また、低周波の精度も同様に重要である。 ドラムのような低周波の音は、波形を正確に再現することで、驚くほど力強く、感動的なサウンドになることが分かっています。 デッド・カン・ダンスのCD「Into the Labyrinth」に収録されている卓越したドラムサウンドにご注目ください。 このドラムの音は、おそらく20Hz程度の非常に低い基音を持っているように思われます。 この音のビットストリームをサンプリングしてみると、最初の正の波形は、それに続く40Hzの波形の2倍の周期を持っていることがわかりました。 どうやら、20Hz の半周期だけで、音全体が 20Hz の基本波を持っているように見えるようです。
人間の聴覚系は、内毛細胞と外毛細胞の両方で、ほぼ同時に数百の音成分を分析し、これらの多くの音のそれぞれの音源位置、周波数、時間、強度、過渡現象を同時に識別し、各音源、その位置、特性、音色、音量、その他音の音源や事象に付けられる識別ラベルすべてを認識した、すべての音の詳しい空間図を展開することが可能です。 この音質情報には、波形、埋め込まれた過渡現象の識別、少なくとも40kHzまでの高周波成分の識別(これらの周波数を分離して「聞く」ことはできないとしても)が含まれると思います。
人間の聴覚の要求を完全に満たすには、サウンドシステムは約15Hzから少なくとも40kHz(80kHz以上という人もいます)の周波数範囲をカバーし、過渡ピークを適切に処理できる120dB以上のダイナミックレンジ、高周波での数マイクロ秒の過渡時間精度、30Hzまでの1°~2°の位相精度が必要だと私は考えています。 この基準は現在のシステムの能力を超えていますが、現在使用されているサウンドデリバリーシステムで行われている妥協の結果、知覚される音質の劣化を理解することが最も重要です。 トランスデューサーは最も明白な問題領域ですが、ストレージ システムやすべての電子機器、相互接続も重要です。
Earthworks の目標は、私たちが育った古い機器よりもはるかに正確なオーディオ ツールを製造することです。 確かに、私たちは限界に挑戦しています。 たとえば、LAB102 プリアンプは、2Hz から 100kHz ±0.1dB の範囲で指定しています。 このワイドレンジ性能は重要ではないと考える人もいるかもしれませんが、LAB102のサウンドを聴いてみてください。 実際、LABプリアンプの1dBダウンポイントは0.4Hzと1.3MHzですが、その正確さの秘訣はそこにあるわけではありません。 その矩形波の立ち上がり時間は1/4マイクロ秒です。 そのインパルス応答は事実上完璧です。
マイクロホンはオーディオ・チェーンの最初のリンクで、空気中の圧力波を電気信号に変換するものです。 今日のマイクロフォンのほとんどは、あまり正確ではありません。 正確な音に必要だと思われる15Hz~40kHzの全帯域で良好な周波数特性を持つものはほとんどありません。 ほとんどのマイクロホンの能動音響デバイスは、音響波を受け取る振動板で、ドラムのヘッドのように叩くと鳴ります。 さらに悪いことに、ピックアップカプセルは通常、多くの内部共振と反射を持つケージに収納されており、これがさらに音に色を付けています。 指向性マイクロホンは、複数のポイントで音をサンプリングすることで指向性を実現しているため、もともとオムニよりも精度が低いのです。 リンギング、反射、ダイヤフラムへの複数の経路は、過剰な位相のために加算されます。 このようなマイクロホンは、時間領域で信号を汚してしまいます。
私たちは、多くの測定と注意深いリスニングの結果、マイクロホンの真のインパルス応答は、周波数振幅応答よりも音質の良い指標であることを学びました。 長く非対称なインパルス性能を持つマイクロホンは、短いインパルス尾を持つものよりも色濃くなります。 この点を説明するために、2種類のオムニ型(Earthworks QTC1ともう一つの有名なモデル)を使って様々な音源を注意深く録音してみました(図1:QTC1 vs 4007)。 高音質スピーカーで再生すると、この2つのマイクの音はかなり違ってきます。 私たちの研究室にある、インパルスとステップの応答がほぼ完璧なスピーカーで再生すると、その差はさらに明らかになります。 3612>
私たちは、インパルス応答からマイクロホンの周波数応答を導き出すシステムを開発しました。 私たちのインパルス変換の結果と、より一般的な置換法の結果を何度も比較した結果、私たちはこれが一次標準として有効であることを確信しています。 図2にいくつかの例を示します。
インパルス応答として波形を見ることは、高い周波数の情報を解釈するのに適しています。 低周波の情報は、インパルス応答の数学的積分であるステップ関数応答を検査することでより容易に理解することができます。 どちらの曲線も、時間窓、サンプリング・プロセス、ノイズによる制限の範囲内で、周波数と時間応答に関するすべての情報を含んでいます。 特に各チェーンに多数のアンプを持つシステムでは、各増幅段での歪みと過渡相互変調を数百万分の一に抑える必要があります。 オーディオアンプの内部回路設計では、各段の信号基準点を、通常ひどく非線形である電源のリターン電流から分離することが特に重要です。 各段の差動入力回路は、アンプの前段から真の信号を抽出する必要があります。 全体的なフィードバックは、グランドグランジやクロストークが信号に混入しないよう、出力端子から参照し、入力端子と直接比較する必要があります。 これらのルールを守らないと、「トランジスタ・サウンド」と呼ばれる厳しい音になります。 しかし、トランジスタは、歪み、相互変調、電源ノイズ結合など、あらゆる誤差を任意に小さくすることができ、オーディオ信号の増幅において、知覚的に完璧なものを提供することができるのです。 (知覚的完全性」とは、人間の聴覚が最高の状態で知覚できるような誤差がないほど優れたシステムまたはコンポーネントを意味します)。 私の現在のアンプ設計目標は、19kHzと20kHzのツイントーン相互変調製品を含むすべての高調波歪みを100万分の1以下にすることと、A特性ノイズを最大正弦波出力より130dB以上低くすることである。 このようなアンプを多数使用しても、信号の品質が劣化しないことを前提としています。
多くのオーディオ信号源は非常に高い過渡ピークを持ち、しばしばボリュームインジケータで読み取るレベルより20dBも高いことがあります。 ピークを測定し、それが適切に処理されているかどうかを判断するために、オーディオ増幅システムに何らかの適切な測定ツールを用意することが重要です。 ピーク測定器の多くは,真の瞬間的なピークレベルを読み取るのではなく,300μsから1msの平均化されたピーク近似値に近い値に反応します。 パワーアンプやスピーカーなど、すべてのシステムコンポーネントは、オリジナルのピークを正確に再現するように設計する必要があります。 録音システムは、その能力を超えるピークを切り捨ててしまいます。 アナログテープレコーダーは、ピークを滑らかに圧縮していることが多く、音へのダメージが少ないとされています
多くのレコード会社は、このピーククリッピングを好み、意図的に使用しています。 ほとんどのデジタルレコーダーは、過剰なピークがツィーターやリスナーの耳に悲惨な影響を与える四角い壁となるレンガのような効果を持っています。 コンプレッサーやリミッターは、システムの能力を超えるようなピークをスムーズに低減するためによく使われます。 この場合、平均値や準尖頭値よりも、実効値検出器付きの方が音質が良くなります。 また、シグナルプロセッサーは、歪みの少ないものを選ぶように注意してください。 うまく設計されていれば,ゲインを変更する必要がないときには,歪みは非常に小さくなります。 圧縮時の歪みはほとんど3次高調波歪みとなり、耳では簡単に感知できませんが、通常は聞くことができれば許容できます。
高評価のスーパーハイエンド、「ノーフィードバック」、真空管、パワーアンプの仕様を見ると、一部の過度に裕福なオーディオファンにとってどれだけの歪みが許容できるか、あるいは好ましいかさえ分かります。
電気システムの異なる部分間のすべての接続は、電力線の接地電流、AC磁界、RFピックアップ、クロストーク、およびワイヤ絶縁体の誘電吸収効果によるノイズと信号エラーを排除するように設計されている必要があります。 これは非常に重要です。
ラウドスピーカーは、オーディオ・システムのもう一方の端です。 電気信号を空気中の圧力波に変換する。 ラウドスピーカーは通常、マイクロフォンよりもさらに精度が低い。 上記のような基準を満たすようなスピーカを作ることは問題である。 理想的なスピーカーは点音源である。 15Hz〜40kHzの全帯域を正確に再生するシングルドライバーはまだ存在しません。 3612>
私たちは、アースワークスマイクロホンで使われているのと同じ時間領域の原理を適用したスピーカーシステムをいくつか実験的に作りました。 その結果は非常に有望でした。 完璧なインパルス応答とステップ関数応答に近づくと、何か不思議なことが起こります。 音質が生き生きとしたものになるのです。 実験用スピーカーとSR71マイクを使ったジャズライブのサウンドインフォースメントでは、増幅しても音質が変わりませんでした。 客席からは、音が大きくなっていることを痛感しているにもかかわらず、まったく増幅されていないように聞こえました。 3612>
QTC1マイクで録音したバッハの合唱曲を96kHzサンプリングレコーダーで録音し、エンジニアリングモデルのスピーカーで再生すると、驚くべき体験ができます。 ディテールとイメージは驚くべきものです。 まるで演奏者と一緒に部屋にいるかのように、左右、前後、上下の音が聴こえるのです。 3612>
1920年代にビクター・トーキングマシン社が広告を出し、エンリコ・カルーソが「ビクトローラの音は自分の生声と区別がつかないほど良い」と言ったと聞いたことがあります。 70年代には、アコースティック・リサーチ社が、ライブと録音された弦楽四重奏団について、かなり正当な根拠をもって、同様の広告を出したことがあります。 それ以来、私たちは長い道のりを歩んできましたが、知覚的な完全性を達成することはできるのでしょうか? 私は、本当に優れた音は、おそらく知覚的な完璧ささえも達成するのでは? 参考までに、インパルス応答とステップ応答に優れたマイクとスピーカー、ひいてはほぼ完璧な周波数応答、低歪みのアンプでテストシステムを組み立ててみてください。 それをSRシステムとして、あるいはスタジオモニタリングシステムとして、音声と音楽の両方のソースでテストしてください。 あなた、演奏者、そして聴衆は、その結果に驚くことでしょう。 そのようなシステムをお持ちでないのですか? そんなことは不可能だとおっしゃいますか? そんなことはありません。 私たちはそれを実現しました! もっと詳しく知りたい方は、オーディオに深く関わっている人なら誰でも所有し、何度も読み返すべき本がいくつかあります。
An Introduction to the Physiology of Hearing, Second Edition
James O. Pickles, Academic Press 1988
ISBN 0-12-554753-6 or ISBN 0-12-554754-4 pbk.
Spatial Hearing – Revised Edition: The Psychophysics of Human Sound Localization
Jen Blauert, MIT Press 1997
ISBN 0-262-02413-6
Experiments in Hearing
Georg von Békésy, Acoustical Society of America
ISBN 0-88318-630-6
ヒアリング(The Hearing): 生理学的音響学、神経コーディング、精神音響学
W. Lawrence Gulick, George A. Gescheider, Robert D. Frisina; Oxford University Press 1989
ISBN 0-19-50307-3
W. Lawrence Gulick, George A. Gescheider, Robert D. Frisina, Oxford University Press 1989
W.