Zakladatel společnosti Earthworks David E. Blackmer na základě studia lidského sluchového mechanismu předkládá své argumenty a vizi zvuku s vysokým rozlišením.

Je mnoho sporů o tom, jak bychom mohli pokročit směrem k vyšší kvalitě reprodukce zvuku. Standard pro kompaktní disky předpokládá, že za hranicí 20 kHz není žádná užitečná informace, a proto obsahuje cihlový filtr těsně nad 20 kHz. Mnoho posluchačů slyší velký rozdíl při porovnání zvukových signálů omezených na 20kHz pásmo se signály v širokém pásmu. Byla navržena řada digitálních systémů, které vzorkují zvukové signály s frekvencí 96 kHz a vyšší a s kvantifikací až 24 bitů.

Mnoho inženýrů bylo vyškoleno v přesvědčení, že lidský sluch nedostává žádný smysluplný vstup z frekvenčních složek nad 20 kHz. Četl jsem mnoho rozhořčených dopisů od takových inženýrů, kteří trvají na tom, že informace nad 20 kHz jsou jednoznačně nepoužitelné a jakékoliv pokusy zahrnout takové informace do zvukových signálů jsou klamné, marnotratné a hloupé, a že každý správně smýšlející zvukový inženýr by si měl uvědomit, že toto 20kHz omezení je známo jako absolutní omezení již mnoho desetiletí. Na ty z nás, kteří jsou přesvědčeni, že existuje kriticky důležitá zvuková informace alespoň do 40 kHz, se pohlíží jako na pomýlené.

Musíme se podívat na mechanismy, které se podílejí na slyšení, a pokusit se jim porozumět. Díky tomuto pochopení můžeme vytvořit model schopností transdukčních a analytických systémů lidského sluchu a pracovat na nových a lepších standardech pro konstrukci zvukových systémů.

To, co mě přimělo začít se snahou pochopit schopnosti lidského sluchu za hranicí 20 kHz, byla příhoda z konce osmdesátých let. Právě jsem si pořídil systém MLSSA a porovnával jsem zvuk a odezvu skupiny kvalitních kopulovitých výškových reproduktorů. Nejlepší z nich měly prakticky identickou frekvenční odezvu do 20 kHz, přesto zněly velmi odlišně.

Když jsem se blíže podíval na jejich odezvu za hranicí 20 kHz, byly viditelně zcela odlišné. Výškové reproduktory s kovovou kopulí měly v amplitudové odezvě nad 20 kHz nepravidelný plot vrcholů a údolí. Výškové reproduktory s hedvábnou kopulí vykazovaly nad 20 kHz plynulý pokles. Kovová kopulka zněla ve srovnání s hedvábnou kopulkou ostře. Jak je to možné? Neslyším tóny ani do 20 kHz, a přesto byl rozdíl slyšitelný a opravdu dost drastický. Místo abych popíral to, co jsem jasně slyšel, začal jsem hledat jiná vysvětlení.

POKUD SE NA TO PODÍVÁME Z evolučního hlediska, lidský sluch se stal tím, čím je, protože je nástrojem přežití. Lidský sluchový smysl je velmi účinný při získávání všech možných detailů ze světa kolem nás, abychom se my i naši předkové mohli vyhnout nebezpečí, najít potravu, komunikovat, užívat si zvuků přírody a ocenit krásu toho, čemu říkáme hudba. Domnívám se, že lidský sluch je obecně mylně chápán především jako systém frekvenční analýzy. Převládající model lidského sluchu předpokládá, že sluchové vnímání je založeno na mozkové interpretaci výstupů systému frekvenční analýzy, který je v podstatě hřebenovým filtrem s širokým dynamickým rozsahem, v němž se do mozku přenáší intenzita každé frekvenční složky. Tento hřebenový filtr je jistě důležitou součástí našeho systému analýzy zvuku a je to úžasný filtr. Každé frekvenční pásmo je ostře naladěno systémem záporného mechanického odporu. Kromě toho se ladění Q každé filtrační složky upravuje v souladu s příkazy, které do hlemýždě vysílá řada předanalytických center (kochleárních jader) v blízkosti mozkového kmene. K těmto kochleárním jádrům vede řada nervových vláken s velmi vysokou přenosovou rychlostí, která spojují výstup každé vláskové buňky. Lidská schopnost interpretovat frekvenční informace je úžasná. Je však zřejmé, že se děje něco, co nelze zcela vysvětlit naší schopností slyšet tóny.

Vnitřní ucho je složité zařízení s neuvěřitelnými detaily ve své konstrukci. Akustické tlakové vlny se ve vnitřním uchu, konkrétně v hlemýždi, což je spirálovitá trubice vyplněná tekutinou, přeměňují na nervové impulzy. Akustický signál je přijímán bubínkem, kde je přeměněn na mechanické síly, které jsou přenášeny do oválného okénka a poté do hlemýždě, kde tlakové vlny procházejí podél bazilární membrány. Tato bazilární membrána je akusticky aktivní přenosové zařízení. Podél bazilární membrány se nacházejí řady dvou různých typů vláskových buněk, které se obvykle označují jako vnitřní a vnější.

Vnitřní vláskové buňky jednoznačně souvisejí s výše popsaným systémem frekvenční analýzy. Pouze asi 3 000 z 15 000 vláskových buněk na bazilární membráně se podílí na přenosu frekvenční informace pomocí výstupů tohoto filtru putujících vln. Vnější vláskové buňky zjevně dělají něco jiného, ale co?“

Existuje asi 12 000 „vnějších“ vláskových buněk uspořádaných do tří nebo čtyř řad. Vnějších vláskových buněk je čtyřikrát více než vnitřních(!), avšak s mozkem je spojuje jen asi 20 % všech dostupných nervových drah. Vnější vláskové buňky jsou propojeny nervovými vlákny v rozptýlené síti. Zdá se, že tato síť funguje jako analyzátor vlnění, nízkofrekvenční převodník a jako řídicí centrum pro superrychlá svalová vlákna (aktin), která zesilují a zostřují putující vlny procházející bazilární membránou, čímž vytvářejí hřebenový filtr. Má také schopnost extrahovat informace a přenášet je do analytických center v olivovém komplexu a dále do mozkové kůry, kde dochází k vědomému uvědomování zvukových vzorců. Informace z vnějších vláskových buněk, které zřejmě souvisejí spíše s tvarem vlny než s frekvencí, jsou jistě korelovány s frekvenční oblastí a dalšími informacemi v mozku a vytvářejí sluchový vjem.

Náš sluchový analytický systém je mimořádně citlivý na hranice (jakoukoli významnou počáteční nebo konečnou událost nebo bod změny). Jedním z výsledků tohoto procesu detekce hranic je mnohem větší povědomí o počátečním zvuku v komplexní sérii zvuků, jako je například dozvukové zvukové pole. Tato počáteční zvuková složka je zodpovědná za většinu našeho pocitu obsahu, významu a frekvenční rovnováhy v komplexním signálu. Lidský sluchový systém je zjevně citlivý na impulsní informace zakotvené v tónech. Mám podezření, že tento smysl stojí za tím, co se ve špičkové literatuře běžně označuje jako „vzduch“. Pravděpodobně také souvisí s tím, co považujeme za „texturu“ a „barvu“ – to, co dává každému zvuku jeho charakteristický individuální charakter. Ať už to nazveme jakkoli, domnívám se, že impulsní informace jsou důležitou součástí toho, jak lidé slyší.

Všechny výstupní signály z hlemýždě jsou přenášeny po nervových vláknech jako signály modulované rychlostí a polohou impulsů. Tyto signály slouží k přenosu informací o frekvenci, intenzitě, tvaru vlny, rychlosti změny a času. Nižší frekvence jsou ve sluchovém systému překvapivým způsobem převáděny na nervové impulzy. Výstupy vláskových buněk pro nižší frekvence jsou přenášeny především jako skupiny impulsů, které silně odpovídají kladné polovině akustické tlakové vlny, přičemž během záporné poloviny tlakové vlny je přenášeno jen málo impulsů, pokud vůbec nějaké. Ve skutečnosti tato nervová vlákna vysílají pouze v kladné polovině vlny. Tato situace trvá až do kmitočtu o něco vyššího než 1 kHz, přičemž zřetelné vrcholy půlvlny, které se objevují na vrcholu signálu sluchového nervu, jsou jasně patrné nejméně do kmitočtu 5 kHz. Na začátku a konci každé skupiny pozitivních tlakových pulzů je ostrá hranice, přibližně ve střední ose tlakové vlny. Tato transdukce skupin pulzů s ostrými hranicemi v ose je jedním z důležitých mechanismů, které vysvětlují časovou rozlišovací schopnost lidského ucha. V roce 1929 Von Bekesy publikoval měření ostrosti polohy lidského zvuku, což znamená časové rozlišení lepší než 10 µs mezi ušima. Nordmark v článku z roku 1976 dospěl k závěru, že intramurální rozlišení je lepší než 2 µs; intramurální časové rozlišení při frekvenci 250 Hz je údajně asi 10 µs, což znamená lepší než 1° fáze na této frekvenci.

Lidský sluchový systém používá k analýze signálů jak vlnovou, tak frekvenční charakteristiku. Je důležité zachovat přesný průběh až do oblasti nejvyšších frekvencí s přesnou reprodukcí detailů do 5µs až 10µs. Stejně důležitá je přesnost detailů nízkých frekvencí. Zjistili jsme, že mnoho nízkofrekvenčních zvuků, jako jsou bubny, získává při přesné reprodukci tvaru vlny pozoruhodnou sílu a emocionální dopad. Všimněte si prosím výjimečných zvuků bicích na CD The Dead Can Dance Into the Labyrinth. Zdá se, že zvuk bubnů má velmi nízkou základní frekvenci, možná kolem 20 Hz. Vzorkovali jsme datový tok z tohoto zvuku a zjistili jsme, že první pozitivní průběh má dvojnásobnou periodu než následný 40Hz průběh. Zřejmě stačil jeden půlcyklus 20Hz, aby se zdálo, že celý zvuk má základní frekvenci 20Hz.

Lidský sluchový systém, vnitřní i vnější vláskové buňky, dokáže analyzovat stovky téměř souběžných zvukových složek, identifikovat polohu zdroje, frekvenci, čas, intenzitu a přechodné jevy v každém z těchto mnoha zvuků současně a vytvořit podrobnou prostorovou mapu všech těchto zvuků s vědomím každého zdroje zvuku, jeho polohy, charakteru, barvy, hlasitosti a všech dalších identifikačních označení, která můžeme zvukovým zdrojům a jevům přiřadit. Domnívám se, že tyto informace o kvalitě zvuku zahrnují identifikaci tvaru vlny, vložených přechodových jevů a identifikaci vysokofrekvenčních složek alespoň do 40 kHz (i když tyto frekvence nemůžete „slyšet“ v izolované podobě).

Pro úplné splnění požadavků lidského sluchového vnímání se domnívám, že zvukový systém musí pokrývat frekvenční rozsah přibližně od 15 Hz do nejméně 40 kHz (někteří uvádějí 80 kHz nebo více) s dynamickým rozsahem přes 120 dB, aby bylo možné řádně zpracovat přechodové špičky, a s přesností přechodového času několika mikrosekund na vysokých frekvencích a přesností fáze 1°-2° do 30 Hz. Tento standard přesahuje možnosti současných systémů, ale je nanejvýš důležité, abychom pochopili zhoršení vnímané kvality zvuku, které je důsledkem kompromisů v nyní používaných systémech přenosu zvuku. Nejzřetelnějšími problémovými oblastmi jsou měniče, ale důležité jsou i úložné systémy a veškerá elektronika a propojení.

Naším cílem ve společnosti Earthworks je vyrábět zvukové nástroje, které jsou mnohem přesnější než starší zařízení, na kterých jsme vyrůstali. Rozhodně se snažíme posouvat hranice možností. Například náš předzesilovač LAB102 specifikujeme od 2 Hz do 100 kHz ±0,1 dB. Někdo by se mohl domnívat, že tento široký rozsah výkonu je nedůležitý, ale poslechněte si zvuk LAB102, je věrně přesný. Ve skutečnosti jsou body poklesu 1dB u předzesilovače LAB 0,4Hz a 1,3MHz, ale to není pro jeho přesnost klíčové. Jeho doba náběhu čtvercové vlny je jedna čtvrtina mikrosekundy. Jeho impulsní odezva je prakticky dokonalá.

Mikrofony jsou prvním článkem zvukového řetězce, který převádí tlakové vlny ve vzduchu na elektrické signály. Většina dnešních mikrofonů není příliš přesná. Jen málo z nich má dobrou frekvenční odezvu v celém rozsahu 15 Hz-40 kHz, který je podle mého názoru pro přesný zvuk nezbytný. Ve většině mikrofonů je aktivním akustickým zařízením membrána, která přijímá akustické vlny a podobně jako hlava bubnu se při úderu rozezní. Aby toho nebylo málo, je snímací kapsle obvykle umístěna v kleci s mnoha vnitřními rezonancemi a odrazy, které zvuk dále zabarvují. Směrové mikrofony, protože dosahují směrovosti vzorkováním zvuku ve více bodech, jsou ze své podstaty méně přesné než všesměrové. Zvonění, odrazy a více cest k membráně vedou k nadměrné fázi. Tyto mikrofony rozmazávají signál v časové oblasti.

Po mnoha měřeních a pečlivém poslechu jsme zjistili, že skutečná impulsní odezva mikrofonů je lepším ukazatelem kvality zvuku než frekvenční amplitudová odezva. Mikrofony s dlouhými a nesymetrickými impulsními charakteristikami budou barevnější než mikrofony s krátkými impulsními chvosty. Pro ilustraci tohoto bodu jsme pečlivě nahráli různé zdroje pomocí dvou různých omni modelů (Earthworks QTC1 a další známý model), které mají oba plochou frekvenční odezvu do 40 kHz v rozmezí -1 dB (obr. 1: QTC1 vs 4007). Při přehrávání na kvalitních reproduktorech je zvuk těchto dvou mikrofonů zcela odlišný. Při přehrávání na reproduktorech s téměř dokonalou impulsní a krokovou charakteristikou, které máme v naší laboratoři, je rozdíl ještě patrnější. Jediný významný rozdíl, který se nám podařilo mezi těmito dvěma mikrofony identifikovat, je jejich impulsní odezva.

Vyvinuli jsme systém pro odvození frekvenční charakteristiky mikrofonu z jeho impulsní odezvy. Po četných porovnáních výsledků našeho přepočtu impulsů s výsledky běžnější substituční metody jsme přesvědčeni o platnosti této metody jako primárního standardu. Několik příkladů uvidíte na obr. 2.

Pohled na průběh jako na impulsní odezvu je lepší pro interpretaci informací o vyšších frekvencích. Informace o nižších frekvencích lze lépe pochopit z prohlídky odezvy krokové funkce, která je matematickým integrálem impulsní odezvy. Obě křivky obsahují veškeré informace o frekvenční a časové odezvě v mezích daných časovým oknem, procesy vzorkování a šumem.

Výjimečná musí být i elektronika velmi kvalitních zvukových systémů. Zkreslení a přechodové intermodulační jevy by měly být v každém zesilovacím stupni udržovány na několika částech na milion, zejména v systémech s mnoha zesilovači v každém řetězci. Při návrhu vnitřních obvodů zvukových zesilovačů je obzvláště důležité oddělit referenční bod signálu v každém stupni od zpětných proudů napájení, které jsou obvykle strašně nelineární. Rozdílné vstupní obvody na každém stupni by měly extrahovat skutečný signál z předchozího stupně v zesilovači. Jakákoli celková zpětná vazba musí odkazovat z výstupních svorek a porovnávat se přímo se vstupními svorkami, aby se zabránilo příměsi zemního chrčení a přeslechů se signálem. Nedodržení těchto pravidel má za následek drsný „tranzistorový zvuk“. Tranzistory však mohou být použity způsobem, který vede k libovolně nízkému zkreslení, intermodulaci, šumové vazbě napájecího zdroje a jakýmkoli dalším chybám, které můžeme jmenovat, a mohou tedy přinést percepční dokonalost při zesilování zvukového signálu. (Termín „percepční dokonalost“ používám ve smyslu tak dokonalého systému nebo komponenty, že nemá žádnou chybu, kterou by mohl lidský sluch v nejlepším případě vnímat.) Mým současným konstrukčním cílem u zesilovačů je, aby veškeré harmonické zkreslení včetně 19kHz a 20kHz dvoutónových intermodulačních produktů bylo nižší než 1 část na milion a aby šum vážený A byl alespoň 130 dB pod maximálním sinusovým výstupem. Předpokládám, že signál může projít mnoha takovými zesilovači v systému bez zjistitelného zhoršení kvality signálu.

Mnoho zdrojů zvukového signálu má extrémně vysoké přechodové špičky, často až 20 dB nad úrovní odečítanou na ukazateli hlasitosti. Je důležité mít v systému zesílení zvuku nějaký vhodný měřicí nástroj pro měření špiček a pro zjištění, zda je s nimi vhodně nakládáno. Mnohé z dostupných měřičů pro odečet špiček neodečítají skutečné okamžité úrovně špiček, ale reagují na něco, co se blíží aproximaci špiček zprůměrovaných na 300 µs až 1ms. Všechny součásti systému včetně výkonových zesilovačů a reproduktorů by měly být navrženy tak, aby přesně reprodukovaly původní špičky. Záznamové systémy zkracují špičky, které jsou mimo jejich možnosti. Analogové magnetofony mají často plynulou kompresi špiček, která je často považována za méně škodlivou pro zvuk.

Mnohým nahrávacím společnostem se toto ořezávání špiček dokonce líbí a používají ho záměrně. Většina digitálních rekordérů má efekt cihlové zdi, při kterém jsou veškeré přebytečné špičky hranaté s katastrofálními účinky na výškové reproduktory a uši posluchačů. Kompresory a limitéry se často používají k plynulému snížení špiček, které by jinak byly mimo možnosti systému. Takové jednotky s detektory efektivní úrovně obvykle znějí lépe než jednotky s detektory průměrné nebo kvazišpičkové úrovně. Dbejte také na to, abyste vybírali signálové procesory s nízkým zkreslením. Pokud jsou dobře navrženy, bude zkreslení velmi nízké, pokud není vyžadována změna zesílení. Zkreslení při kompresi bude téměř výhradně třetí harmonické zkreslení, které není snadno rozpoznatelné uchem a které je obvykle přijatelné, pokud je slyšitelné.

Pohled na specifikace některých vysoce hodnocených super-high-endových, „bez zpětné vazby“, lampových, výkonových zesilovačů ukazuje, jak velké zkreslení je přijatelné, nebo dokonce preferované, pro některé příliš dobře situované audiofily.

Všechna spojení mezi různými částmi elektrického systému musí být navržena tak, aby se eliminoval šum a chyby signálu způsobené zemními proudy v napájecím vedení, střídavými magnetickými poli, vf odběrem, přeslechy a dielektrickými absorpčními efekty v izolaci vodičů. To je velmi důležité.

Reproduktory jsou druhým koncem audiosystému. Převádějí elektrické signály na tlakové vlny ve vzduchu. Reproduktory jsou obvykle ještě méně přesné než mikrofony. Vyrobit reproduktor, který splňuje výše uvedenou normu, je problematické. Ideálním reproduktorem je bodový zdroj. Zatím neexistuje jediný reproduktor, který by dokázal přesně reprodukovat celý rozsah 15 Hz-40 kHz. Všechny reproduktorové systémy s více měniči zahrnují kompromisy a ústupky.

Postavili jsme několik experimentálních reproduktorových systémů, které využívají stejné principy časové oblasti jako naše mikrofony Earthworks. Výsledky byly velmi slibné. Jakmile se přiblížíme k dokonalé impulzní a krokové odezvě, stane se něco magického. Kvalita zvuku se stává realistickou. Při živém ozvučování jazzu s použitím některých našich experimentálních reproduktorů a mikrofonů SR71 se kvalita zvuku se zesílením nezměnila. Z publika to znělo, jako by se vůbec nezesilovalo, i když jsme si byli ostře vědomi, že zvuk je hlasitější. Ani s poměrně velkým zesílením to neznělo, jako by to šlo přes reproduktory.

Poslech některých Bachových sborů, které jsme nahráli mikrofony QTC1 do 96kHz vzorkovacího rekordéru a přehráli přes naše inženýrské modelové reproduktory, je překvapivý zážitek. Detaily a zobrazování jsou ohromující. Slyšíte zleva doprava, zepředu dozadu a shora dolů, jako byste byli v místnosti s interprety. Je vzrušující zjistit, že děláme takový pokrok směrem k našemu cíli.

Slyšel jsem, že společnost Victor Talking Machine Company ve dvacátých letech minulého století vydávala reklamy, ve kterých Enrico Caruso citoval, že Victrola je tak dobrá, že její zvuk je nerozeznatelný od jeho vlastního hlasu naživo. V sedmdesátých letech Acoustic Research vysílal podobné reklamy, s podstatně větším odůvodněním, o živých a nahraných smyčcových kvartetech. Od té doby jsme ušli dlouhou cestu, ale můžeme dosáhnout percepční dokonalosti? Mám podezření, že skutečně vynikajícího zvuku, možná dokonce percepční dokonalosti? Jako referenční bod byste měli sestavit testovací systém s mikrofony i reproduktory s vynikající impulsní a krokovou odezvou, tedy téměř dokonalou frekvenční charakteristikou, spolu se zesilovači s nízkým zkreslením. Vyzkoušejte jej jako ozvučovací a/nebo studiový monitorovací systém se zdroji hlasu i hudby. Výsledek ohromí vás, účinkující i posluchače. Nemáte takový systém? Není to nemožné, říkáte si? Není! My jsme to dokázali! Pokud chcete získat více informací, zde je několik knih, které by podle mého názoru měl vlastnit a přečíst každý, kdo se intenzivně zabývá audiem, a pak si je mnohokrát přečíst znovu.

An Introduction to the Physiology of Hearing, Second Edition
James O. Pickles, Academic Press 1988
ISBN 0-12-554753-6 nebo ISBN 0-12-554754-4 pbk.

Spatial Hearing – Revised Edition: The Psychophysics of Human Sound Localization
Jen Blauert, MIT Press 1997
ISBN 0-262-02413-6

Experiments in Hearing
Georg von Békésy, Acoustical Society of America
ISBN 0-88318-630-6

Hearing: Fyziologická akustika, nervové kódování a psychoakustika
W. Lawrence Gulick, George A. Gescheider, Robert D. Frisina; Oxford University Press 1989
ISBN 0-19-50307-3

.

Articles

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.