Gebaseerd op een studie van het menselijk gehoor, presenteert Earthworks’ oprichter David E Blackmer zijn argumenten voor, en zijn visie op, hoge-definitie audio.
Er is veel onenigheid over hoe we verder zouden kunnen gaan naar een hogere kwaliteit van geluidsreproductie. De compact-disc standaard gaat ervan uit dat er geen bruikbare informatie is boven 20kHz en bevat daarom een stenen muur filter net boven 20kHz. Veel luisteraars horen een groot verschil wanneer 20kHz-bandgelimiteerde audiosignalen worden vergeleken met breedbandige signalen. Er zijn een aantal digitale systemen voorgesteld die audiosignalen bemonsteren op 96 kHz en hoger, en met maximaal 24 bits kwantisering.
Veel ingenieurs zijn opgeleid om te geloven dat het menselijk gehoor geen zinvolle input ontvangt van frequentiecomponenten boven 20 kHz. Ik heb veel boze brieven gelezen van zulke ingenieurs die volhouden dat informatie boven 20kHz duidelijk nutteloos is, en dat alle pogingen om dergelijke informatie in audiosignalen op te nemen bedrieglijk, verspillend en dwaas zijn, en dat elke weldenkende audio-ingenieur zich zou moeten realiseren dat deze 20kHz-beperking al vele tientallen jaren bekend staat als een absolute beperking. Degenen onder ons die ervan overtuigd zijn dat er kritisch belangrijke audio-informatie is tot minstens 40kHz, worden beschouwd als misleid.
We moeten kijken naar de mechanismen die een rol spelen bij het gehoor, en proberen die te begrijpen. Door dat begrip kunnen we een model ontwikkelen van de mogelijkheden van de transductie- en analysesystemen in het menselijk gehoor en toewerken naar nieuwe en betere normen voor het ontwerpen van audiosystemen.
Wat mij op gang bracht in mijn zoektocht om de mogelijkheden van het menselijk gehoor boven 20kHz te begrijpen, was een voorval aan het eind van de jaren tachtig. Ik had net een MLSSA-systeem aangeschaft en vergeleek het geluid en de respons van een groep hoogwaardige koepeltweeters. De beste daarvan hadden een vrijwel identieke frequentierespons tot 20 kHz, maar klonken toch heel verschillend.
Toen ik hun respons voorbij 20 kHz nauwkeurig bekeek, waren ze zichtbaar heel verschillend. De metalen koepeltweeters hadden een onregelmatig hek van pieken en dalen in hun amplituderespons boven 20kHz. De silk-dome tweeters vertoonden een gelijkmatige afname boven 20 kHz. De metalen koepeltweeter klonk ruw in vergelijking met de zijden koepeltweeter. Hoe is dit mogelijk? Ik kan zelfs geen tonen tot 20 kHz horen, en toch was het verschil hoorbaar en werkelijk heel drastisch. In plaats van te ontkennen wat ik duidelijk hoorde, ging ik op zoek naar andere verklaringen.
Gezien vanuit een evolutionair standpunt, is het menselijk gehoor geworden wat het is omdat het een overlevingsmiddel is. Het menselijk gehoor is zeer effectief in het onttrekken van elk mogelijk detail aan de wereld om ons heen, zodat wij en onze voorouders gevaar kunnen vermijden, voedsel kunnen vinden, kunnen communiceren, kunnen genieten van de geluiden van de natuur, en de schoonheid kunnen waarderen van wat wij muziek noemen. Het menselijk gehoor wordt over het algemeen, denk ik, verkeerd begrepen als zijnde in de eerste plaats een frequentie-analysesysteem. Het gangbare model van het menselijk gehoor gaat ervan uit dat de auditieve waarneming gebaseerd is op de interpretatie door de hersenen van de output van een frequentie-analysesysteem dat in wezen een kamfilter met groot dynamisch bereik is, waarin de intensiteit van elke frequentiecomponent aan de hersenen wordt doorgegeven. Deze kamfilter is zeker een belangrijk onderdeel van ons geluidsanalysesysteem, en wat een verbazingwekkend filter is het. Elke frequentiezone wordt scherp afgestemd met een systeem van negatieve mechanische weerstand. Bovendien wordt de afstemmings Q van elk filterelement aangepast in overeenstemming met commando’s die naar het slakkenhuis worden teruggezonden door een reeks vooranalysecentra (de cochleaire kernen) in de buurt van de hersenstam. Een aantal zenuwvezels met zeer hoge transmissiesnelheid verbinden de output van elke haarcel met deze cochleaire kernen. Het menselijk vermogen om frequentie-informatie te interpreteren is verbazingwekkend. Het is echter duidelijk dat er iets aan de hand is dat niet volledig kan worden verklaard in termen van ons vermogen om tonen te horen.
Het binnenoor is een complex apparaat met ongelooflijke details in zijn constructie. Akoestische drukgolven worden omgezet in zenuwimpulsen in het binnenoor, meer bepaald in het slakkenhuis, dat een met vloeistof gevulde spiraalvormige buis is. Het akoestische signaal wordt ontvangen door het trommelvlies, waar het wordt omgezet in mechanische krachten die worden doorgegeven aan het ovale venster en vervolgens in het slakkenhuis, waar de drukgolven langs het basilair membraan passeren. Dit basilair membraan is een akoestisch actief transmissieapparaat. Langs het basilair membraan liggen rijen van twee verschillende soorten haarcellen, die gewoonlijk binnenste en buitenste worden genoemd.
De binnenste haarcellen hebben duidelijk betrekking op het hierboven beschreven frequentie-analysesysteem. Slechts ongeveer 3.000 van de 15.000 haarcellen op het basilair membraan zijn betrokken bij het overbrengen van frequentie-informatie met behulp van de uitgangen van dit lopende-golf filter. De buitenste haarcellen doen duidelijk iets anders, maar wat?
Er zijn ongeveer 12.000 ‘buitenste’ haarcellen, gerangschikt in drie of vier rijen. Er zijn vier keer zoveel buitenste haarcellen als binnenste haarcellen(!) Maar slechts ongeveer 20% van het totaal aantal beschikbare zenuwbanen verbindt ze met de hersenen. De buitenste haarcellen zijn onderling verbonden door zenuwvezels in een gedistribueerd netwerk. Dit netwerk lijkt te fungeren als een golfvorm-analysator, een lage-frequentie-omzetter, en als een commandocentrum voor de supersnelle spiervezels (actine) die de lopende golven die langs het basilair membraan passeren versterken en verscherpen en zo de kamfilter produceren. Het heeft ook het vermogen om informatie te extraheren en door te zenden naar de analysecentra in het olivariumcomplex, en vervolgens naar de cortex van de hersenen waar het bewuste bewustzijn van sonische patronen plaatsvindt. De informatie van de buitenste haarcellen, die meer betrekking lijkt te hebben op de golfvorm dan op de frequentie, wordt zeker gecorreleerd met het frequentiedomein en andere informatie in de hersenen om het auditieve zintuig te produceren.
Ons auditief analysesysteem is buitengewoon gevoelig voor grenzen (elke significante initiële of finale gebeurtenis of punt van verandering). Een resultaat van dit grensdetectieproces is het veel grotere bewustzijn van het initiële geluid in een complexe reeks van geluiden, zoals een galmend geluidsveld. Deze initiële geluidscomponent is verantwoordelijk voor het grootste deel van ons gevoel van inhoud, betekenis, en frequentiebalans in een complex signaal. Het menselijk auditieve systeem is klaarblijkelijk gevoelig voor impulsinformatie die in de tonen is ingebed. Mijn vermoeden is dat dit gevoel ten grondslag ligt aan wat in de high-end literatuur gewoonlijk “lucht” wordt genoemd. Het heeft waarschijnlijk ook te maken met wat wij “textuur” en “timbre” noemen – datgene wat elk geluid zijn onderscheidende individuele karakter geeft. Hoe we het ook noemen, ik denk dat impulsinformatie een belangrijk deel uitmaakt van hoe mensen horen.
Alle uitgangssignalen van het slakkenhuis worden over zenuwvezels verzonden als pulssnelheid en pulspositie gemoduleerde signalen. Deze signalen worden gebruikt om informatie over frequentie, intensiteit, golfvorm, snelheid van verandering en tijd over te brengen. De lagere frequenties worden in het auditieve systeem op een verrassende manier omgezet in zenuwimpulsen. De output van de haarcellen voor de lagere frequenties wordt hoofdzakelijk doorgegeven als groepen impulsen die sterk overeenkomen met de positieve helft van de akoestische drukgolf, terwijl er weinig of geen impulsen worden doorgegeven tijdens de negatieve helft van de drukgolf. In feite zenden deze zenuwvezels alleen op de positieve helft van de golf uit. Deze situatie bestaat tot iets boven 1 kHz, waarbij waarneembare pieken van de halve golf bovenop het signaal van de gehoorzenuw duidelijk zichtbaar zijn tot ten minste 5 kHz. Er is een scherpe grens aan het begin en einde van elke positieve drukpulsgroep, ongeveer op de centrale as van de drukgolf. Deze pulsgroeptransductie met scherpe grenzen aan de as is een van de belangrijke mechanismen die de tijdresolutie van het menselijk oor verklaren. In 1929 publiceerde Von Bekesy een meting van de menselijke geluidspositieacuraatheid die zich vertaalt in een tijdsresolutie van beter dan 10µs tussen de oren. Nordmark, in een artikel uit 1976, concludeerde dat de intramurale resolutie beter is dan 2µs; intramurale tijdresolutie bij 250Hz zou ongeveer 10µs zijn, wat zich vertaalt in beter dan 1° van fase bij deze frequentie.
Het menselijk hoorsysteem gebruikt zowel golfvorm als frequentie om signalen te analyseren. Het is belangrijk dat de golfvorm nauwkeurig blijft tot in het hoogste frequentiegebied met een nauwkeurige weergave van details tot 5µs à 10µs. De nauwkeurigheid van details in de lage frequenties is even belangrijk. Wij vinden dat veel geluiden met een lage frequentie, zoals drums, een opmerkelijke kracht en emotionele impact krijgen wanneer de golfvorm nauwkeurig wordt gereproduceerd. Let eens op de uitzonderlijke drumklanken op The Dead Can Dance CD Into the Labyrinth. Het drumgeluid lijkt een zeer lage grondtoon te hebben, misschien ongeveer 20Hz. Wij hebben de bitstream van dit geluid bemonsterd en vastgesteld dat de eerste positieve golfvorm tweemaal de periode had van de daaropvolgende 40Hz golfvorm. Blijkbaar was één halve cyclus van 20Hz genoeg om het hele geluid een 20Hz fundament te doen lijken.
Het menselijk auditieve systeem, zowel de binnenste als de buitenste haarcellen, kunnen honderden bijna gelijktijdige geluidscomponenten analyseren, de bronplaats, frequentie, tijd, intensiteit en voorbijgaande gebeurtenissen in elk van deze vele geluiden gelijktijdig identificeren en een gedetailleerde ruimtelijke kaart van al deze geluiden ontwikkelen met bewustzijn van elke geluidsbron, zijn positie, karakter, timbre, luidheid, en alle andere identificatielabels die we kunnen hechten aan sonische bronnen en gebeurtenissen. Ik denk dat deze informatie over de geluidskwaliteit ook de golfvorm omvat, identificatie van ingebedde transiënten, en identificatie van hoogfrequente componenten tot minstens 40 kHz (zelfs als je deze frequenties niet in geïsoleerde vorm kunt “horen”).
Om VOLLEDIG aan de eisen van de menselijke auditieve waarneming te voldoen, moet een geluidssysteem volgens mij het frequentiegebied van ongeveer 15Hz tot minstens 40kHz (sommigen zeggen 80kHz of meer) bestrijken met een dynamisch bereik van meer dan 120dB om pieken van voorbijgaande aard goed te kunnen opvangen en met een tijdnauwkeurigheid van enkele microseconden bij hoge frequenties en 1°-2° fasernauwkeurigheid tot 30Hz. Deze norm gaat de mogelijkheden van de huidige systemen te boven, maar het is van het grootste belang dat we ons bewust zijn van de achteruitgang van de waargenomen geluidskwaliteit die het gevolg is van de compromissen die worden gesloten in de thans gebruikte systemen voor de levering van geluid. De transducers zijn de meest voor de hand liggende probleemgebieden, maar de opslagsystemen en alle elektronica en onderlinge verbindingen zijn ook belangrijk.
Het is ons doel bij Earthworks om audio-instrumenten te produceren die veel nauwkeuriger zijn dan de oudere apparatuur waarmee we zijn opgegroeid. We zijn zeker op de goede weg. Zo specificeren we onze LAB102 voorversterker van 2Hz tot 100kHz ±0.1dB. Sommigen zouden kunnen denken dat dit grote bereik onbelangrijk is, maar luister naar het geluid van de LAB102, het is levensecht en accuraat. In feite zijn de 1dB down punten van de LAB voorversterker 0.4Hz en 1.3MHz, maar dat is niet de sleutel tot zijn nauwkeurigheid. De stijgtijd van de blokgolf is een kwart microseconde. Zijn impulsresponsie is praktisch perfect.
Microfoons zijn de eerste schakel in de audioketen, zij vertalen de drukgolven in de lucht in elektrische signalen. De meeste van de huidige microfoons zijn niet erg nauwkeurig. Slechts weinige hebben een goede frequentierespons over het gehele bereik van 15Hz-40kHz, wat naar mijn mening noodzakelijk is voor een nauwkeurig geluid. In de meeste microfoons is het actieve akoestische element een diafragma dat de akoestische golven opvangt, en net als een trommelvel rinkelt het wanneer erop wordt geslagen. Tot overmaat van ramp zit de pickup capsule meestal in een kooi met veel interne resonanties en reflecties die het geluid verder kleuren. Directionele microfoons zijn van nature minder nauwkeurig dan omni-microfoons, omdat zij directionaliteit bereiken door het geluid op meerdere punten te samplen. De ringing, reflecties en meervoudige paden naar het diafragma leiden tot een overmatige fase. Deze microfoons smeren het signaal in het tijdsdomein uit.
Wij hebben na vele metingen en zorgvuldig luisteren geleerd dat de werkelijke impulsrespons van microfoons een betere indicator is van de geluidskwaliteit dan de frequentie-amplitude respons. Microfoons met lange en niet-symmetrische impulsprestaties zullen meer gekleurd zijn dan die met korte impulstaarten. Om dit punt te illustreren hebben wij zorgvuldig een verscheidenheid van bronnen opgenomen met gebruikmaking van twee verschillende omni modellen (Earthworks QTC1 en een ander bekend model) die beide een vlakke frequentierespons hebben tot 40kHz binnen -1dB.(Fig.1: QTC1 vs 4007). Bij weergave via hoogwaardige luidsprekers is het geluid van deze twee microfoons heel verschillend. Bij weergave op luidsprekers met een vrijwel perfecte impuls- en staprespons, zoals wij die in ons laboratorium hebben, is het verschil nog duidelijker. Het enige verschil van betekenis dat wij tussen deze twee microfoons hebben kunnen vaststellen is hun impulsrespons.
Wij hebben een systeem ontwikkeld om de frequentierespons van een microfoon af te leiden uit zijn impulsrespons. Na talrijke vergelijkingen tussen de resultaten van onze impulsomzetting en de resultaten van de meer gebruikelijke substitutiemethode zijn wij overtuigd van de geldigheid van deze methode als primaire standaard. U ziet hiervan verschillende voorbeelden in Fig.2.
Bekijken van de golfvorm als impulsrespons is beter voor het interpreteren van informatie in hogere frequenties. Informatie over lagere frequenties kan gemakkelijker worden begrepen door de stap-functierespons te bekijken, die de wiskundige integraal van de impulsrespons is. Beide curven bevatten alle informatie over frequentie en tijdrespons binnen de grenzen die worden opgelegd door het tijdvenster, de bemonsteringsprocessen en ruis.
De elektronica in geluidssystemen van zeer hoge kwaliteit moet ook uitzonderlijk zijn. Vervorming en transiënte intermodulatie moeten in elke versterkertrap beperkt blijven tot enkele delen per miljoen, vooral in systemen met veel versterkers in elke keten. Bij het ontwerp van de interne schakeling van audioversterkers is het bijzonder belangrijk om het signaalreferentiepunt in elke trap te scheiden van de retourstromen van de voeding, die gewoonlijk verschrikkelijk niet-lineair zijn. Verschil-ingangscircuits op elke trap moeten het ware signaal van de vorige trap in de versterker onttrekken. Een eventuele algemene terugkoppeling moet verwijzen van de uitgangsklemmen en rechtstreeks vergelijken met de ingangsklemmen om vermenging van aardingsruis en overspraak met het signaal te voorkomen. Het niet naleven van deze regels resulteert in een hard ’transistorgeluid’. Transistors kunnen echter worden gebruikt op een manier die resulteert in een willekeurig lage vervorming, intermodulatie, koppeling van voedingsruis en alle andere fouten die we kunnen opnoemen, en kunnen daarom perceptuele perfectie in audiosignaalversterking opleveren. (Ik gebruik “perceptuele perfectie” om een systeem of component aan te duiden dat zo uitstekend is dat het geen enkele fout vertoont die door het menselijk gehoor op zijn best zou kunnen worden waargenomen). Mijn huidige ontwerpdoelstelling voor versterkers is dat alle harmonische vervorming, inclusief 19kHz en 20kHz tweetonige intermodulatieproducten, onder 1 deel per miljoen moet blijven en dat de A-gewogen ruis ten minste 130dB onder de maximale sinusuitgang moet liggen. Ik neem aan dat een signaal door veel van dergelijke versterkers in een systeem kan gaan zonder waarneembare verslechtering van de signaalkwaliteit.
Veel audiosignaalbronnen hebben extreem hoge transiënte pieken, vaak wel 20dB boven het niveau dat op een volume-indicator wordt afgelezen. Het is van belang in een audioversterkingssysteem over een adequaat meetinstrument te beschikken om pieken te meten en vast te stellen dat ze op de juiste wijze worden verwerkt. Veel van de beschikbare piekmeters lezen geen echte onmiddellijke piekniveaus af, maar reageren op iets dat dichter bij een gemiddelde piekbenadering van 300µs tot 1ms ligt. Alle systeemcomponenten, met inbegrip van eindversterkers en luidsprekers, moeten zo worden ontworpen dat de oorspronkelijke pieken nauwkeurig worden weergegeven. Opnamesystemen korten pieken af die buiten hun vermogen liggen. Analoge bandrecorders hebben vaak een soepele compressie van de pieken die vaak als minder schadelijk voor het geluid wordt beschouwd.
MELE RECORDISTS houden zelfs van dit piekclippen en gebruiken het opzettelijk. De meeste digitale recorders hebben een baksteen-muur effect waarbij overtollige pieken worden afgeknepen met desastreuze gevolgen voor tweeters, en de oren van de luisteraar. Compressors en limiters worden vaak gebruikt om pieken die anders de capaciteit van het systeem te boven gaan, vloeiend te verminderen. Dergelijke apparaten met RMS-niveaumeters klinken gewoonlijk beter dan die met gemiddelde- of quasi-piekmelders. Ook moet erop worden gelet dat signaalprocessoren worden gekozen met een lage vervorming. Als ze goed ontworpen zijn, zal de vervorming zeer laag zijn wanneer geen versterkingsverandering nodig is. Vervorming tijdens compressie zal bijna geheel derde harmonische vervorming zijn, die niet gemakkelijk door het oor wordt waargenomen en die gewoonlijk aanvaardbaar is als ze kan worden gehoord.
Een blik op de specificaties van sommige van de hoog gewaardeerde super-high-end, ‘no feedback’, vacuümbuis, eindversterkers onthult hoeveel vervorming aanvaardbaar is, of zelfs de voorkeur verdient, voor sommige buitensporig welgestelde audiofielen.
Alle verbindingen tussen verschillende delen van het elektrische systeem moeten zo zijn ontworpen dat ze ruis en signaalfouten als gevolg van aardstromen, magnetische wisselstroomvelden, RF-pickup, overspraak en diëlektrische absorptie-effecten in draadisolatie elimineren. Dit is van cruciaal belang.
Luidsprekers zijn het andere eind van het audiosysteem. Zij zetten elektrische signalen om in drukgolven in de lucht. Luidsprekers zijn gewoonlijk nog minder nauwkeurig dan microfoons. Het maken van een luidspreker die voldoet aan de hierboven genoemde norm is problematisch. De ideale luidspreker is een puntbron. Tot op heden bestaat er geen enkele driver die het gehele bereik van 15Hz-40kHz accuraat kan reproduceren. Alle luidsprekersystemen met meerdere drivers brengen compromissen met zich mee.
We hebben verschillende experimentele luidsprekersystemen gebouwd waarin dezelfde tijd-domein principes worden toegepast als in onze Earthworks microfoons. De resultaten zijn veelbelovend. Als we perfecte impuls en stap-functie respons benaderen gebeurt er iets magisch. De geluidskwaliteit wordt levensecht. In een situatie van live jazz-geluidsversterking met een aantal van onze experimentele luidsprekers en onze SR71 microfoons veranderde de geluidskwaliteit niet met de versterking. Vanuit het publiek klonk het alsof het helemaal niet versterkt werd, ook al waren we ons er terdege van bewust dat het geluid luider was. Zelfs met behoorlijk wat versterking klonk het niet alsof het door luidsprekers ging.
Luisteren naar wat Bach koormuziek die we met QTC1 microfoons hebben opgenomen in een 96kHz sampling recorder, en afgespeeld door onze engineering model luidsprekers is een opzienbarende ervaring. De details en de weergave zijn verbluffend. Je hoort van links naar rechts, van voor naar achter en van boven naar beneden, alsof je zelf in de zaal zit met de uitvoerenden. Het is opwindend om te merken dat we zo’n goede vooruitgang boeken in de richting van ons doel.
Ik heb gehoord dat de Victor Talking Machine Company in de jaren twintig advertenties had waarin Enrico Caruso werd geciteerd toen hij zei dat de Victrola zo goed was dat het geluid ervan niet te onderscheiden was van zijn eigen stem live. In de jaren zeventig plaatste Acoustic Research soortgelijke advertenties, met aanzienlijk meer onderbouwing, over live versus opgenomen strijkkwartetten. We hebben sindsdien een lange weg afgelegd, maar kunnen we perceptuele perfectie bereiken? Ik vermoed dat echt uitstekend geluid, misschien zelfs perceptuele perfectie is? Als referentiepunt zou je een testsysteem moeten samenstellen met zowel microfoons als luidsprekers met een uitstekende impuls- en staprespons, dus een bijna perfecte frequentierespons, samen met versterkers met een lage vervorming. Test het als een geluidsversterkingssysteem en/of studio monitoringsysteem met zowel spraak- als muziekbronnen. U, de uitvoerende kunstenaars en het publiek zullen versteld staan van het resultaat. U heeft zo’n systeem toch niet? Dat is toch onmogelijk, zegt u? Dat is het niet! Wij hebben het gedaan! Als u meer informatie wilt, volgen hier enkele boeken waarvan ik vind dat iedereen die zich intensief met audio bezighoudt ze zou moeten bezitten en lezen, en ze vervolgens vele malen zou moeten herlezen.
An Introduction to the Physiology of Hearing, Second Edition
James O. Pickles, Academic Press 1988
ISBN 0-12-554753-6 of ISBN 0-12-554754-4 pbk.
Spatial Hearing – Revised Edition: The Psychophysics of Human Sound Localization
Jen Blauert, MIT Press 1997
ISBN 0-262-02413-6
Experiments in Hearing
Georg von Békésy, Acoustical Society of America
ISBN 0-88318-630-6
Hearing: Physiological Acoustics, Neural Coding, and Psychoacoustics
W. Lawrence Gulick, George A. Gescheider, Robert D. Frisina; Oxford University Press 1989
ISBN 0-19-50307-3