Med udgangspunkt i et studie af den menneskelige hørelse præsenterer Earthworks’ grundlægger David E Blackmer sine argumenter for og sin vision om high-definition audio.

Der er stor uenighed om, hvordan vi kan bevæge os frem mod en højere kvalitet i gengivelsen af lyd. Compact-disc-standarden antager, at der ikke er nogen brugbar information ud over 20 kHz og indeholder derfor et murstensfilter lige over 20 kHz. Mange lyttere hører en stor forskel, når 20 kHz-båndsbegrænsede lydsignaler sammenlignes med bredbåndssignaler. Der er blevet foreslået en række digitale systemer, som sampler lydsignaler ved 96 kHz og derover og med op til 24 bits kvantisering.

Mange ingeniører er blevet oplært i at tro, at den menneskelige hørelse ikke modtager noget meningsfuldt input fra frekvenskomponenter over 20 kHz. Jeg har læst mange vrede breve fra sådanne ingeniører, der insisterer på, at information over 20 kHz helt klart er ubrugelig, og at ethvert forsøg på at inkludere sådan information i lydsignaler er vildledende, spild og tåbeligt, og at enhver fornuftig lydingeniør bør indse, at denne begrænsning på 20 kHz har været kendt som en absolut begrænsning i mange årtier. De af os, der er overbevist om, at der er kritisk vigtig lydinformation til mindst 40 kHz, betragtes som vildledte.

Vi må se på de mekanismer, der er involveret i hørelsen, og forsøge at forstå dem. Gennem denne forståelse kan vi udvikle en model for kapaciteten af transduktions- og analysesystemerne i den menneskelige hørelse og arbejde hen imod nye og bedre standarder for design af lydsystemer.

Det, der fik mig i gang med min søgen efter at forstå kapaciteten af den menneskelige hørelse ud over 20 kHz, var en hændelse i slutningen af firserne. Jeg havde netop erhvervet et MLSSA-system og var ved at sammenligne lyden og responsen af en gruppe kuppelhøjttalere af høj kvalitet. De bedste af disse havde stort set identisk frekvensrespons til 20 kHz, men de lød alligevel meget forskelligt.

Når jeg så nærmere på deres respons ud over 20 kHz, var de synligt meget forskellige. Metal-dome-tweeterne havde et uregelmæssigt hegn af toppe og dale i deres amplitude respons over 20 kHz. Silkedome-tweetere udviste et jævnt fald over 20 kHz. Metalkuplen lød hård i forhold til silkekuplen. Hvordan kan det være? Jeg kan ikke høre toner selv op til 20 kHz, og alligevel var forskellen hørbar og virkelig ret drastisk. I stedet for at benægte det, jeg tydeligt hørte, begyndte jeg at lede efter andre forklaringer.

VIDERE set fra et evolutionært synspunkt er menneskets hørelse blevet, hvad den er, fordi den er et overlevelsesredskab. Den menneskelige høresans er meget effektiv til at udtrække alle mulige detaljer fra verden omkring os, så vi og vores forfædre kan undgå farer, finde mad, kommunikere, nyde naturens lyde og værdsætte skønheden i det, vi kalder musik. Jeg tror, at den menneskelige hørelse generelt misforstås som værende primært et frekvensanalysesystem. Den fremherskende model for den menneskelige hørelse antager, at den auditive opfattelse er baseret på hjernens fortolkning af udgangssignalerne fra et frekvensanalysesystem, som i det væsentlige er et kamfilter med stort dynamisk område, hvor intensiteten af hver enkelt frekvenskomponent overføres til hjernen. Dette kamfilter er helt sikkert en vigtig del af vores lydanalysesystem, og sikke et fantastisk filter det er. Hver frekvenszone er skarpt afstemt med et system med negativ mekanisk modstand. Desuden justeres tuning Q for hvert filterelement i overensstemmelse med de kommandoer, der sendes tilbage til cochlea fra en række præ-analysecentre (de cochleare kerner) nær hjernestammen. En række nervefibre med meget høj transmissionshastighed forbinder hver hårcelles udgang med disse cochleare kerner. Menneskets evne til at fortolke frekvensinformation er forbløffende. Det er dog klart, at der foregår noget, som ikke udelukkende kan forklares ud fra vores evne til at høre toner.

Det indre øre er en kompleks enhed med utrolige detaljer i sin opbygning. Akustiske trykbølger omdannes til nerveimpulser i det indre øre, nærmere bestemt i cochlea, som er et væskefyldt spiralrør. Det akustiske signal modtages af trommehinden, hvor det omdannes til mekaniske kræfter, som overføres til det ovale vindue og derefter til cochlea, hvor trykbølgerne passerer langs basilarmembranen. Denne basilarmembran er en akustisk aktiv transmissionsanordning. Langs basilarmembranen findes rækker af to forskellige typer hårceller, der normalt betegnes som indre og ydre.

De indre hårceller har en klar sammenhæng med det ovenfor beskrevne frekvensanalysesystem. Kun ca. 3.000 af de 15.000 hårceller på basilarmembranen er involveret i overførslen af frekvensinformation ved hjælp af udgangene fra dette vandrende bølgefilter. De ydre hårceller gør tydeligvis noget andet, men hvad?

Der er ca. 12.000 “ydre” hårceller, der er anbragt i tre eller fire rækker. Der er fire gange så mange ydre hårceller som indre hårceller(!) Der er dog kun ca. 20 % af de samlede tilgængelige nervebaner, der forbinder dem med hjernen. De ydre hårceller er forbundet med hinanden af nervefibre i et distribueret netværk. Dette netværk synes at fungere som en bølgeformsanalysator, en lavfrekvenstransducer og som kommandocentral for de superhurtige muskelfibre (actin), som forstærker og skærper de vandrende bølger, der passerer langs basilarmembranen, og derved producerer kamfilteret. Den har også evnen til at udtrække information og overføre den til analysecentrene i olivariekomplekset og derefter videre til hjernebarken, hvor den bevidste bevidsthed om lydmønstre finder sted. Informationen fra de ydre hårceller, som synes at være mere relateret til bølgeform end frekvens, korreleres helt sikkert med frekvensdomænet og anden information i hjernen for at frembringe den auditive sans.

Vores auditive analysesystem er overordentligt følsomt over for grænser (enhver væsentlig indledende eller afsluttende begivenhed eller ændringspunkt). Et resultat af denne grænsedetektionsproces er den meget større bevidsthed om den indledende lyd i en kompleks serie af lyde som f.eks. et reverberant lydfelt. Denne indledende lydkomponent er ansvarlig for det meste af vores fornemmelse af indhold, betydning og frekvensbalance i et komplekst signal. Det menneskelige auditive system er tydeligvis følsomt over for impulsinformationer, der er indlejret i tonerne. Min mistanke er, at denne fornemmelse ligger bag det, der almindeligvis omtales som “luft” i high-end-litteraturen. Den hænger sandsynligvis også sammen med det, vi opfatter som “tekstur” og “klangfarve” – det, der giver hver lyd sin særlige individuelle karakter. Uanset hvad vi kalder det, foreslår jeg, at impulsinformation er en vigtig del af den måde, som mennesker hører på.

Alle udgangssignaler fra sneglen overføres på nervefibre som pulshastigheds- og pulspositionsmodulerede signaler. Disse signaler bruges til at overføre information om frekvens, intensitet, bølgeform, ændringshastighed og tid. De lavere frekvenser overføres til nerveimpulser i det auditive system på en overraskende måde. Hårcellens output for de lavere frekvenser transmitteres primært som grupper af impulser, der i høj grad svarer til den positive halvdel af den akustiske trykbølge, mens der kun transmitteres få eller ingen impulser i den negative halvdel af trykbølgen. Disse nervefibre transmitterer faktisk kun på den positive halvbølge. Denne situation eksisterer op til noget over 1 kHz med tydelige halvbølgetoppe på toppen af det auditive nervesignal, der er klart synlige til mindst 5 kHz. Der er en skarp grænse ved begyndelsen og slutningen af hver positiv trykpulsgruppe, omtrent ved trykbølgens midterakse. Denne pulsgruppetransduktion med skarpe grænser ved aksen er en af de vigtige mekanismer, som forklarer det menneskelige øres tidsopløsning. I 1929 offentliggjorde Von Bekesy en måling af den menneskelige lydpositionsopløsning, som svarer til en tidsopløsning på mere end 10 µs mellem ørerne. Nordmark konkluderede i en artikel fra 1976, at den intramurale opløsning er bedre end 2 µs; den intramurale tidsopløsning ved 250 Hz siges at være ca. 10 µs, hvilket svarer til bedre end 1° fase ved denne frekvens.

Det menneskelige høresystem bruger både bølgeform og frekvens til at analysere signaler. Det er vigtigt at opretholde en nøjagtig bølgeform op til det højeste frekvensområde med nøjagtig gengivelse af detaljer ned til 5µs til 10µs. Nøjagtigheden af detaljer ved lave frekvenser er lige så vigtig. Vi finder, at mange lavfrekvente lyde som f.eks. trommer får en bemærkelsesværdig styrke og følelsesmæssig virkning, når bølgeformen reproduceres nøjagtigt. Bemærk venligst de exceptionelle trommelyde på Dead Can Dance-cd’en Into the Labyrinth. Trommelyden ser ud til at have en meget lav grundtone, måske omkring 20 Hz. Vi samplede bitstrømmen fra denne lyd og fandt ud af, at den første positive bølgeform havde dobbelt så lang periode som den efterfølgende 40 Hz-bølgeform. Tilsyneladende var en halv cyklus på 20 Hz nok til at få hele lyden til at virke som om den havde en 20 Hz grundtone.

Det menneskelige auditive system, både de indre og ydre hårceller, kan analysere hundredvis af næsten samtidige lydkomponenter, identificere kildens placering, frekvens, tid, intensitet og forbigående hændelser i hver af disse mange lyde samtidigt og udvikle et detaljeret rumligt kort over alle disse lyde med bevidsthed om hver lydkilde, dens placering, karakter, klangfarve, lydstyrke og alle andre identifikationsmærker, som vi kan knytte til lydkilder og -hændelser. Jeg mener, at denne information om lydkvalitet omfatter bølgeform, identifikation af indlejrede transienter og identifikation af højfrekvente komponenter op til mindst 40 kHz (selv om man ikke kan “høre” disse frekvenser i isoleret form).

Til FULDSTÆNDIGT at opfylde kravene til den menneskelige auditive opfattelse mener jeg, at et lydsystem skal dække frekvensområdet fra ca. 15 Hz til mindst 40 kHz (nogle siger 80 kHz eller mere) med et dynamisk område på over 120 dB for at kunne håndtere transiente spidser korrekt og med en transient tidsnøjagtighed på nogle få mikrosekunder ved høje frekvenser og en fasegenøjagtighed på 1°-2° ned til 30 Hz. Denne standard ligger ud over de nuværende systemers muligheder, men det er meget vigtigt, at vi forstår den forringelse af den opfattede lydkvalitet, der er resultatet af de kompromiser, der er indgået i de nu anvendte systemer til levering af lyd. Transducere er de mest indlysende problemområder, men lagringssystemerne og al elektronikken og sammenkoblingerne er også vigtige.

Vores mål hos Earthworks er at fremstille lydværktøjer, der er langt mere nøjagtige end det ældre udstyr, vi voksede op med. Vi skubber helt sikkert på grænsen. For eksempel specificerer vi vores LAB102-forforforstærker fra 2Hz til 100kHz ±0,1dB. Nogle vil måske mene, at denne brede ydeevne er ligegyldig, men lyt til lyden af LAB102, den er naturtro nøjagtig. Faktisk er LAB-forforstærkerens 1 dB nedadgående punkter 0,4 Hz og 1,3 MHz, men det er ikke det afgørende for dens nøjagtighed. Dens kvadratiske bølgestigningstid er et kvart mikrosekund. Dens impulsrespons er praktisk talt perfekt.

Mikrofoner er det første led i lydkæden, der oversætter trykbølgerne i luften til elektriske signaler. De fleste af nutidens mikrofoner er ikke særlig præcise. Meget få har et godt frekvensrespons over hele området 15Hz-40kHz, hvilket jeg mener er nødvendigt for at opnå præcis lyd. I de fleste mikrofoner er den aktive akustiske enhed en membran, der modtager de akustiske bølger, og ligesom et trommeskind vil den ringe, når man slår på den. For at gøre tingene endnu værre er pickup-kapslen normalt anbragt i et bur med mange interne resonanser og refleksioner, som yderligere farver lyden. Direktionelle mikrofoner er i sagens natur mindre nøjagtige end omnismikrofoner, fordi de opnår retningsbestemte mikrofoner ved at tage prøver af lyden på flere punkter. Ringning, refleksioner og flere veje til membranen giver tilsammen en overdreven fase. Disse mikrofoner udtværer signalet i tidsdomænet.

Vi har efter mange målinger og omhyggelig lytning lært, at mikrofonernes sande impulsrespons er en bedre indikator for lydkvaliteten end frekvensamplituderesponset. Mikrofoner med lange og ikke-symmetriske impulsrespons vil være mere farvede end mikrofoner med korte impulshaler. For at illustrere dette punkt har vi omhyggeligt optaget en række forskellige kilder ved hjælp af to forskellige omni-modeller (Earthworks QTC1 og en anden velkendt model), som begge har et fladt frekvensrespons til 40 kHz inden for -1 dB (fig. 1: QTC1 vs. 4007). Ved afspilning på højttalere af høj kvalitet er lyden af disse to mikrofoner ret forskellig. Når den afspilles på højttalere med næsten perfekt impuls- og trinrespons, som vi har i vores laboratorium, er forskellen endnu mere tydelig. Den eneste væsentlige forskel, som vi har kunnet identificere mellem disse to mikrofoner, er deres impulsrespons.

Vi har udviklet et system til at udlede en mikrofons frekvensrespons fra dens impulsrespons. Efter talrige sammenligninger mellem resultaterne af vores impulskonvertering og resultaterne af den mere almindelige substitutionsmetode er vi overbeviste om gyldigheden af denne som primær standard. Du vil se flere eksempler på dette i Fig.2.

At betragte bølgeformen som impulsrespons er bedre til at fortolke information om højere frekvenser. Informationer med lavere frekvens kan lettere forstås ved at inspicere trinfunktionsresponset, som er det matematiske integral af impulsresponset. Begge kurver indeholder alle oplysninger om frekvens- og tidsrespons inden for de grænser, der er pålagt af tidsvinduet, samplingsprocesserne og støj.

Elektronikken i lydsystemer af meget høj kvalitet skal også være enestående. Distortion og transient intermodulation bør holdes på nogle få dele pr. million i hvert forstærkningstrin, især i systemer med mange forstærkere i hver kæde. I det interne kredsløbsdesign af lydforstærkere er det især vigtigt at adskille signalreferencepunktet i hvert trin fra strømforsyningens returstrømme, som normalt er frygtelig ulineære. Differensindgangskredsløb i hvert trin bør udtrække det sande signal fra det foregående trin i forstærkeren. Enhver samlet tilbagekobling skal referere fra udgangsterminalerne og sammenlignes direkte med indgangsterminalerne for at undgå blanding af jordforbindelser og krydstale med signalet. Hvis disse regler ikke overholdes, resulterer det i en barsk “transistorlyd”. Transistorer kan imidlertid anvendes på en måde, der resulterer i en vilkårligt lav forvrængning, intermodulation, kobling af strømforsyningsstøj og alle andre fejl, som vi kan nævne, og kan derfor levere perceptuel perfektion i forstærkning af lydsignaler. (Jeg bruger “perceptuel perfektion” til at betegne et system eller en komponent, der er så fremragende, at det ikke har nogen fejl, der kan opfattes af den menneskelige hørelse, når den er bedst.) Mit nuværende designmål for forstærkere er at have alle harmoniske forvrængninger, herunder 19kHz og 20kHz twin-tone intermodulationsprodukter under 1 del pr. million, og at have A-vægtet støj på mindst 130 dB under den maksimale sinusbølgeudgang. Jeg går ud fra, at et signal kan gå gennem mange sådanne forstærkere i et system uden at signalets kvalitet forringes.

Mange lydsignalkilder har ekstremt høje transiente spidser, ofte så høje som 20 dB over det niveau, der aflæses på en volumenindikator. Det er vigtigt at have et passende måleværktøj i et lydforstærkningssystem til at måle spidserne og fastslå, at de håndteres korrekt. Mange af de tilgængelige peakmåler måler ikke ægte øjeblikkelige peak-niveauer, men reagerer på noget, der ligger tættere på en 300 µs til 1 ms gennemsnitlig peak-beregning. Alle systemkomponenter, herunder effektforstærkere og højttalere, bør være konstrueret til at gengive de oprindelige spidsværdier nøjagtigt. Optagelsessystemer afskærer de spidser, der ligger uden for deres kapacitet. Analoge båndoptagere har ofte en jævn komprimering af spidserne, som ofte anses for at være mindre skadelig for lyden.

Mange optagere kan endda lide denne spidsklipning og bruger den med vilje. De fleste digitale optagere har en murstensvægseffekt, hvor alle overskydende spidser bliver kvadratiseret med katastrofale virkninger for diskanthøjttalere og lytterens ører. Kompressorer og begrænsere bruges ofte til at reducere spidser, som ellers ville være uden for systemets kapacitet. Sådanne enheder med RMS-niveaudetektorer lyder normalt bedre end enheder med gennemsnits- eller kvasitoppe-detektorer. Vær også omhyggelig med at vælge signalprocessorer med lav forvrængning. Hvis de er godt designet, vil forvrængningen være meget lav, når der ikke er behov for nogen forstærkningsændring. Forvrængning under kompression vil næsten udelukkende være tredjeharmonisk forvrængning, som ikke let kan registreres af øret, og som normalt er acceptabel, når den kan høres.

Et kig på specifikationerne for nogle af de højt vurderede super-high-end, “no feedback”, vakuumrørs-, effektforstærkere afslører, hvor meget forvrængning der er acceptabel, eller endog at foretrække, for nogle overdrevent velbjergede audiofile.

Alle forbindelser mellem forskellige dele af det elektriske system skal være konstrueret til at eliminere støj og signalfejl som følge af jordstrømme i netledningen, magnetiske vekselstrømsfelter, RF-optagelse, crosstalk og dielektriske absorptionseffekter i ledningsisolering. Dette er afgørende.

Lydhøjttalere er den anden ende af lydsystemet. De omdanner elektriske signaler til trykbølger i luften. Højttalere er normalt endnu mindre præcise end mikrofoner. Det er problematisk at fremstille en højttaler, der opfylder ovennævnte standard. Den ideelle højttaler er en punktkilde. Der findes endnu ikke en enkelt driver, som nøjagtigt kan gengive hele området 15 Hz-40 kHz. Alle højttalersystemer med flere drivere indebærer kompromiser og afvejninger.

Vi har bygget flere eksperimentelle højttalersystemer, som anvender de samme tidsdomæneprincipper, der anvendes i vores Earthworks-mikrofoner. Resultaterne har været meget lovende. Når vi nærmer os perfekt impuls- og trinfunktionsrespons, sker der noget magisk. Lydkvaliteten bliver livagtig. I en live jazzlydforstærkningssituation med nogle af vores eksperimentelle højttalere og vores SR71-mikrofoner ændrede lydkvaliteten sig ikke i takt med forstærkningen. Fra publikum lød det, som om det slet ikke blev forstærket, selv om vi var meget bevidste om, at lyden var højere. Selv med en hel del forstærkning lød det ikke, som om det gik gennem højttalere.

Det er en overraskende oplevelse at lytte til noget Bach-kormusik, som vi optog med QTC1-mikrofoner til en 96 kHz samplingoptager og afspillede gennem vores højttalere af konstruktionsmodel. Detaljerne og billeddannelsen er fantastisk. Du kan høre fra venstre til højre, fra for til bag og fra top til bund, som om du er i rummet sammen med de udøvende musikere. Det er spændende at konstatere, at vi gør så store fremskridt i retning af vores mål.

Jeg har hørt, at Victor Talking Machine Company i 1920’erne kørte reklamer, hvor Enrico Caruso blev citeret for at sige, at Victrola’en var så god, at dens lyd ikke kunne skelnes fra hans egen stemme live. I halvfjerdserne kørte Acoustic Research lignende reklamer, med betydeligt mere begrundelse, om live- og indspillede strygekvartetter. Vi er kommet langt siden da, men kan vi opnå perceptuel perfektion? Jeg formoder, at virkelig fremragende lyd, måske endda perceptuel perfektion? Som referencepunkt bør man sammensætte et testsystem med både mikrofoner og højttalere med fremragende impuls- og trinrespons og dermed næsten perfekt frekvensrespons sammen med forstærkere med lav forvrængning. Afprøv det som et lydforstærkningssystem og/eller et studieovervågningssystem med både stemme- og musikkilder. Du, de udøvende kunstnere og publikum vil blive overrasket over resultatet. Har du ikke et sådant system? Er det ikke umuligt, siger du? Det er det ikke! Vi har gjort det! Hvis du vil have flere oplysninger, er her flere bøger, som jeg mener, at enhver, der beskæftiger sig intensivt med lyd, bør eje og læse og derefter genlæse mange gange.

An Introduction to the Physiology of Hearing, Second Edition
James O. Pickles, Academic Press 1988
ISBN 0-12-554753-6 eller ISBN 0-12-554754-4 pbk.

Spatial Hearing – Revised Edition: The Psychophysics of Human Sound Localization
Jen Blauert, MIT Press 1997
ISBN 0-262-02413-6

Experiments in Hearing
Georg von Békésy, Acoustical Society of America
ISBN 0-88318-630-6

Hearing: Fysiologisk akustik, neural kodning og psykoakustik
W. Lawrence Gulick, George A. Gescheider, Robert D. Frisina; Oxford University Press 1989
ISBN 0-19-50307-3

Articles

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.