Med en studie av den mänskliga hörselmekanismen som grund presenterar Earthworks grundare David E Blackmer sina argument för, och sin vision av, högupplöst ljud.
DET ÄR MYCKET kontroversiellt om hur vi ska gå vidare mot en högre kvalitet på ljudåtergivningen. Standarden för cd-skivor utgår från att det inte finns någon användbar information bortom 20 kHz och innehåller därför ett filter med en tegelvägg strax över 20 kHz. Många lyssnare hör en stor skillnad när 20 kHz bandbegränsade ljudsignaler jämförs med bredbandiga signaler. Ett antal digitala system har föreslagits som samplar ljudsignaler vid 96 kHz och högre, och med upp till 24 bitars kvantisering.
Många ingenjörer har tränats i att tro att den mänskliga hörseln inte får någon meningsfull input från frekvenskomponenter över 20 kHz. Jag har läst många ilskna brev från sådana ingenjörer som insisterar på att information över 20 kHz helt klart är värdelös och att alla försök att inkludera sådan information i ljudsignaler är vilseledande, slösaktigt och dåraktigt, och att alla rättänkande ljudingenjörer borde inse att denna 20 kHz-begränsning har varit känd för att vara en absolut begränsning i många decennier. De av oss som är övertygade om att det finns kritiskt viktig ljudinformation till minst 40 kHz betraktas som vilseledda.
Vi måste titta på de mekanismer som är inblandade i hörseln och försöka förstå dem. Genom den förståelsen kan vi utveckla en modell för kapaciteten hos transduktions- och analyssystemen i den mänskliga hörseln och arbeta mot nya och bättre standarder för utformning av ljudsystem.
Det som fick mig att börja min strävan att förstå kapaciteten hos den mänskliga hörseln bortom 20 kHz var en händelse i slutet av åttiotalet. Jag hade just förvärvat ett MLSSA-system och jämförde ljudet och responsen hos en grupp kupolhögtalare av hög kvalitet. De bästa av dessa hade praktiskt taget samma frekvensgång till 20 kHz, men de lät ändå mycket olika.
När jag tittade närmare på deras frekvensgång bortom 20 kHz var de synligt helt olika. Metalldometrarna hade ett oregelbundet staket av toppar och dalar i sin amplitudrespons över 20 kHz. Silkedom-tweetrarna uppvisade en jämn nedgång över 20 kHz. Metallkupolhögtalarna lät hårda jämfört med silkekupolhögtalarna. Hur kan detta vara möjligt? Jag kan inte höra toner till och med upp till 20 kHz, och ändå var skillnaden hörbar och faktiskt ganska drastisk. I stället för att förneka det jag tydligt hörde började jag leta efter andra förklaringar.
Vid betraktat från en evolutionär synvinkel har den mänskliga hörseln blivit vad den är eftersom den är ett överlevnadsverktyg. Det mänskliga hörselsinnet är mycket effektivt när det gäller att extrahera alla möjliga detaljer från världen omkring oss så att vi och våra förfäder kan undvika faror, hitta mat, kommunicera, njuta av naturens ljud och uppskatta skönheten i det vi kallar musik. Den mänskliga hörseln missuppfattas i allmänhet, tror jag, som att den i första hand är ett frekvensanalyssystem. Den förhärskande modellen för mänsklig hörsel utgår från att hörseluppfattningen bygger på hjärnans tolkning av resultaten från ett frekvensanalyssystem som i huvudsak är ett kamfilter med stort dynamiskt omfång, där intensiteten av varje frekvenskomponent överförs till hjärnan. Detta kamfilter är verkligen en viktig del av vårt ljudanalyssystem, och vilket fantastiskt filter det är. Varje frekvenszon är skarpt inställd med ett system med negativt mekaniskt motstånd. Dessutom justeras varje filterelements avstämnings-Q i enlighet med de kommandon som sänds tillbaka till cochlea från en rad föranalyscentra (cochleakärnorna) i närheten av hjärnstammen. Ett antal nervfibrer med mycket snabb överföringshastighet förbinder varje hårcells utgång med dessa cochlearkärnor. Människans förmåga att tolka frekvensinformation är häpnadsväckande. Det är dock uppenbart att något pågår som inte helt och hållet kan förklaras i termer av vår förmåga att höra toner.
Det inre örat är en komplex anordning med otroliga detaljer i sin konstruktion. Akustiska tryckvågor omvandlas till nervpulser i innerörat, närmare bestämt i snäckan, som är ett vätskefyllt spiralrör. Den akustiska signalen tas emot av trumhinnan där den omvandlas till mekaniska krafter som överförs till det ovala fönstret och sedan till snäckan där tryckvågorna passerar längs basilarmembranet. Detta basilarmembran är en akustiskt aktiv överföringsanordning. Längs basilarmembranet finns rader av två olika typer av hårceller, vanligen kallade inre och yttre.
De inre hårcellerna har en tydlig koppling till det frekvensanalyssystem som beskrivs ovan. Endast cirka 3 000 av de 15 000 hårcellerna på basilarmembranet är involverade i överföringen av frekvensinformation med hjälp av utgångarna från detta vandringsvågsfilter. De yttre hårcellerna gör uppenbarligen något annat, men vad?
Det finns cirka 12 000 ”yttre” hårceller som är ordnade i tre eller fyra rader. Det finns fyra gånger så många yttre hårceller som inre hårceller(!) Det är dock bara cirka 20 % av de totala tillgängliga nervbanorna som förbinder dem med hjärnan. De yttre hårcellerna är sammankopplade av nervfibrer i ett distribuerat nätverk. Denna grupp verkar fungera som en vågformsanalysator, en lågfrekvensomvandlare och som en kommandocentral för de supersnabba muskelfibrerna (aktin) som förstärker och skärper de resande vågorna som passerar längs basilarmembranet och därigenom producerar kamfiltret. Den har också förmågan att extrahera information och överföra den till analyscentrumen i olivariekomplexet och sedan vidare till hjärnans cortex där den medvetna medvetenheten om ljudmönster äger rum. Informationen från de yttre hårcellerna, som verkar vara mer relaterad till vågform än frekvens, korreleras säkert med frekvensdomänen och annan information i hjärnan för att producera det auditiva sinnet.
Vårt auditiva analyssystem är utomordentligt känsligt för gränser (varje betydande inledande eller avslutande händelse eller förändringspunkt). Ett resultat av denna gränsdetekteringsprocess är den mycket större medvetenheten om det första ljudet i en komplex serie av ljud, t.ex. ett reverberande ljudfält. Denna initiala ljudkomponent är ansvarig för det mesta av vår känsla av innehåll, mening och frekvensbalans i en komplex signal. Det mänskliga hörselsystemet är uppenbarligen känsligt för impulsinformation som är inbäddad i tonerna. Min misstanke är att denna känsla ligger bakom det som vanligen kallas för ”luft” i högkvalitativ litteratur. Den är förmodligen också kopplad till vad vi anser vara ”textur” och ”klangfärg” – det som ger varje ljud dess distinkta individuella karaktär. Oavsett vad vi kallar det föreslår jag att impulsinformation är en viktig del av hur människor hör.
Alla utgångssignaler från snäckan överförs på nervfibrer som pulsfrekvens- och pulspositionsmodulerade signaler. Dessa signaler används för att överföra information om frekvens, intensitet, vågform, förändringshastighet och tid. De lägre frekvenserna omvandlas till nervimpulser i hörselsystemet på ett överraskande sätt. Hårcellernas produktion för de lägre frekvenserna överförs främst som grupper av pulser som starkt motsvarar den positiva halvan av den akustiska tryckvågen, och få eller inga pulser överförs under den negativa halvan av tryckvågen. I själva verket sänder dessa nervfibrer endast på den positiva halva vågen. Denna situation existerar upp till något över 1 kHz med urskiljbara halvvågstoppar ovanpå den auditiva nervsignalen som är tydligt synliga upp till minst 5 kHz. Det finns en skarp gräns i början och slutet av varje positiv tryckpulsgrupp, ungefär vid tryckvågens centrala axel. Denna pulsgruppstransduktion med skarpa gränser vid axeln är en av de viktiga mekanismer som förklarar det mänskliga örats tidsupplösning. År 1929 publicerade Von Bekesy en mätning av den mänskliga ljudlägesupplösningen, vilket motsvarar en tidsupplösning på bättre än 10 µs mellan öronen. Nordmark drog i en artikel från 1976 slutsatsen att den intramurala upplösningen är bättre än 2 µs. Den intramurala tidsupplösningen vid 250 Hz sägs vara cirka 10 µs, vilket motsvarar bättre än 1° fas vid denna frekvens.
Det mänskliga hörselsystemet använder sig av såväl vågform som frekvens för att analysera signaler. Det är viktigt att upprätthålla en exakt vågform upp till det högsta frekvensområdet med exakt återgivning av detaljer ner till 5µs till 10µs. Noggrannheten av detaljer vid låga frekvenser är lika viktig. Vi finner att många lågfrekventa ljud, t.ex. trummor, får en anmärkningsvärd styrka och känslomässig inverkan när vågformen reproduceras exakt. Lägg märke till de exceptionella trumljuden på CD-skivan Into the Labyrinth från Dead Can Dance. Trumljudet verkar ha en mycket låg grundton, kanske omkring 20 Hz. Vi samplade bitströmmen från detta ljud och fann att den första positiva vågformen hade dubbelt så lång period som den efterföljande 40 Hz-vågformen. Uppenbarligen räckte en halv cykel på 20 Hz för att hela ljudet skulle verka ha en grundton på 20 Hz.
Det mänskliga hörselsystemet, både inre och yttre hårceller, kan analysera hundratals nästan samtidiga ljudkomponenter, identifiera källans placering, frekvens, tid, intensitet och övergående händelser i vart och ett av dessa många ljud samtidigt och utveckla en detaljerad rumslig karta över alla dessa ljud med medvetenhet om varje ljudkälla, dess position, karaktär, klangfärg, ljudsignal och alla andra identifieringsetiketter som vi kan fästa vid ljudkällor och ljudhändelser. Jag tror att denna information om ljudkvalitet omfattar vågform, identifiering av inbäddade transienter och identifiering av högfrekvenskomponenter upp till minst 40 kHz (även om man inte kan ”höra” dessa frekvenser i isolerad form).
För att fullt ut uppfylla kraven för mänsklig hörseluppfattning anser jag att ett ljudsystem måste täcka frekvensområdet från cirka 15 Hz till minst 40 kHz (vissa säger 80 kHz eller mer) med ett dynamiskt omfång på över 120 dB för att hantera transienta toppar på ett korrekt sätt och med en transient tidsnoggrannhet på några få mikrosekunder vid höga frekvenser och en fasnoggrannhet på 1°-2° ned till 30 Hz. Denna standard ligger utanför dagens system, men det är mycket viktigt att vi förstår den försämring av den upplevda ljudkvaliteten som är ett resultat av de kompromisser som görs i de system för ljudöverföring som nu används. Transducrarna är de mest uppenbara problemområdena, men lagringssystemen och all elektronik och sammankopplingar är också viktiga.
Vårt mål på Earthworks är att producera ljudverktyg som är mycket mer exakta än den äldre utrustning som vi växte upp med. Vi driver verkligen på gränserna. Till exempel specificerar vi vår LAB102-förförstärkare från 2 Hz till 100 kHz ±0,1 dB. En del kanske tror att denna breda prestanda är oviktig, men lyssna på ljudet från LAB102, det är verklighetstroget exakt. Faktum är att LAB-förförstärkarens 1 dB nedgångspunkter är 0,4 Hz och 1,3 MHz, men det är inte det som är nyckeln till dess noggrannhet. Dess stigningstid för kvadratiska vågor är en kvarts mikrosekund. Dess impulssvar är praktiskt taget perfekt.
Mikrofoner är den första länken i ljudkedjan och översätter tryckvågorna i luften till elektriska signaler. De flesta av dagens mikrofoner är inte särskilt exakta. Väldigt få har ett bra frekvensomfång över hela intervallet 15 Hz-40 kHz, vilket jag anser vara nödvändigt för ett korrekt ljud. I de flesta mikrofoner är den aktiva akustiska anordningen ett membran som tar emot de akustiska vågorna, och likt ett trumskinn kommer det att ringa när man slår på det. För att göra saken värre är pickupkapseln vanligtvis inrymd i en bur med många interna resonanser och reflektioner som ytterligare färgar ljudet. Eftersom riktmikrofoner uppnår riktningen genom att sampling av ljudet i flera punkter är de till sin natur mindre exakta än omnismikrofoner. Ringaren, reflektionerna och de många vägarna till membranet ger upphov till en överdriven fas. Dessa mikrofoner smetar ut signalen i tidsdomänen.
Vi har lärt oss efter många mätningar och noggrann lyssning att mikrofonernas verkliga impulssvar är en bättre indikator på ljudkvalitet än frekvensamplitudresponsen. Mikrofoner med långa och icke-symmetriska impulsprestanda kommer att vara mer färgade än mikrofoner med korta impulstjärtar. För att illustrera detta har vi noggrant spelat in en mängd olika källor med hjälp av två olika omni-modeller (Earthworks QTC1 och en annan välkänd modell) som båda har ett platt frekvensomfång till 40 kHz inom -1 dB (Fig.1: QTC1 vs 4007). Vid uppspelning på högkvalitativa högtalare är ljudet från dessa två mikrofoner helt olika. När de spelas upp på högtalare med nästan perfekt impuls- och stegrespons, som vi har i vårt labb, är skillnaden ännu tydligare. Den enda betydande skillnaden som vi har kunnat identifiera mellan dessa två mikrofoner är deras impulssvar.
Vi har utvecklat ett system för att härleda en mikrofons frekvenssvar från dess impulssvar. Efter åtskilliga jämförelser mellan resultaten av vår impulsomvandling och resultaten av den vanligare substitutionsmetoden är vi övertygade om att detta är giltigt som primär standard. Du kommer att se flera exempel på detta i fig.2.
Att betrakta vågformen som impulssvar är bättre för att tolka information om högre frekvenser. Information om lägre frekvenser är lättare att förstå genom att inspektera stegfunktionssvaret som är det matematiska integralen av impulssvaret. Båda kurvorna innehåller all information om frekvens- och tidsrespons inom de gränser som tidsfönstret, samplingsprocesserna och bruset sätter.
Elektroniken i mycket högkvalitativa ljudsystem måste också vara exceptionell. Distorsion och transient intermodulation bör hållas till några få delar per miljon i varje förstärkningssteg, särskilt i system med många förstärkare i varje kedja. Vid den interna kretsutformningen av ljudförstärkare är det särskilt viktigt att separera signalreferenspunkten i varje steg från strömförsörjningens returströmmar som vanligtvis är fruktansvärt olinjära. Differensingångskretsar i varje steg bör utvinna den sanna signalen från det föregående steget i förstärkaren. All övergripande återkoppling måste referera från utgångsterminalerna och jämföras direkt med ingångsterminalerna för att förhindra att jordförstärkning och överhörning blandas med signalen. Om dessa regler inte följs resulterar det i ett hårt ”transistorljud”. Transistorer kan dock användas på ett sätt som resulterar i en godtyckligt låg distorsion, intermodulation, bruskoppling från strömförsörjningen och alla andra fel som vi kan nämna, och kan därför ge perceptuell perfektion vid förstärkning av ljudsignaler. (Jag använder begreppet ”perceptuell perfektion” för att beteckna ett system eller en komponent som är så utmärkt att det inte har något fel som skulle kunna uppfattas av en mänsklig hörsel när den är som bäst.) Mitt nuvarande konstruktionsmål för förstärkare är att all harmonisk distorsion, inklusive intermodulationsprodukter med två toner på 19 kHz och 20 kHz, skall vara mindre än 1 del per miljon och att det A-vägda bruset skall vara minst 130 dB lägre än den maximala sinusvågsutgången. Jag antar att en signal kan gå genom många sådana förstärkare i ett system utan att signalens kvalitet försämras.
Många ljudsignalkällor har extremt höga transienta toppar, ofta så höga som 20 dB över den nivå som avläses på en volymindikator. Det är viktigt att ha något lämpligt mätverktyg i ett ljudförstärkningssystem för att mäta toppar och fastställa att de hanteras på lämpligt sätt. Många av de mätare som finns tillgängliga för avläsning av toppar läser inte av verkliga momentana toppnivåer, utan reagerar på något som ligger närmare en 300 µs till 1 ms genomsnittlig toppnivå. Alla systemkomponenter, inklusive effektförstärkare och högtalare, bör vara utformade för att återge de ursprungliga topparna exakt. Inspelningssystem avbryter toppar som ligger utanför deras kapacitet. Analoga bandspelare har ofta en jämn komprimering av toppar som ofta anses vara mindre skadlig för ljudet.
Många inspelare gillar till och med denna toppklippning och använder den avsiktligt. De flesta digitala inspelare har en tegelväggseffekt där alla överflödiga toppar kvittas med katastrofala effekter på diskanten och lyssnarens öron. Kompressorer och begränsare används ofta för att mjukt reducera toppar som annars skulle vara bortom systemets kapacitet. Sådana enheter med RMS-nivådetektorer låter vanligen bättre än de med medelvärdes- eller kvasitoppdetektorer. Var också noga med att välja signalprocessorer för låg distorsion. Om de är väl utformade kommer distorsionen att vara mycket låg när ingen förstärkningsändring krävs. Distorsion under komprimering kommer nästan helt och hållet att vara tredje harmonisk distorsion som inte är lätt att upptäcka med örat och som vanligtvis är acceptabel när den kan höras.
En titt på specifikationerna för några av de högt värderade super-high end, ”no feedback”, vakuumrörs, effektförstärkare avslöjar hur mycket distorsion som är acceptabel eller till och med att föredra för vissa överdrivet välbeställda audiofiler.
Alla anslutningar mellan olika delar av det elektriska systemet måste utformas för att eliminera brus och signalfel på grund av jordströmmar i kraftledningar, magnetiska växelströmfält, RF-upptagning, överhörning och dielektriska absorptionseffekter i ledningsisolering. Detta är kritiskt.
Högtalare är den andra änden av ljudsystemet. De omvandlar elektriska signaler till tryckvågor i luften. Högtalare är vanligtvis ännu mindre exakta än mikrofoner. Att tillverka en högtalare som uppfyller den standard som nämns ovan är problematiskt. Den ideala högtalaren är en punktkälla. Ännu finns det ingen enda högtalare som exakt kan återge hela intervallet 15 Hz-40 kHz. Alla högtalarsystem med flera drivrutiner innebär kompromisser.
Vi har byggt flera experimentella högtalarsystem som tillämpar samma tidsdomänprinciper som används i våra Earthworks-mikrofoner. Resultaten har varit mycket lovande. När vi närmar oss perfekt impuls- och stegfunktionsrespons händer något magiskt. Ljudkvaliteten blir verklighetstrogen. I en live-jazzljudförstärkningssituation med några av våra experimentella högtalare och våra SR71-mikrofoner förändrades inte ljudkvaliteten med förstärkningen. Från publiken lät det som om det inte förstärktes alls, även om vi var mycket medvetna om att ljudet var högre. Även med ganska mycket förstärkning lät det inte som om det gick genom högtalare.
Att lyssna på lite Bach-körmusik som vi spelade in med QTC1-mikrofoner i en 96 kHz samplingsinspelare, och som spelades upp genom våra högtalare av ingenjörsmodell är en häpnadsväckande upplevelse. Detaljrikedomen och avbildningen är fantastisk. Du kan höra från vänster till höger, från framsida till baksida och från topp till botten som om du var där i rummet med artisterna. Det är spännande att konstatera att vi gör så stora framsteg mot vårt mål.
Jag har hört att Victor Talking Machine Company körde annonser på 1920-talet där Enrico Caruso citerades för att ha sagt att Victrola var så bra att dess ljud inte gick att skilja från hans egen röst live. På sjuttiotalet körde Acoustic Research liknande annonser, med betydligt mer motivering, om levande kontra inspelade stråkkvartetter. Vi har kommit långt sedan dess, men kan vi uppnå perceptuell perfektion? Jag misstänker att verkligt utmärkt ljud, kanske till och med perceptuell perfektion? Som referenspunkt bör man sätta ihop ett testsystem med både mikrofoner och högtalare med utmärkt impuls- och stegrespons, och därmed nästan perfekt frekvensrespons, tillsammans med förstärkare med låg distorsion. Testa det som ett ljudförstärkningssystem och/eller studioövervakningssystem med både röst- och musikkällor. Du, artisterna och publiken kommer att bli förvånade över resultatet. Har du inget sådant system? Är det inte omöjligt, säger du? Det är det inte! Vi har gjort det! Om du vill ha mer information är här flera böcker som jag anser att alla som är intensivt engagerade i ljud bör äga och läsa och sedan läsa om många gånger.
An Introduction to the Physiology of Hearing, Second Edition
James O. Pickles, Academic Press 1988
ISBN 0-12-554753-6 eller ISBN 0-12-554754-4 pbk.
Spatial Hearing – Revised Edition: The Psychophysics of Human Sound Localization
Jen Blauert, MIT Press 1997
ISBN 0-262-02413-6
Experiments in Hearing
Georg von Békésy, Acoustical Society of America
ISBN 0-88318-630-6
Hearing: Fysiologisk akustik, neuronal kodning och psykoakustik
W. Lawrence Gulick, George A. Gescheider, Robert D. Frisina; Oxford University Press 1989
ISBN 0-19-50307-3