Utilizând ca bază un studiu al mecanismului auditiv uman, fondatorul Earthworks, David E. Blackmer, prezintă argumentele și viziunea sa asupra sunetului de înaltă definiție.
EXISTĂ MULTĂ controversă cu privire la modul în care am putea avansa spre o reproducere de calitate superioară a sunetului. Standardul compact-discurilor pornește de la premisa că nu există informații utile dincolo de 20kHz și, prin urmare, include un filtru de tip zid de cărămidă chiar peste 20kHz. Mulți ascultători aud o mare diferență atunci când semnalele audio cu bandă limitată la 20kHz sunt comparate cu cele cu bandă largă. Au fost propuse o serie de sisteme digitale care eșantionează semnale audio la 96kHz și mai mult, și cu o cuantificare de până la 24 de biți.
Mulți ingineri au fost instruiți să creadă că auzul uman nu primește nicio informație semnificativă de la componentele de frecvență de peste 20kHz. Am citit multe scrisori furioase de la astfel de ingineri care insistau asupra faptului că informațiile de peste 20kHz sunt în mod clar inutile și că orice încercare de a include astfel de informații în semnalele audio este înșelătoare, risipitoare și prostească, și că orice inginer audio cu mintea întreagă ar trebui să realizeze că această limitare de 20kHz este cunoscută ca fiind o limitare absolută de multe decenii. Aceia dintre noi care sunt convinși că există informații audio de importanță critică până la cel puțin 40kHz sunt văzuți ca fiind rătăciți.
Trebuie să ne uităm la mecanismele implicate în auz și să încercăm să le înțelegem. Prin această înțelegere putem dezvolta un model al capacităților sistemelor de transducție și de analiză în auzul uman și putem lucra la standarde noi și mai bune pentru proiectarea sistemelor audio.
Ceea ce m-a făcut să încep să înțeleg capacitățile auzului uman dincolo de 20kHz a fost un incident de la sfârșitul anilor optzeci. Tocmai achiziționasem un sistem MLSSA și comparam sunetul și răspunsul unui grup de tweetere cu cupolă de înaltă calitate. Cele mai bune dintre acestea aveau un răspuns în frecvență practic identic până la 20kHz, dar sunau foarte diferit.
Când m-am uitat cu atenție la răspunsul lor dincolo de 20kHz, acestea erau vizibil foarte diferite. Tweeterele cu cupolă metalică aveau un gard neregulat de vârfuri și văi în răspunsul lor de amplitudine peste 20kHz. Tweeterele cu dom de mătase prezentau o cădere lină peste 20kHz. Cupola metalică a avut un sunet dur în comparație cu cupola de mătase. Cum se poate întâmpla acest lucru? Eu nu pot auzi tonuri nici măcar până la 20kHz, și totuși diferența a fost audibilă și chiar foarte drastică. În loc să neg ceea ce auzeam în mod clar, am început să caut alte explicații.
Din punct de vedere evolutiv, auzul uman a devenit ceea ce este pentru că este un instrument de supraviețuire. Simțul auditiv uman este foarte eficient în extragerea fiecărui detaliu posibil din lumea din jurul nostru, astfel încât noi și strămoșii noștri să putem evita pericolele, să găsim hrană, să comunicăm, să ne bucurăm de sunetele naturii și să apreciem frumusețea a ceea ce numim muzică. În general, cred că auzul uman este înțeles greșit ca fiind în primul rând un sistem de analiză a frecvențelor. Modelul predominant al auzului uman presupune că percepția auditivă se bazează pe interpretarea de către creier a ieșirilor unui sistem de analiză a frecvențelor care este, în esență, un filtru în pieptene cu gamă dinamică largă, în care intensitatea fiecărei componente de frecvență este transmisă către creier. Acest filtru în pieptene este, cu siguranță, o parte importantă a sistemului nostru de analiză a sunetului și ce filtru uimitor este. Fiecare zonă de frecvență este reglată ascuțit cu un sistem de rezistență mecanică negativă. Mai mult decât atât, Q-ul de acordaj al fiecărui element de filtru este ajustat în conformitate cu comenzile trimise înapoi la cohlee de către o serie de centre de preanaliză (nucleii cohleari) din apropierea trunchiului cerebral. Un număr de fibre nervoase cu rată de transmisie foarte rapidă conectează ieșirea fiecărei celule ciliate la acești nuclei cohleari. Capacitatea omului de a interpreta informațiile de frecvență este uimitoare. Cu toate acestea, este clar că se întâmplă ceva care nu poate fi explicat în întregime în termenii capacității noastre de a auzi tonurile.
Urechea internă este un dispozitiv complex, cu detalii incredibile în construcția sa. Undele de presiune acustică sunt convertite în impulsuri nervoase în urechea internă, mai exact în cohlee, care este un tub spiralat umplut cu lichid. Semnalul acustic este recepționat de membrana timpanică, unde este transformat în forțe mecanice care sunt transmise la fereastra ovală, apoi în cohlee, unde unde undele de presiune trec de-a lungul membranei bazilare. Această membrană bazilară este un dispozitiv de transmisie activă din punct de vedere acustic. De-a lungul membranei bazilare se află rânduri de două tipuri diferite de celule ciliate, denumite de obicei celule ciliate interne și externe.
Celele ciliate interne se referă în mod clar la sistemul de analiză a frecvenței descris mai sus. Doar aproximativ 3.000 din cele 15.000 de celule ciliate de pe membrana bazilară sunt implicate în transmiterea informațiilor de frecvență folosind ieșirile acestui filtru de unde călătoare. Celulele ciliate exterioare fac în mod clar altceva, dar ce?
Există aproximativ 12.000 de celule ciliate „exterioare” dispuse pe trei sau patru rânduri. Există de patru ori mai multe celule păroase exterioare decât celule păroase interioare(!) Cu toate acestea, doar aproximativ 20% din totalul căilor nervoase disponibile le conectează la creier. Celulele ciliate exterioare sunt interconectate prin fibre nervoase într-o rețea distribuită. Această rețea pare să acționeze ca un analizor de forme de undă, un transductor de joasă frecvență și ca un centru de comandă pentru fibrele musculare foarte rapide (actina) care amplifică și ascut undele călătoare care trec de-a lungul membranei bazilare, producând astfel filtrul pieptene. Acesta are, de asemenea, capacitatea de a extrage informații și de a le transmite către centrele de analiză din complexul olivary și apoi către cortexul creierului, unde are loc conștientizarea conștientă a modelelor sonore. Informațiile de la celulele ciliate exterioare, care par a fi mai mult legate de forma de undă decât de frecvență, sunt cu siguranță corelate cu domeniul de frecvență și cu alte informații din creier pentru a produce simțul auditiv.
Sistemul nostru de analiză auditivă este extraordinar de sensibil la limite (orice eveniment inițial sau final semnificativ sau punct de schimbare). Un rezultat al acestui proces de detectare a limitelor este conștientizarea mult mai mare a sunetului inițial într-o serie complexă de sunete, cum ar fi un câmp sonor reverberant. Această componentă sonoră inițială este responsabilă pentru cea mai mare parte a senzației noastre de conținut, semnificație și echilibru de frecvență într-un semnal complex. Sistemul auditiv uman este în mod evident sensibil la informațiile de impuls încorporate în tonuri. Bănuiala mea este că acest simț se află în spatele a ceea ce se numește în mod obișnuit „aer” în literatura high-end. Probabil că are legătură, de asemenea, cu ceea ce noi considerăm a fi „textură” și „timbru” – ceea ce conferă fiecărui sunet caracterul său individual distinctiv. Oricum am numi-o, sugerez că informația de impuls este o parte importantă a modului în care oamenii aud.
Toate semnalele de ieșire din cohlee sunt transmise pe fibrele nervoase ca semnale modulate în funcție de frecvența și poziția impulsurilor. Aceste semnale sunt folosite pentru a transpune informații despre frecvență, intensitate, formă de undă, rată de variație și timp. Frecvențele joase sunt transpuse în impulsuri nervoase în sistemul auditiv într-un mod surprinzător. Ieșirea celulelor ciliate pentru frecvențele joase este transmisă în primul rând sub forma unor grupuri de impulsuri care corespund în mare măsură jumătății pozitive a undei de presiune acustică, puține impulsuri, dacă nu chiar niciunul, fiind transmise în timpul jumătății negative a undei de presiune. Practic, aceste fibre nervoase transmit doar pe jumătatea pozitivă a undei. Această situație există până ceva mai sus de 1kHz, vârfurile perceptibile ale jumătății de undă care se suprapun peste semnalul nervului auditiv fiind clar vizibile până la cel puțin 5kHz. Există o limită clară la începutul și la sfârșitul fiecărui grup de impulsuri de presiune pozitivă, aproximativ la axa centrală a undei de presiune. Această transducție a grupurilor de impulsuri cu limite clare la axă este unul dintre mecanismele importante care explică rezoluția temporală a urechii umane. În 1929, Von Bekesy a publicat o măsurătoare a acuitate a poziției sunetului uman care se traduce printr-o rezoluție temporală mai bună de 10µs între urechi. Nordmark, într-un articol din 1976, a concluzionat că rezoluția intramurală este mai bună de 2µs; rezoluția temporală intramurală la 250Hz se spune că este de aproximativ 10µs, ceea ce se traduce prin mai bine de 1° de fază la această frecvență.
Sistemul auditiv uman utilizează atât forma de undă, cât și frecvența pentru a analiza semnalele. Este important să se mențină o formă de undă precisă până la cea mai înaltă regiune de frecvență cu o reproducere precisă a detaliilor până la 5µs – 10µs. Precizia detaliilor de joasă frecvență este la fel de importantă. Constatăm că multe sunete de frecvență joasă, cum ar fi tobele, capătă o forță și un impact emoțional remarcabile atunci când forma de undă este reprodusă cu exactitate. Vă rugăm să observați sunetele excepționale de tobe de pe CD-ul Into the Labyrinth al trupei The Dead Can Dance. Sunetul de tobe pare să aibă o fundamentală foarte joasă, poate în jur de 20 Hz. Am eșantionat fluxul de biți din acest sunet și am constatat că prima formă de undă pozitivă avea o perioadă dublă față de forma de undă ulterioară de 40Hz. Aparent, o jumătate de ciclu de 20Hz a fost suficientă pentru ca întregul sunet să pară a avea o fundamentală de 20Hz.
Sistemul auditiv uman, atât celulele ciliate interne, cât și cele externe, pot analiza sute de componente sonore aproape simultane, identificând locația sursei, frecvența, timpul, intensitatea și evenimentele tranzitorii din fiecare dintre aceste multe sunete simultan și să dezvolte o hartă spațială detaliată a tuturor acestor sunete, cu conștientizarea fiecărei surse sonore, a poziției sale, a caracterului, a timbrului, a intensității și a tuturor celorlalte etichete de identificare pe care le putem atașa surselor și evenimentelor sonore. Cred că aceste informații despre calitatea sunetului includ forma de undă, identificarea tranzienților încorporați și identificarea componentelor de înaltă frecvență până la cel puțin 40kHz (chiar dacă nu puteți „auzi” aceste frecvențe în formă izolată).
Pentru a satisface pe deplin cerințele percepției auditive umane, cred că un sistem de sunet trebuie să acopere gama de frecvențe de la aproximativ 15Hz până la cel puțin 40kHz (unii spun că 80kHz sau mai mult) cu o gamă dinamică de peste 120dB pentru a gestiona în mod corespunzător vârfurile tranzitorii și cu o precizie temporală tranzitorie de câteva microsecunde la frecvențe înalte și o precizie de fază de 1°-2° până la 30Hz. Acest standard depășește capacitățile sistemelor actuale, dar este foarte important să înțelegem degradarea calității percepute a sunetului care rezultă din compromisurile făcute în sistemele de difuzare a sunetului utilizate în prezent. Traductoarele sunt cele mai evidente zone cu probleme, dar și sistemele de stocare și toată electronica și interconexiunile sunt de asemenea importante.
Obiectivul nostru la Earthworks este de a produce instrumente audio care sunt mult mai precise decât echipamentele mai vechi cu care am crescut. Cu siguranță împingem limitele. De exemplu, specificăm preamplificatorul nostru LAB102 de la 2Hz la 100kHz ±0,1dB. Unii ar putea crede că această performanță pe o gamă largă de frecvențe nu este importantă, dar ascultați sunetul LAB102, este precis ca în realitate. De fapt, punctele de coborâre de 1dB ale preamplificatorului LAB sunt 0,4Hz și 1,3MHz, dar nu aceasta este cheia acurateței sale. Timpul de creștere al undei sale pătrate este de un sfert de microsecundă. Răspunsul său la impulsuri este practic perfect.
Microfoanele sunt prima verigă din lanțul audio, traducând undele de presiune din aer în semnale electrice. Cele mai multe dintre microfoanele actuale nu sunt foarte precise. Foarte puține au un răspuns în frecvență bun pe întreaga gamă de 15Hz-40kHz, pe care eu o consider necesară pentru un sunet precis. În majoritatea microfoanelor, dispozitivul acustic activ este o diafragmă care primește undele acustice și, asemenea unui cap de tobă, va suna atunci când este lovit. Pentru a înrăutăți lucrurile, capsula de captare este de obicei găzduită într-o cușcă cu multe rezonanțe și reflexii interne care colorează și mai mult sunetul. Microfoanele direcționale, deoarece obțin direcționalitatea prin eșantionarea sunetului în mai multe puncte, sunt prin natura lor mai puțin precise decât cele omnidirecționale. Zgomotele, reflexiile și căile multiple către diafragmă se adaugă la un exces de fază. Aceste microfoane pătează semnalul în domeniul temporal.
Am învățat, după multe măsurători și ascultări atente, că adevăratul răspuns la impuls al microfoanelor este un indicator mai bun al calității sunetului decât este răspunsul în amplitudine de frecvență. Microfoanele cu performanțe de impuls lungi și nesimetrice vor fi mai colorate decât cele cu cozi de impuls scurte. Pentru a ilustra acest aspect, am înregistrat cu atenție o varietate de surse folosind două modele omni diferite (Earthworks QTC1 și un alt model bine cunoscut), ambele având un răspuns în frecvență plat până la 40kHz în limita a -1dB.(Fig.1: QTC1 vs 4007). Atunci când sunt redate pe difuzoare de înaltă calitate, sunetul acestor două microfoane este destul de diferit. Atunci când sunt redate pe difuzoare cu răspuns aproape perfect la impulsuri și la trepte, pe care le avem în laboratorul nostru, diferența este și mai evidentă. Singura diferență semnificativă pe care am reușit să o identificăm între aceste două microfoane este răspunsul lor la impuls.
Am dezvoltat un sistem de derivare a răspunsului în frecvență al unui microfon din răspunsul său la impuls. După numeroase comparații între rezultatele conversiei noastre de impuls și rezultatele metodei mai comune de substituție, suntem convinși de validitatea acesteia ca standard primar. Veți vedea mai multe exemple în Fig.2.
Vederea formei de undă ca răspuns la impulsuri este mai bună pentru interpretarea informațiilor de frecvență mai înaltă. Informațiile de frecvență mai joasă sunt mai ușor de înțeles prin inspectarea răspunsului funcției în trepte, care este integrala matematică a răspunsului la impulsuri. Ambele curbe conțin toate informațiile despre răspunsul în frecvență și timp în limitele impuse de fereastra de timp, de procesele de eșantionare și de zgomot.
Electronicele din sistemele de sunet de foarte înaltă calitate trebuie să fie, de asemenea, excepționale. Distorsiunea și intermodulația tranzitorie trebuie să fie menținute la câteva părți pe milion în fiecare etaj de amplificare, în special în sistemele cu multe amplificatoare în fiecare lanț. În proiectarea circuitelor interne ale amplificatoarelor audio este deosebit de important să se separe punctul de referință al semnalului din fiecare etaj de curenții de retur ai sursei de alimentare, care sunt de obicei teribil de neliniari. Circuitele de intrare prin diferență de pe fiecare etaj ar trebui să extragă semnalul adevărat de la etajul anterior din amplificator. Orice reacție globală trebuie să se refere de la bornele de ieșire și să se compare direct cu bornele de intrare pentru a preveni amestecul cu semnalul a frecării la sol și a interferențelor. Nerespectarea acestor reguli are ca rezultat un „sunet de tranzistor” dur. Cu toate acestea, tranzistoarele pot fi utilizate într-o manieră care are ca rezultat o distorsiune arbitrar de scăzută, intermodulație, cuplarea zgomotului de alimentare și orice alte erori pe care le putem numi și, prin urmare, pot oferi o perfecțiune perceptivă în amplificarea semnalelor audio. (Folosesc termenul „perfecțiune perceptivă” pentru a mă referi la un sistem sau o componentă atât de excelentă încât nu prezintă nicio eroare care ar putea fi percepută de auzul uman în cele mai bune condiții). Obiectivul meu actual de proiectare a amplificatoarelor este ca toate distorsiunile armonice, inclusiv produsele de intermodulație cu tonuri duble de 19kHz și 20kHz, să fie mai mici de 1 parte pe milion, iar zgomotul ponderat A să fie cu cel puțin 130dB sub valoarea maximă a undei sinusoidale de ieșire. Presupun că un semnal poate trece prin mai multe astfel de amplificatoare într-un sistem fără o degradare detectabilă a calității semnalului.
Multe surse de semnal audio au vârfuri tranzitorii extrem de ridicate, adesea cu până la 20dB peste nivelul citit pe un indicator de volum. Este important să existe un instrument de măsurare adecvat într-un sistem de amplificare audio pentru a măsura vârfurile și pentru a determina dacă acestea sunt tratate în mod corespunzător. Multe dintre măsurătorile disponibile pentru citirea vârfurilor nu citesc adevăratele niveluri de vârf instantanee, ci răspund la ceva mai apropiat de o aproximare a vârfurilor medii de 300µs până la 1ms. Toate componentele sistemului, inclusiv amplificatoarele de putere și difuzoarele, ar trebui să fie proiectate pentru a reproduce cu acuratețe vârfurile originale. Sistemele de înregistrare trunchiază vârfurile care sunt peste capacitatea lor. Aparatele de înregistrare pe bandă analogică au adesea o compresie lină a vârfurilor, care este adesea considerată ca fiind mai puțin dăunătoare pentru sunet.
MAI MULTE ÎNREGISTRĂRI chiar apreciază această tăiere a vârfurilor și o folosesc în mod intenționat. Majoritatea înregistratoarelor digitale au un efect de zid de cărămidă, în care orice vârfuri în exces sunt pătrate cu efecte dezastruoase asupra tweeterelor, și urechilor ascultătorilor. Compresoarele și limitatoarele sunt adesea folosite pentru a reduce ușor vârfurile care, altfel, ar fi dincolo de capacitatea sistemului. Astfel de unități cu detectoare de nivel RMS sună de obicei mai bine decât cele cu detectoare de vârfuri medii sau cvasi-picuri. De asemenea, aveți grijă să selectați procesoarele de semnal pentru o distorsiune redusă. Dacă acestea sunt bine proiectate, distorsiunea va fi foarte scăzută atunci când nu este necesară nicio modificare a câștigului. Distorsiunea în timpul compresiei va fi aproape în întregime distorsiunea armonică a treia, care nu este ușor de detectat de către ureche și care este de obicei acceptabilă atunci când poate fi auzită.
O privire la specificațiile unora dintre amplificatoarele de putere cu tuburi în vid, „fără reacție”, super-înalte, foarte bine cotate, dezvăluie cât de multă distorsiune este acceptabilă, sau chiar preferabilă, pentru unii audiofili excesiv de bine dotați.
Toate conexiunile dintre diferitele părți ale sistemului electric trebuie să fie proiectate pentru a elimina erorile de zgomot și de semnal datorate curenților de împământare a liniei de alimentare, câmpurilor magnetice de curent alternativ, captării RF, diafoniei și efectelor de absorbție dielectrică în izolația firelor. Acest lucru este critic.
Cele de difuzoare sunt celălalt capăt al sistemului audio. Ele convertesc semnalele electrice în unde de presiune în aer. Difuzoarele sunt de obicei chiar mai puțin precise decât microfoanele. Realizarea unui difuzor care să îndeplinească standardul menționat mai sus este problematică. Difuzorul ideal este o sursă punctiformă. Deocamdată nu există un singur driver care să poată reproduce cu acuratețe întreaga gamă 15Hz-40kHz. Toate sistemele de difuzoare cu mai multe difuzoare implică compromisuri și compromisuri.
Am construit mai multe sisteme de difuzoare experimentale care aplică aceleași principii în domeniul timpului utilizate în microfoanele noastre Earthworks. Rezultatele au fost foarte promițătoare. Pe măsură ce ne apropiem de un răspuns perfect la impulsuri și la funcția în trepte, se întâmplă ceva magic. Calitatea sunetului devine realistă. Într-o situație de consolidare a sunetului de jazz live, folosind unele dintre difuzoarele noastre experimentale și microfoanele noastre SR71, calitatea sunetului nu s-a schimbat odată cu amplificarea. Din partea publicului a sunat ca și cum nu ar fi fost amplificat deloc, chiar dacă eram perfect conștienți că sunetul era mai puternic. Chiar și cu destul de mult câștig, nu suna ca și cum ar fi trecut prin difuzoare.
Ascultarea unei muzici corale de Bach pe care am înregistrat-o cu microfoanele QTC1 într-un înregistrator cu eșantionare de 96kHz și redată prin difuzoarele noastre model de inginerie este o experiență surprinzătoare. Detaliile și imaginea sunt uimitoare. Puteți auzi de la stânga la dreapta, de la față la spate și de sus în jos ca și cum ați fi acolo, în cameră, alături de interpreți. Este incitant să constați că facem progrese atât de bune în atingerea obiectivului nostru.
Am auzit că firma Victor Talking Machine Company a difuzat reclame în anii 1920 în care Enrico Caruso era citat spunând că Victrola era atât de bună încât sunetul ei era imposibil de distins de propria sa voce în direct. În anii ’70, Acoustic Research a difuzat reclame similare, cu mult mai justificate, despre cvartetele de coarde înregistrate sau live. Am parcurs un drum lung de atunci, dar putem atinge perfecțiunea perceptivă? Bănuiesc că un sunet cu adevărat excelent, poate chiar perfecțiunea perceptivă? Ca punct de referință, ar trebui să asamblați un sistem de testare cu microfoane și difuzoare care să aibă un răspuns excelent la impulsuri și la trepte, deci un răspuns în frecvență aproape perfect, împreună cu amplificatoare cu distorsiune redusă. Testați-l ca sistem de amplificare a sunetului și/sau ca sistem de monitorizare în studio, atât cu surse vocale, cât și cu surse muzicale. Dumneavoastră, artiștii și publicul veți fi uimiți de rezultat. Nu aveți un astfel de sistem? Nu este imposibil, veți spune? Nu este! Noi am reușit! Dacă doriți mai multe informații, iată câteva cărți pe care cred că oricine este intens implicat în Audio ar trebui să le dețină și să le citească și apoi să le recitească de mai multe ori.
An Introduction to the Physiology of Hearing, Second Edition
James O. Pickles, Academic Press 1988
ISBN 0-12-554753-6 sau ISBN 0-12-554754-4 pbk.
Spatial Hearing – Ediție revizuită: The Psychophysics of Human Sound Localization
Jen Blauert, MIT Press 1997
ISBN 0-262-02413-6
Experiments in Hearing
Georg von Békésy, Acoustical Society of America
ISBN 0-88318-630-6
Hearing: Physiological Acoustics, Neural Coding, and Psychoacoustics
W. Lawrence Gulick, George A. Gescheider, Robert D. Frisina; Oxford University Press 1989
ISBN 0-19-50307-3
.