Utilizzando uno studio del meccanismo dell’udito umano come base, il fondatore di Earthworks David E Blackmer presenta i suoi argomenti e la sua visione dell’audio ad alta definizione.
C’è molta controversia su come potremmo procedere verso una riproduzione del suono di qualità superiore. Lo standard dei compact-disc presuppone che non ci siano informazioni utili oltre i 20kHz e quindi include un filtro a muro appena sopra i 20kHz. Molti ascoltatori sentono una grande differenza quando i segnali audio con banda limitata a 20kHz sono confrontati con segnali a banda larga. Un certo numero di sistemi digitali sono stati proposti che campionano segnali audio a 96kHz e oltre, e con fino a 24 bit di quantizzazione.
Molti ingegneri sono stati addestrati a credere che l’udito umano non riceve alcun input significativo da componenti di frequenza sopra i 20kHz. Ho letto molte lettere irate di questi ingegneri che insistevano sul fatto che le informazioni al di sopra dei 20kHz sono chiaramente inutili, e qualsiasi tentativo di includere tali informazioni nei segnali audio è ingannevole, dispendioso e sciocco, e che qualsiasi ingegnere audio di buon senso dovrebbe capire che questa limitazione dei 20kHz è stata conosciuta come una limitazione assoluta per molti decenni. Quelli di noi che sono convinti che ci sono informazioni audio criticamente importanti fino ad almeno 40kHz sono visti come fuorviati.
Dobbiamo guardare ai meccanismi coinvolti nell’udito, e cercare di capirli. Attraverso questa comprensione possiamo sviluppare un modello delle capacità dei sistemi di trasduzione e di analisi nell’audizione umana e lavorare verso nuovi e migliori standard per la progettazione di sistemi audio.
Quello che mi ha fatto iniziare la mia ricerca per capire le capacità dell’udito umano oltre i 20kHz è stato un incidente alla fine degli anni ottanta. Avevo appena acquistato un sistema MLSSA e stavo confrontando il suono e la risposta di un gruppo di tweeter a cupola di alta qualità. I migliori di questi avevano una risposta in frequenza praticamente identica fino a 20kHz, eppure suonavano in modo molto diverso.
Quando ho guardato da vicino la loro risposta oltre i 20kHz erano visibilmente molto diversi. I tweeter a cupola metallica avevano una staccionata irregolare di picchi e valli nella loro risposta in ampiezza sopra i 20kHz. I tweeter a cupola in seta mostravano una caduta morbida sopra i 20 kHz. La cupola in metallo suonava dura rispetto alla cupola in seta. Come può essere? Non riesco a sentire i toni fino a 20 kHz, eppure la differenza era udibile e davvero molto drastica. Piuttosto che negare ciò che sentivo chiaramente, ho iniziato a cercare altre spiegazioni.
Visto da un punto di vista evolutivo, l’udito umano è diventato quello che è perché è uno strumento di sopravvivenza. Il senso uditivo umano è molto efficace nell’estrarre ogni possibile dettaglio dal mondo che ci circonda in modo che noi e i nostri antenati potessimo evitare il pericolo, trovare cibo, comunicare, godere dei suoni della natura e apprezzare la bellezza di ciò che chiamiamo musica. L’udito umano è generalmente, credo, frainteso per essere principalmente un sistema di analisi della frequenza. Il modello prevalente dell’udito umano presume che la percezione uditiva sia basata sull’interpretazione da parte del cervello delle uscite di un sistema di analisi della frequenza che è essenzialmente un filtro a pettine ad ampia gamma dinamica, in cui l’intensità di ogni componente di frequenza viene trasmessa al cervello. Questo filtro a pettine è certamente una parte importante del nostro sistema di analisi del suono, e che incredibile filtro è. Ogni zona di frequenza è accordata nettamente con un sistema di resistenza meccanica negativa. Inoltre, il Q di sintonia di ogni elemento del filtro è regolato in accordo con i comandi inviati alla coclea da una serie di centri di pre-analisi (i nuclei cocleari) vicino al tronco cerebrale. Un certo numero di fibre nervose a velocità di trasmissione molto veloce collegano l’uscita di ogni cellula ciliare a questi nuclei cocleari. La capacità umana di interpretare le informazioni di frequenza è sorprendente. Chiaramente, tuttavia, sta succedendo qualcosa che non può essere spiegato interamente in termini della nostra capacità di sentire i toni.
L’orecchio interno è un dispositivo complesso con dettagli incredibili nella sua costruzione. Le onde di pressione acustica sono convertite in impulsi nervosi nell’orecchio interno, in particolare nella coclea, che è un tubo a spirale pieno di liquido. Il segnale acustico viene ricevuto dalla membrana timpanica dove viene convertito in forze meccaniche che vengono trasmesse alla finestra ovale e poi nella coclea dove le onde di pressione passano lungo la membrana basilare. Questa membrana basilare è un dispositivo di trasmissione acusticamente attivo. Lungo la membrana basilare ci sono file di due diversi tipi di cellule ciliate, di solito indicate come interne ed esterne.
Le cellule ciliate interne si riferiscono chiaramente al sistema di analisi della frequenza descritto sopra. Solo circa 3.000 delle 15.000 cellule ciliate della membrana basilare sono coinvolte nella trasmissione delle informazioni di frequenza utilizzando le uscite di questo filtro ad onda viaggiante. Le cellule ciliate esterne fanno chiaramente qualcos’altro, ma cosa?
Ci sono circa 12.000 cellule ciliate “esterne” disposte su tre o quattro file. Ci sono quattro volte più cellule ciliate esterne che cellule ciliate interne(!) Tuttavia, solo circa il 20% del totale delle vie nervose disponibili le collega al cervello. Le cellule ciliate esterne sono interconnesse da fibre nervose in una rete distribuita. Questo array sembra agire come un analizzatore di forme d’onda, un trasduttore a bassa frequenza, e come un centro di comando per le fibre muscolari super veloci (actina) che amplificano e acuiscono le onde viaggianti che passano lungo la membrana basilare producendo così il filtro a pettine. Ha anche la capacità di estrarre informazioni e trasmetterle ai centri di analisi nel complesso olivario, e poi alla corteccia del cervello dove avviene la consapevolezza cosciente dei modelli sonori. L’informazione proveniente dalle cellule ciliate esterne, che sembra essere più legata alla forma d’onda che alla frequenza, è certamente correlata al dominio della frequenza e ad altre informazioni nel cervello per produrre il senso uditivo.
Il nostro sistema di analisi uditiva è straordinariamente sensibile ai confini (qualsiasi evento iniziale o finale significativo o punto di cambiamento). Un risultato di questo processo di rilevamento dei confini è la consapevolezza molto maggiore del suono iniziale in una serie complessa di suoni, come un campo sonoro riverberante. Questa componente sonora iniziale è responsabile della maggior parte del nostro senso del contenuto, del significato e dell’equilibrio di frequenza in un segnale complesso. Il sistema uditivo umano è evidentemente sensibile all’informazione impulsiva incorporata nei toni. Il mio sospetto è che questo senso sia dietro a ciò che viene comunemente chiamato “aria” nella letteratura high-end. Probabilmente si riferisce anche a ciò che pensiamo come “struttura” e “timbro” – ciò che dà ad ogni suono il suo carattere individuale distintivo. Comunque la chiamiamo, io suggerisco che l’informazione impulsiva è una parte importante di come gli esseri umani sentono.
Tutti i segnali in uscita dalla coclea sono trasmessi sulle fibre nervose come segnali modulati di frequenza e posizione degli impulsi. Questi segnali sono usati per trasdurre informazioni su frequenza, intensità, forma d’onda, tasso di variazione e tempo. Le frequenze più basse sono trasdotte in impulsi nervosi nel sistema uditivo in un modo sorprendente. L’uscita delle cellule ciliate per le frequenze più basse è trasmessa principalmente come gruppi di impulsi che corrispondono fortemente alla metà positiva dell’onda di pressione acustica con pochi o nessun impulso trasmesso durante la metà negativa dell’onda di pressione. In effetti, queste fibre nervose trasmettono solo sulla metà positiva dell’onda. Questa situazione esiste fino a un po’ sopra 1kHz, con picchi discernibili di mezz’onda che cavalcano il segnale del nervo uditivo, chiaramente visibili fino ad almeno 5kHz. C’è un confine netto all’inizio e alla fine di ogni gruppo di impulsi di pressione positiva, approssimativamente sull’asse centrale dell’onda di pressione. Questa trasduzione del gruppo di impulsi con confini netti sull’asse è uno dei meccanismi importanti che spiega la risoluzione temporale dell’orecchio umano. Nel 1929 Von Bekesy pubblicò una misura dell’acutezza della posizione sonora umana che si traduce in una risoluzione temporale migliore di 10 µs tra le orecchie. Nordmark, in un articolo del 1976, ha concluso che la risoluzione intramurale è migliore di 2µs; la risoluzione temporale intramurale a 250Hz si dice sia di circa 10µs che si traduce in meglio di 1° di fase a questa frequenza.
Il sistema uditivo umano usa la forma d’onda così come la frequenza per analizzare i segnali. È importante mantenere una forma d’onda accurata fino alla regione di frequenza più alta con una riproduzione accurata dei dettagli fino a 5µs a 10µs. L’accuratezza dei dettagli a bassa frequenza è altrettanto importante. Troviamo che molti suoni a bassa frequenza come la batteria assumono una forza notevole e un impatto emotivo quando la forma d’onda è riprodotta esattamente. Notate gli eccezionali suoni di batteria sul CD Into the Labyrinth dei Dead Can Dance. Il suono della batteria sembra avere una fondamentale molto bassa, forse circa 20Hz. Abbiamo campionato il bitstream di questo suono e abbiamo trovato che la prima forma d’onda positiva aveva il doppio del periodo della successiva forma d’onda di 40Hz. Apparentemente un mezzo ciclo di 20Hz era sufficiente a far sì che l’intero suono sembrasse avere una fondamentale di 20Hz.
Il sistema uditivo umano, sia le cellule ciliate interne che quelle esterne, possono analizzare centinaia di componenti sonore quasi simultanee, identificando la posizione della sorgente, la frequenza, il tempo, l’intensità e gli eventi transitori in ognuno di questi molti suoni simultaneamente e sviluppare una mappa spaziale dettagliata di tutti questi suoni con la consapevolezza di ogni sorgente sonora, la sua posizione, il carattere, il timbro, il volume e tutte le altre etichette di identificazione che possiamo attaccare alle fonti sonore e agli eventi. Credo che queste informazioni sulla qualità del suono includano la forma d’onda, l’identificazione dei transienti incorporati e l’identificazione dei componenti ad alta frequenza fino ad almeno 40kHz (anche se non si possono “sentire” queste frequenze in forma isolata).
Per soddisfare pienamente i requisiti della percezione uditiva umana credo che un sistema audio debba coprire la gamma di frequenze da circa 15Hz ad almeno 40kHz (alcuni dicono 80kHz o più) con oltre 120dB di gamma dinamica per gestire adeguatamente i picchi transitori e con una precisione temporale dei transitori di pochi microsecondi alle alte frequenze e una precisione di fase di 1°-2° fino a 30Hz. Questo standard è al di là delle capacità dei sistemi attuali, ma è molto importante capire la degradazione della qualità del suono percepito che risulta dai compromessi fatti nei sistemi di trasmissione del suono ora in uso. I trasduttori sono le aree problematiche più ovvie, ma anche i sistemi di memorizzazione e tutta l’elettronica e le interconnessioni sono importanti.
Il nostro obiettivo alla Earthworks è di produrre strumenti audio che siano molto più accurati delle vecchie apparecchiature con cui siamo cresciuti. Stiamo certamente spingendo il limite. Per esempio, abbiamo specificato il nostro preamplificatore LAB102 da 2Hz a 100kHz ±0.1dB. Alcuni potrebbero credere che questa prestazione ad ampio raggio sia poco importante, ma ascoltate il suono del LAB102, è preciso come la vita reale. Infatti i punti di abbassamento di 1dB del preamplificatore LAB sono 0.4Hz e 1.3MHz, ma questa non è la chiave della sua precisione. Il suo tempo di salita dell’onda quadra è di un quarto di microsecondo. La sua risposta all’impulso è praticamente perfetta.
I microfoni sono il primo anello della catena audio, traducendo le onde di pressione nell’aria in segnali elettrici. La maggior parte dei microfoni di oggi non sono molto precisi. Pochissimi hanno una buona risposta in frequenza su tutta la gamma 15Hz-40kHz che credo sia necessaria per un suono accurato. Nella maggior parte dei microfoni il dispositivo acustico attivo è un diaframma che riceve le onde acustiche, e come una testa di tamburo suona quando viene colpito. A peggiorare le cose, la capsula del pickup è di solito alloggiata in una gabbia con molte risonanze interne e riflessioni che colorano ulteriormente il suono. I microfoni direzionali, poiché ottengono la direzionalità campionando il suono in più punti, sono per natura meno accurati degli omni. Le risonanze, le riflessioni e i percorsi multipli verso il diaframma si sommano all’eccesso di fase. Questi microfoni sporcano il segnale nel dominio del tempo.
Abbiamo imparato dopo molte misurazioni e ascolti attenti che la vera risposta all’impulso dei microfoni è un indicatore migliore della qualità del suono rispetto alla risposta di ampiezza della frequenza. I microfoni con prestazioni di impulso lunghe e non simmetriche saranno più colorati di quelli con code d’impulso corte. Per illustrare questo punto abbiamo accuratamente registrato una varietà di fonti utilizzando due diversi modelli omni (Earthworks QTC1 e un altro modello ben noto) entrambi i quali hanno una risposta in frequenza piatta a 40kHz entro -1dB.(Fig.1: QTC1 vs 4007). Se riprodotto su altoparlanti di alta qualità, il suono di questi due microfoni è molto diverso. Se riprodotto su altoparlanti con una risposta all’impulso e al passo quasi perfetta, che abbiamo nel nostro laboratorio, la differenza è ancora più evidente. L’unica differenza significativa che siamo stati in grado di identificare tra questi due microfoni è la loro risposta all’impulso.
Abbiamo sviluppato un sistema per ricavare la risposta in frequenza di un microfono dalla sua risposta all’impulso. Dopo numerosi confronti tra i risultati della nostra conversione d’impulso e i risultati del più comune metodo di sostituzione, siamo convinti della validità di questo come standard primario. Vedrete diversi esempi di questo nella Fig.2.
Visualizzare la forma d’onda come risposta all’impulso è meglio per interpretare le informazioni a frequenza più alta. Le informazioni a bassa frequenza sono più facilmente comprese dall’ispezione della risposta a funzione di passo che è l’integrale matematico della risposta all’impulso. Entrambe le curve contengono tutte le informazioni sulla risposta in frequenza e nel tempo entro i limiti imposti dalla finestra temporale, dai processi di campionamento e dal rumore.
Anche l’elettronica nei sistemi audio di altissima qualità deve essere eccezionale. La distorsione e l’intermodulazione transitoria devono essere tenute a poche parti per milione in ogni stadio di amplificazione, specialmente nei sistemi con molti amplificatori in ogni catena. Nella progettazione dei circuiti interni degli amplificatori audio è particolarmente importante separare il punto di riferimento del segnale in ogni stadio dalle correnti di ritorno dell’alimentazione che di solito sono terribilmente non lineari. I circuiti di ingresso a differenza di ogni stadio dovrebbero estrarre il vero segnale dallo stadio precedente nell’amplificatore. Qualsiasi feedback complessivo deve fare riferimento ai terminali di uscita e confrontarsi direttamente con i terminali di ingresso per prevenire la commistione di ground grunge e cross-talk con il segnale. Il mancato rispetto di queste regole si traduce in un aspro “suono da transistor”. Tuttavia, i transistor possono essere usati in un modo che risulta in una distorsione arbitrariamente bassa, intermodulazione, accoppiamento del rumore di alimentazione, e qualsiasi altro errore che possiamo nominare, e può quindi fornire la perfezione percettiva nell’amplificazione del segnale audio. (Uso “perfezione percettiva” per intendere un sistema o un componente così eccellente da non avere alcun errore che possa essere percepito dall’udito umano al meglio). Il mio attuale obiettivo di progettazione degli amplificatori è quello di avere tutta la distorsione armonica, compresi i prodotti di intermodulazione bitonale a 19kHz e 20kHz, al di sotto di 1 parte per milione e di avere un rumore ponderato A almeno 130dB al di sotto della massima uscita sinusoidale. Presumo che un segnale possa passare attraverso molti di questi amplificatori in un sistema senza una degradazione rilevabile nella qualità del segnale.
Molte fonti di segnale audio hanno picchi transitori estremamente alti, spesso fino a 20dB sopra il livello letto su un indicatore di volume. È importante avere qualche strumento di misurazione adeguato in un sistema di amplificazione audio per misurare i picchi e determinare che siano gestiti in modo appropriato. Molti dei misuratori di picco disponibili non leggono i veri livelli di picco istantanei, ma rispondono a qualcosa di più vicino a un’approssimazione di picco medio da 300 µs a 1 ms. Tutti i componenti del sistema, compresi gli amplificatori di potenza e i diffusori, dovrebbero essere progettati per riprodurre accuratamente i picchi originali. I sistemi di registrazione troncano i picchi che vanno oltre le loro capacità. I registratori a nastro analogici hanno spesso una compressione morbida dei picchi che è spesso considerata meno dannosa per il suono.
Molti registratori gradiscono addirittura questo clipping dei picchi e lo usano intenzionalmente. La maggior parte dei registratori digitali hanno un effetto muro di mattoni in cui ogni picco in eccesso viene squadrato con effetti disastrosi sui tweeter e sulle orecchie dell’ascoltatore. Compressori e limitatori sono spesso usati per ridurre dolcemente i picchi che altrimenti sarebbero oltre la capacità del sistema. Queste unità con rilevatori di livello RMS di solito suonano meglio di quelle con rilevatori di media o quasi-picco. Inoltre, fate attenzione a selezionare processori di segnale per una bassa distorsione. Se sono ben progettati, la distorsione sarà molto bassa quando non è richiesto alcun cambiamento di guadagno. La distorsione durante la compressione sarà quasi interamente una distorsione di terza armonica che non è facilmente rilevabile dall’orecchio e che di solito è accettabile quando può essere sentita.
Un’occhiata alle specifiche di alcuni degli amplificatori di potenza super-alto livello, “senza feedback”, a valvole, rivela quanta distorsione sia accettabile, o addirittura preferibile, per alcuni audiofili eccessivamente benestanti.
Tutte le connessioni tra le diverse parti del sistema elettrico devono essere progettate per eliminare il rumore e gli errori di segnale dovuti alle correnti di terra della linea elettrica, ai campi magnetici AC, alla captazione RF, alla diafonia e agli effetti di assorbimento dielettrico nell’isolamento dei fili. Questo è critico.
Gli altoparlanti sono l’altra estremità del sistema audio. Convertono i segnali elettrici in onde di pressione nell’aria. Gli altoparlanti sono di solito ancora meno precisi dei microfoni. Realizzare un altoparlante che soddisfi lo standard di cui sopra è problematico. L’altoparlante ideale è una sorgente puntiforme. Non esiste ancora un singolo altoparlante che possa riprodurre accuratamente l’intera gamma 15Hz-40kHz. Tutti i sistemi di altoparlanti multidriver comportano compromessi e compromessi.
Abbiamo costruito diversi sistemi sperimentali di altoparlanti che applicano gli stessi principi del dominio del tempo utilizzati nei nostri microfoni Earthworks. I risultati sono stati molto promettenti. Man mano che ci avviciniamo alla perfetta risposta impulsiva e alle funzioni a gradini, accade qualcosa di magico. La qualità del suono diventa realistica. In una situazione di rinforzo del suono jazz dal vivo, utilizzando alcuni dei nostri diffusori sperimentali e i nostri microfoni SR71, la qualità del suono non è cambiata con l’amplificazione. Dal pubblico sembrava che non fosse stato amplificato affatto, anche se eravamo perfettamente consapevoli che il suono era più forte. Anche con un bel po’ di guadagno non suonava come se stesse passando attraverso gli altoparlanti.
Ascoltare un po’ di musica corale di Bach che abbiamo registrato con i microfoni QTC1 in un registratore a 96kHz, e riprodotta attraverso i nostri diffusori modello engineering è un’esperienza sorprendente. Il dettaglio e l’immagine sono stupefacenti. Potete sentire da sinistra a destra, da davanti a dietro e dall’alto in basso come se foste nella stanza con gli esecutori. È eccitante scoprire che stiamo facendo dei progressi così buoni verso il nostro obiettivo.
Ho sentito che la Victor Talking Machine Company ha pubblicato delle pubblicità negli anni venti in cui Enrico Caruso diceva che il Victrola era così buono che il suo suono era indistinguibile dalla sua voce dal vivo. Negli anni Settanta la Acoustic Research pubblicò annunci simili, con molte più giustificazioni, sui quartetti d’archi dal vivo o registrati. Abbiamo fatto molta strada da allora, ma possiamo raggiungere la perfezione percettiva? Ho il sospetto che un suono veramente eccellente, forse anche la perfezione percettiva? Come punto di riferimento si dovrebbe assemblare un sistema di prova con entrambi i microfoni e gli altoparlanti che abbiano un’eccellente risposta all’impulso e al passo, quindi una risposta in frequenza quasi perfetta, insieme ad amplificatori a bassa distorsione. Provatelo come un sistema di rinforzo del suono e/o un sistema di monitoraggio da studio con sorgenti sia vocali che musicali. Voi, gli esecutori e il pubblico saranno stupiti del risultato. Non avete un tale sistema? Non è impossibile, direte voi? Non lo è! Noi l’abbiamo fatto! Se volete maggiori informazioni, ecco diversi libri che credo che chiunque sia intensamente coinvolto nell’audio dovrebbe possedere e leggere e poi rileggere molte volte.
An Introduction to the Physiology of Hearing, Second Edition
James O. Pickles, Academic Press 1988
ISBN 0-12-554753-6 o ISBN 0-12-554754-4 pbk.
Spatial Hearing – Revised Edition: The Psychophysics of Human Sound Localization
Jen Blauert, MIT Press 1997
ISBN 0-262-02413-6
Experiments in Hearing
Georg von Békésy, Acoustical Society of America
ISBN 0-88318-630-6
Hearing: Physiological Acoustics, Neural Coding, and Psychoacoustics
W. Lawrence Gulick, George A. Gescheider, Robert D. Frisina; Oxford University Press 1989
ISBN 0-19-50307-3