En s’appuyant sur une étude du mécanisme de l’audition humaine, le fondateur d’Earthworks, David E Blackmer, présente ses arguments et sa vision de l’audio haute définition.

Il y a beaucoup de controverse sur la façon dont nous pourrions progresser vers une reproduction du son de meilleure qualité. La norme du disque compact suppose qu’il n’y a pas d’information utile au-delà de 20kHz et inclut donc un filtre mur de briques juste au-dessus de 20kHz. De nombreux auditeurs entendent une grande différence lorsque des signaux audio à bande limitée à 20 kHz sont comparés à des signaux à large bande. Un certain nombre de systèmes numériques ont été proposés qui échantillonnent les signaux audio à 96kHz et plus, et avec jusqu’à 24 bits de quantification.

De nombreux ingénieurs ont été formés pour croire que l’audition humaine ne reçoit aucune entrée significative des composantes de fréquence au-dessus de 20kHz. J’ai lu de nombreuses lettres irritées de tels ingénieurs insistant sur le fait que les informations au-dessus de 20kHz sont clairement inutiles, et que toute tentative d’inclure de telles informations dans les signaux audio est trompeuse, gaspilleuse et stupide, et que tout ingénieur audio à l’esprit droit devrait réaliser que cette limitation de 20kHz est connue pour être une limitation absolue depuis de nombreuses décennies. Ceux d’entre nous qui sont convaincus qu’il existe des informations audio d’importance critique jusqu’à au moins 40kHz sont considérés comme malavisés.

Nous devons examiner les mécanismes impliqués dans l’audition, et tenter de les comprendre. Grâce à cette compréhension, nous pouvons développer un modèle des capacités des systèmes de transduction et d’analyse dans l’audition humaine et travailler vers de nouvelles et meilleures normes pour la conception de systèmes audio.

Ce qui m’a fait démarrer dans ma quête pour comprendre les capacités de l’audition humaine au-delà de 20kHz a été un incident à la fin des années 80. Je venais d’acquérir un système MLSSA et je comparais le son et la réponse d’un groupe de tweeters à dôme de haute qualité. Les meilleurs d’entre eux avaient une réponse en fréquence pratiquement identique jusqu’à 20kHz, et pourtant ils sonnaient très différemment.

Lorsque j’ai regardé de près leur réponse au-delà de 20kHz, ils étaient visiblement très différents. Les tweeters à dôme métallique avaient une palissade irrégulière de pics et de vallées dans leur réponse en amplitude au-dessus de 20kHz. Les tweeters à dôme en soie présentaient une chute douce au-dessus de 20 kHz. Le dôme métallique s’est avéré plus dur que le dôme en soie. Comment cela est-il possible ? Je ne peux pas entendre les sons, même jusqu’à 20 kHz, et pourtant la différence était audible et vraiment assez radicale. Plutôt que de nier ce que j’entendais clairement, j’ai commencé à chercher d’autres explications.

QUAND ON LE VOIT D’UN POINT DE VUE évolutionniste, l’audition humaine est devenue ce qu’elle est parce que c’est un outil de survie. Le sens auditif humain est très efficace pour extraire chaque détail possible du monde qui nous entoure afin que nous et nos ancêtres puissions éviter le danger, trouver de la nourriture, communiquer, profiter des sons de la nature et apprécier la beauté de ce que nous appelons la musique. L’audition humaine est généralement, je crois, mal comprise comme étant principalement un système d’analyse des fréquences. Le modèle prédominant de l’audition humaine suppose que la perception auditive est basée sur l’interprétation par le cerveau des sorties d’un système d’analyse de fréquence qui est essentiellement un filtre en peigne à large gamme dynamique, dans lequel l’intensité de chaque composante de fréquence est transmise au cerveau. Ce filtre en peigne est certainement une partie importante de notre système d’analyse du son, et quel filtre étonnant c’est. Chaque zone de fréquence est accordée avec précision grâce à un système de résistance mécanique négative. De plus, le Q d’accord de chaque élément du filtre est ajusté en fonction des commandes renvoyées à la cochlée par une série de centres de pré-analyse (les noyaux cochléaires) situés près du tronc cérébral. Un certain nombre de fibres nerveuses à taux de transmission très rapide relient la sortie de chaque cellule ciliée à ces noyaux cochléaires. La capacité de l’homme à interpréter les informations de fréquence est étonnante. Il est clair, cependant, que quelque chose se passe qui ne peut pas être expliqué entièrement en termes de notre capacité à entendre des tons.

L’oreille interne est un dispositif complexe avec des détails incroyables dans sa construction. Les ondes de pression acoustiques sont converties en impulsions nerveuses dans l’oreille interne, plus précisément dans la cochlée, qui est un tube spiralé rempli de liquide. Le signal acoustique est reçu par la membrane tympanique où il est converti en forces mécaniques qui sont transmises à la fenêtre ovale puis dans la cochlée où les ondes de pression passent le long de la membrane basilaire. Cette membrane basilaire est un dispositif de transmission acoustiquement actif. Le long de la membrane basilaire se trouvent des rangées de deux types différents de cellules ciliées, généralement appelées interne et externe.

Les cellules ciliées internes sont clairement liées au système d’analyse de fréquence décrit ci-dessus. Seulement environ 3 000 des 15 000 cellules ciliées de la membrane basilaire sont impliquées dans la transduction des informations de fréquence en utilisant les sorties de ce filtre à ondes progressives. Les cellules ciliées externes font manifestement autre chose, mais quoi ?

Il y a environ 12 000 cellules ciliées « externes » disposées en trois ou quatre rangées. Il y a quatre fois plus de cellules ciliées externes que de cellules ciliées internes( !) Cependant, seulement environ 20% du total des voies nerveuses disponibles les relient au cerveau. Les cellules ciliées externes sont interconnectées par des fibres nerveuses dans un réseau distribué. Ce réseau semble agir comme un analyseur de forme d’onde, un transducteur basse fréquence et un centre de commande pour les fibres musculaires super rapides (actine) qui amplifient et accentuent les ondes progressives qui passent le long de la membrane basilaire, produisant ainsi le filtre en peigne. Il a également la capacité d’extraire des informations et de les transmettre aux centres d’analyse du complexe olivaire, puis au cortex du cerveau où s’opère la prise de conscience des modèles sonores. L’information provenant des cellules ciliées externes, qui semble être plus liée à la forme d’onde qu’à la fréquence, est certainement corrélée avec le domaine fréquentiel et d’autres informations dans le cerveau pour produire le sens auditif.

Notre système d’analyse auditive est extraordinairement sensible aux frontières (tout événement initial ou final significatif ou point de changement). Un résultat de ce processus de détection des frontières est la conscience beaucoup plus grande du son initial dans une série complexe de sons, comme un champ sonore réverbérant. Cette composante sonore initiale est responsable de la majeure partie de notre perception du contenu, de la signification et de l’équilibre des fréquences dans un signal complexe. Le système auditif humain est manifestement sensible aux informations relatives aux impulsions contenues dans les tonalités. Je soupçonne que ce sens est à l’origine de ce que l’on appelle communément « l’air » dans la littérature haut de gamme. Il est probablement aussi lié à ce que nous considérons comme la « texture » et le « timbre » – ce qui donne à chaque son son caractère individuel distinctif. Quel que soit le nom qu’on lui donne, je suggère que l’information impulsionnelle est une partie importante de la façon dont les humains entendent.

Tous les signaux de sortie de la cochlée sont transmis sur les fibres nerveuses sous forme de signaux modulés en fréquence d’impulsion et en position d’impulsion. Ces signaux sont utilisés pour transduire des informations sur la fréquence, l’intensité, la forme d’onde, le taux de changement et le temps. Les basses fréquences sont transduites en impulsions nerveuses dans le système auditif d’une manière surprenante. La sortie des cellules ciliées pour les basses fréquences est transmise principalement sous forme de groupes d’impulsions qui correspondent fortement à la moitié positive de l’onde de pression acoustique, peu ou pas d’impulsions étant transmises pendant la moitié négative de l’onde de pression. En fait, ces fibres nerveuses ne transmettent que sur la moitié positive de l’onde. Cette situation existe jusqu’à un peu plus de 1 kHz, avec des pics de demi-onde discernables superposés au signal du nerf auditif, clairement visibles jusqu’à au moins 5 kHz. Il existe une limite nette au début et à la fin de chaque groupe d’impulsions de pression positive, approximativement au niveau de l’axe central de l’onde de pression. Cette transduction des groupes d’impulsions avec des limites nettes au niveau de l’axe est l’un des mécanismes importants qui explique la résolution temporelle de l’oreille humaine. En 1929, Von Bekesy a publié une mesure de l’acuité de la position du son chez l’homme, ce qui se traduit par une résolution temporelle de plus de 10 µs entre les oreilles. Nordmark, dans un article de 1976, a conclu que la résolution intra-murale est meilleure que 2µs ; la résolution temporelle intra-murale à 250Hz serait d’environ 10µs ce qui se traduit par mieux que 1° de phase à cette fréquence.

Le système auditif humain utilise la forme d’onde ainsi que la fréquence pour analyser les signaux. Il est important de maintenir une forme d’onde précise jusqu’à la région de fréquence la plus élevée avec une reproduction précise des détails jusqu’à 5µs à 10µs. La précision des détails des basses fréquences est tout aussi importante. Nous constatons que de nombreux sons à basse fréquence, comme les tambours, acquièrent une force et un impact émotionnel remarquables lorsque la forme d’onde est reproduite avec précision. Remarquez les sons de batterie exceptionnels sur le CD Into the Labyrinth de The Dead Can Dance. Le son de la batterie semble avoir une fondamentale très basse, peut-être environ 20 Hz. Nous avons échantillonné le flux binaire de ce son et avons constaté que la première forme d’onde positive avait une période double de celle de la forme d’onde suivante de 40 Hz. Apparemment, un demi-cycle de 20Hz était suffisant pour que l’ensemble du son semble avoir une fondamentale de 20Hz.

Le système auditif humain, les cellules ciliées internes et externes, peut analyser des centaines de composantes sonores presque simultanées, en identifiant l’emplacement de la source, la fréquence, le temps, l’intensité et les événements transitoires dans chacun de ces nombreux sons simultanément et développer une carte spatiale détaillée de tous ces sons avec la conscience de chaque source sonore, sa position, son caractère, son timbre, son intensité sonore et toutes les autres étiquettes d’identification que nous pouvons attacher aux sources et événements sonores. Je crois que ces informations sur la qualité du son comprennent la forme d’onde, l’identification des transitoires intégrés et l’identification des composants de haute fréquence jusqu’à au moins 40kHz (même si vous ne pouvez pas « entendre » ces fréquences sous forme isolée).

POUR RÉPONDRE COMPLÈTEMENT aux exigences de la perception auditive humaine, je pense qu’un système sonore doit couvrir la gamme de fréquences d’environ 15Hz à au moins 40kHz (certains disent 80kHz ou plus) avec une gamme dynamique de plus de 120dB pour gérer correctement les pics transitoires et avec une précision temporelle transitoire de quelques microsecondes aux hautes fréquences et une précision de phase de 1°-2° jusqu’à 30Hz. Cette norme dépasse les capacités des systèmes actuels, mais il est très important de comprendre la dégradation de la qualité sonore perçue qui résulte des compromis faits dans les systèmes de diffusion du son actuellement utilisés. Les transducteurs sont les zones problématiques les plus évidentes, mais les systèmes de stockage et toute l’électronique et les interconnexions sont également importants.

Notre objectif chez Earthworks est de produire des outils audio qui sont beaucoup plus précis que les anciens équipements avec lesquels nous avons grandi. Nous repoussons certainement les limites. Par exemple, nous spécifions notre préampli LAB102 de 2Hz à 100kHz ±0,1dB. Certains pourraient croire que cette performance de large gamme n’est pas importante, mais écoutez le son du LAB102, il est fidèle à la réalité. En fait, les points de baisse de 1dB du préampli LAB sont de 0.4Hz et 1.3MHz, mais ce n’est pas la clé de sa précision. Le temps de montée de son onde carrée est d’un quart de microseconde. Sa réponse impulsionnelle est pratiquement parfaite.

Les microphones sont le premier maillon de la chaîne audio, traduisant les ondes de pression dans l’air en signaux électriques. La plupart des microphones actuels ne sont pas très précis. Très peu d’entre eux ont une bonne réponse en fréquence sur toute la gamme 15Hz-40kHz qui, selon moi, est nécessaire pour un son précis. Dans la plupart des microphones, le dispositif acoustique actif est un diaphragme qui reçoit les ondes acoustiques et, comme une peau de tambour, il résonne lorsqu’on le frappe. Pour aggraver les choses, la capsule du micro est généralement logée dans une cage avec de nombreuses résonances et réflexions internes qui colorent encore plus le son. Les microphones directionnels, parce qu’ils obtiennent la directionnalité en échantillonnant le son en plusieurs points, sont par nature moins précis que les omnis. Les résonances, les réflexions et les chemins multiples vers le diaphragme s’additionnent pour donner un excès de phase. Ces microphones entachent le signal dans le domaine temporel.

Nous avons appris après de nombreuses mesures et une écoute attentive que la véritable réponse impulsionnelle des microphones est un meilleur indicateur de la qualité du son que la réponse en amplitude de fréquence. Les microphones dont la performance impulsionnelle est longue et non symétrique seront plus colorés que ceux dont la queue d’impulsion est courte. Pour illustrer ce point, nous avons soigneusement enregistré une variété de sources en utilisant deux modèles omni différents (Earthworks QTC1 et un autre modèle bien connu) qui ont tous deux une réponse en fréquence plate jusqu’à 40kHz à -1dB près.(Fig.1 : QTC1 vs 4007). Lorsqu’ils sont lus sur des enceintes de haute qualité, le son de ces deux microphones est très différent. Lorsqu’ils sont lus sur des enceintes dont la réponse impulsionnelle et la réponse en échelon sont presque parfaites, ce que nous avons dans notre laboratoire, la différence est encore plus apparente. La seule différence significative que nous avons pu identifier entre ces deux microphones est leur réponse impulsionnelle.

Nous avons développé un système pour dériver la réponse en fréquence d’un microphone à partir de sa réponse impulsionnelle. Après de nombreuses comparaisons entre les résultats de notre conversion d’impulsion et les résultats de la méthode de substitution plus courante, nous sommes convaincus de la validité de cette méthode comme norme primaire. Vous en verrez plusieurs exemples dans la Fig.2.

La visualisation de la forme d’onde en tant que réponse impulsionnelle est meilleure pour interpréter les informations à haute fréquence. Les informations à plus basse fréquence sont plus facilement comprises en inspectant la réponse en fonction de l’étape qui est l’intégrale mathématique de la réponse impulsionnelle. Les deux courbes contiennent toutes les informations sur la réponse en fréquence et en temps dans les limites imposées par la fenêtre temporelle, les processus d’échantillonnage et le bruit.

L’électronique des systèmes sonores de très haute qualité doit également être exceptionnelle. La distorsion et l’intermodulation transitoire doivent être maintenues à quelques parties par million dans chaque étage d’amplification, en particulier dans les systèmes comportant de nombreux amplificateurs dans chaque chaîne. Dans la conception des circuits internes des amplificateurs audio, il est particulièrement important de séparer le point de référence du signal dans chaque étage des courants de retour de l’alimentation qui sont généralement terriblement non linéaires. Les circuits d’entrée différentielle de chaque étage doivent extraire le véritable signal de l’étage précédent de l’amplificateur. Toute rétroaction globale doit être référencée à partir des bornes de sortie et comparée directement aux bornes d’entrée afin d’éviter le mélange du grunge de masse et de la diaphonie avec le signal. Si l’on ne respecte pas ces règles, on obtient un « son de transistor » brutal. Cependant, les transistors peuvent être utilisés de manière à obtenir une distorsion, une intermodulation, un couplage de bruit d’alimentation et toute autre erreur que nous pouvons nommer, arbitrairement bas, et peuvent donc fournir une perfection perceptive dans l’amplification du signal audio. (J’utilise le terme « perfection perceptive » pour désigner un système ou un composant si excellent qu’il ne présente aucune erreur susceptible d’être perçue par l’ouïe humaine à son meilleur). Mon objectif actuel en matière de conception d’amplificateurs est d’avoir une distorsion harmonique, y compris les produits d’intermodulation à deux tons de 19 et 20 kHz, inférieure à 1 partie par million et un bruit pondéré A inférieur d’au moins 130 dB à la sortie sinusoïdale maximale. Je suppose qu’un signal peut passer par de nombreux amplificateurs de ce type dans un système sans dégradation détectable de la qualité du signal.

De nombreuses sources de signaux audio présentent des pics transitoires extrêmement élevés, souvent jusqu’à 20dB au-dessus du niveau lu sur un indicateur de volume. Il est important de disposer de quelque outil de mesure adéquat dans un système d’amplification audio pour mesurer les pics et déterminer qu’ils sont traités de manière appropriée. De nombreux crêtemètres disponibles ne lisent pas les véritables niveaux de crête instantanés, mais répondent à quelque chose de plus proche d’une approximation de crête moyenne de 300µs à 1ms. Tous les composants du système, y compris les amplificateurs de puissance et les haut-parleurs, doivent être conçus pour reproduire fidèlement les pics d’origine. Les systèmes d’enregistrement tronquent les pics qui dépassent leurs capacités. Les magnétophones analogiques ont souvent une compression douce des pics qui est souvent considérée comme moins dommageable pour le son.

DE NOMBREUX ENREGISTREURS aiment même cet écrêtage des pics et l’utilisent intentionnellement. La plupart des enregistreurs numériques ont un effet de mur de briques dans lequel tout excès de pics est mis au carré avec des effets désastreux sur les tweeters, et les oreilles des auditeurs. Les compresseurs et les limiteurs sont souvent utilisés pour réduire en douceur les pics qui, autrement, dépasseraient les capacités du système. Ces appareils dotés de détecteurs de niveau RMS ont généralement un meilleur son que ceux dotés de détecteurs de moyenne ou de quasi-crête. Veillez également à choisir des processeurs de signaux à faible distorsion. S’ils sont bien conçus, la distorsion sera très faible lorsqu’aucun changement de gain n’est nécessaire. La distorsion pendant la compression sera presque entièrement une distorsion de troisième harmonique qui n’est pas facilement détectée par l’oreille et qui est généralement acceptable lorsqu’elle peut être entendue.

Un coup d’œil aux spécifications de certains amplificateurs de puissance super haut de gamme, « sans rétroaction », à tubes à vide, très bien notés, révèle combien de distorsion est acceptable, voire préférable, pour certains audiophiles excessivement bien nantis.

Toutes les connexions entre les différentes parties du système électrique doivent être conçues pour éliminer les erreurs de bruit et de signal dues aux courants de masse des lignes électriques, aux champs magnétiques alternatifs, à la captation RF, à la diaphonie et aux effets d’absorption diélectrique dans l’isolation des fils. C’est essentiel.

Les haut-parleurs constituent l’autre extrémité du système audio. Ils convertissent les signaux électriques en ondes de pression dans l’air. Les haut-parleurs sont généralement encore moins précis que les microphones. Il est difficile de fabriquer un haut-parleur qui réponde aux normes mentionnées ci-dessus. Le haut-parleur idéal est une source ponctuelle. Il n’existe pas encore de haut-parleur unique capable de reproduire avec précision l’ensemble de la gamme 15Hz-40kHz. Tous les systèmes de haut-parleurs multi-pilotes impliquent des compromis et des concessions.

Nous avons construit plusieurs systèmes de haut-parleurs expérimentaux qui appliquent les mêmes principes de domaine temporel utilisés dans nos microphones Earthworks. Les résultats ont été très prometteurs. Lorsque nous nous approchons d’une réponse impulsionnelle et d’une réponse à échelon parfaites, quelque chose de magique se produit. La qualité du son devient plus vraie que nature. Dans une situation de renforcement sonore de jazz en direct, avec certaines de nos enceintes expérimentales et nos micros SR71, la qualité du son n’a pas changé avec l’amplification. Pour le public, c’était comme s’il n’était pas du tout amplifié, même si nous étions parfaitement conscients que le son était plus fort. Même avec un gain assez important, on n’avait pas l’impression de passer par des haut-parleurs.

Écouter de la musique de chorale de Bach que nous avons enregistrée avec des microphones QTC1 dans un enregistreur à échantillonnage de 96kHz, et restituée par nos haut-parleurs de modèle d’ingénierie est une expérience surprenante. Les détails et l’imagerie sont stupéfiants. Vous pouvez entendre de gauche à droite, d’avant en arrière et de haut en bas, comme si vous étiez dans la pièce avec les interprètes. C’est excitant de constater que nous faisons de tels progrès vers notre objectif.

J’ai entendu dire que la Victor Talking Machine Company a publié des publicités dans les années 1920 dans lesquelles Enrico Caruso était cité comme disant que le Victrola était si bon que son son était indiscernable de sa propre voix en direct. Dans les années 70, Acoustic Research a diffusé des publicités similaires, avec beaucoup plus de justification, sur les quatuors à cordes en direct ou enregistrés. Nous avons parcouru un long chemin depuis lors, mais pouvons-nous atteindre la perfection perceptive ? Je soupçonne qu’un son vraiment excellent, peut-être même la perfection perceptuelle ? Comme point de référence, vous devriez assembler un système de test avec des microphones et des haut-parleurs ayant une excellente réponse aux impulsions et aux pas, et donc une réponse en fréquence presque parfaite, ainsi que des amplificateurs à faible distorsion. Testez-le en tant que système de renforcement du son et/ou système de surveillance de studio avec des sources vocales et musicales. Vous, les interprètes et le public serez étonnés du résultat. Vous n’avez pas un tel système ? N’est-ce pas impossible, dites-vous ? Non, ce n’est pas possible ! Nous l’avons fait ! Si vous voulez plus d’informations, voici plusieurs livres que je crois que toute personne intensément impliquée dans l’Audio devrait posséder et lire, puis relire plusieurs fois.

An Introduction to the Physiology of Hearing, Second Edition
James O. Pickles, Academic Press 1988
ISBN 0-12-554753-6 ou ISBN 0-12-554754-4 pbk.

Spatial Hearing – Revised Edition : The Psychophysics of Human Sound Localization
Jen Blauert, MIT Press 1997
ISBN 0-262-02413-6

Expériences sur l’audition
Georg von Békésy, Acoustical Society of America
ISBN 0-88318-630-6

Hearing : Acoustique physiologique, codage neuronal et psycho-acoustique
W. Lawrence Gulick, George A. Gescheider, Robert D. Frisina ; Oxford University Press 1989
ISBN 0-19-50307-3

.

Articles

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.