A partir de un estudio del mecanismo auditivo humano, el fundador de Earthworks, David E Blackmer, presenta sus argumentos y su visión del audio de alta definición.
Hay mucha controversia sobre cómo podemos avanzar hacia una reproducción de sonido de mayor calidad. La norma de los discos compactos parte de la base de que no hay información útil más allá de los 20kHz y, por tanto, incluye un filtro de pared justo por encima de los 20kHz. Muchos oyentes perciben una gran diferencia cuando se comparan las señales de audio de banda limitada de 20kHz con las de banda ancha. Se han propuesto varios sistemas digitales que muestrean señales de audio a 96kHz y más, y con hasta 24 bits de cuantificación.
Muchos ingenieros han sido entrenados para creer que el oído humano no recibe ninguna entrada significativa de los componentes de frecuencia por encima de 20kHz. He leído muchas cartas airadas de dichos ingenieros insistiendo en que la información por encima de 20kHz es claramente inútil, y que cualquier intento de incluir dicha información en las señales de audio es engañoso, un despilfarro y una tontería, y que cualquier ingeniero de audio con criterio debería darse cuenta de que esta limitación de 20kHz se sabe que es una limitación absoluta desde hace muchas décadas. Los que estamos convencidos de que hay información de audio de importancia crítica hasta al menos 40kHz somos vistos como equivocados.
Debemos observar los mecanismos involucrados en la audición, e intentar comprenderlos. A través de esa comprensión podemos desarrollar un modelo de las capacidades de los sistemas de transducción y análisis en la audición humana y trabajar hacia nuevos y mejores estándares para el diseño de sistemas de audio.
Lo que me hizo comenzar mi búsqueda para entender las capacidades de la audición humana más allá de los 20kHz fue un incidente a finales de los ochenta. Acababa de adquirir un sistema MLSSA y estaba comparando el sonido y la respuesta de un grupo de tweeters de cúpula de alta calidad. Los mejores tenían una respuesta en frecuencia prácticamente idéntica hasta los 20kHz, pero sonaban de forma muy diferente.
Cuando observé de cerca su respuesta más allá de los 20kHz eran visiblemente muy diferentes. Los tweeters de cúpula metálica tenían una valla irregular de picos y valles en su respuesta de amplitud por encima de 20kHz. Los tweeters de cúpula de seda mostraban una caída suave por encima de los 20kHz. La cúpula metálica sonaba más dura que la cúpula de seda. ¿Cómo puede ser esto? No puedo escuchar tonos ni siquiera a 20kHz, y sin embargo la diferencia era audible y realmente bastante drástica. En lugar de negar lo que oía claramente, empecé a buscar otras explicaciones.
Cuando se ve desde un punto de vista evolutivo, el oído humano ha llegado a ser lo que es porque es una herramienta de supervivencia. El sentido auditivo humano es muy eficaz a la hora de extraer todos los detalles posibles del mundo que nos rodea para que nosotros y nuestros antepasados podamos evitar el peligro, encontrar comida, comunicarnos, disfrutar de los sonidos de la naturaleza y apreciar la belleza de lo que llamamos música. En general, creo que se entiende mal que la audición humana es principalmente un sistema de análisis de frecuencias. El modelo predominante de la audición humana supone que la percepción auditiva se basa en la interpretación por parte del cerebro de los resultados de un sistema de análisis de frecuencias que es esencialmente un filtro en peine de amplio rango dinámico, en el que la intensidad de cada componente de frecuencia se transmite al cerebro. Este filtro en peine es, sin duda, una parte importante de nuestro sistema de análisis del sonido, y qué filtro tan sorprendente es. Cada zona de frecuencias se sintoniza bruscamente con un sistema de resistencia mecánica negativa. Además, el Q de sintonía de cada elemento del filtro se ajusta de acuerdo con las órdenes enviadas a la cóclea por una serie de centros de preanálisis (los núcleos cocleares) cerca del tronco cerebral. Una serie de fibras nerviosas de transmisión muy rápida conectan la salida de cada célula ciliada con estos núcleos cocleares. La capacidad humana de interpretar la información de frecuencia es asombrosa. Sin embargo, es evidente que ocurre algo que no puede explicarse enteramente en términos de nuestra capacidad para oír tonos.
El oído interno es un dispositivo complejo con detalles increíbles en su construcción. Las ondas de presión acústica se convierten en impulsos nerviosos en el oído interno, concretamente en la cóclea, que es un tubo espiral lleno de líquido. La señal acústica es recibida por la membrana timpánica, donde se convierte en fuerzas mecánicas que se transmiten a la ventana oval y luego a la cóclea, donde las ondas de presión pasan por la membrana basilar. Esta membrana basilar es un dispositivo de transmisión acústicamente activo. A lo largo de la membrana basilar hay hileras de dos tipos diferentes de células ciliadas, normalmente denominadas internas y externas.
Las células ciliadas internas se relacionan claramente con el sistema de análisis de frecuencia descrito anteriormente. Sólo unas 3.000 de las 15.000 células ciliadas de la membrana basilar participan en la transducción de la información de frecuencia utilizando las salidas de este filtro de ondas viajeras. Las células ciliadas externas hacen claramente algo más, pero ¿qué?
Hay unas 12.000 células ciliadas «externas» dispuestas en tres o cuatro filas. Hay cuatro veces más células ciliadas externas que internas (!) Sin embargo, sólo un 20% del total de las vías nerviosas disponibles las conectan con el cerebro. Las células ciliadas externas están interconectadas por fibras nerviosas en una red distribuida. Esta red parece actuar como un analizador de formas de onda, un transductor de baja frecuencia y como un centro de mando para las fibras musculares superrápidas (actina) que amplifican y agudizan las ondas viajeras que pasan por la membrana basilar produciendo así el filtro en peine. También tiene la capacidad de extraer información y transmitirla a los centros de análisis del complejo olivar, y luego a la corteza cerebral, donde tiene lugar la percepción consciente de los patrones sónicos. La información procedente de las células ciliadas externas, que parece estar más relacionada con la forma de onda que con la frecuencia, está ciertamente correlacionada con el dominio de la frecuencia y con otra información en el cerebro para producir el sentido auditivo.
Nuestro sistema de análisis auditivo es extraordinariamente sensible a los límites (cualquier acontecimiento inicial o final significativo o punto de cambio). Uno de los resultados de este proceso de detección de límites es la conciencia mucho mayor del sonido inicial en una serie compleja de sonidos, como un campo sonoro reverberante. Este componente sonoro inicial es el responsable de la mayor parte de nuestra sensación de contenido, significado y equilibrio de frecuencias en una señal compleja. Es evidente que el sistema auditivo humano es sensible a la información de los impulsos que contienen los tonos. Mi sospecha es que este sentido está detrás de lo que comúnmente se denomina «aire» en la literatura de alta gama. Probablemente también esté relacionado con lo que consideramos «textura» y «timbre», lo que da a cada sonido su carácter individual distintivo. Sea cual sea el nombre que le demos, creo que la información de los impulsos es una parte importante de la audición humana.
Todas las señales de salida de la cóclea se transmiten a través de las fibras nerviosas como señales moduladas por la frecuencia y la posición de los impulsos. Estas señales se utilizan para transducir información sobre la frecuencia, la intensidad, la forma de onda, la tasa de cambio y el tiempo. Las frecuencias más bajas se transducen a impulsos nerviosos en el sistema auditivo de forma sorprendente. La salida de las células ciliadas para las frecuencias más bajas se transmite principalmente como grupos de impulsos que corresponden fuertemente a la mitad positiva de la onda de presión acústica, con pocos impulsos, si es que se transmite alguno, durante la mitad negativa de la onda de presión. En efecto, estas fibras nerviosas sólo transmiten en la mitad positiva de la onda. Esta situación se da hasta un poco más de 1kHz, con picos de media onda discernibles que cabalgan sobre la señal del nervio auditivo y que son claramente visibles hasta al menos 5kHz. Hay un límite agudo al principio y al final de cada grupo de pulsos de presión positiva, aproximadamente en el eje central de la onda de presión. Esta transducción de grupos de impulsos con límites nítidos en el eje es uno de los mecanismos importantes que explican la resolución temporal del oído humano. En 1929, Von Bekesy publicó una medición de la agudeza de la posición del sonido humano que se traduce en una resolución temporal de más de 10 µs entre los oídos. Nordmark, en un artículo de 1976, llegó a la conclusión de que la resolución intramural es mejor que 2µs; se dice que la resolución temporal intramural a 250Hz es de unos 10µs, lo que se traduce en más de 1º de fase a esta frecuencia.
El sistema auditivo humano utiliza tanto la forma de onda como la frecuencia para analizar las señales. Es importante mantener una forma de onda precisa hasta la región de mayor frecuencia con una reproducción precisa de los detalles hasta 5µs a 10µs. La precisión de los detalles de baja frecuencia es igualmente importante. Hemos comprobado que muchos sonidos de baja frecuencia, como los de la batería, adquieren una fuerza y un impacto emocional notables cuando la forma de onda se reproduce con exactitud. Fíjate en los excepcionales sonidos de batería del CD Into the Labyrinth de The Dead Can Dance. El sonido de la batería parece tener una fundamental muy baja, tal vez unos 20 Hz. Muestreamos el flujo de bits de este sonido y descubrimos que la primera forma de onda positiva tenía el doble de periodo que la posterior de 40Hz. Aparentemente, un medio ciclo de 20Hz fue suficiente para que todo el sonido pareciera tener una fundamental de 20Hz.
El sistema auditivo humano, tanto las células ciliadas internas como las externas, pueden analizar cientos de componentes sonoros casi simultáneos, identificando la ubicación de la fuente, la frecuencia, el tiempo, la intensidad y los eventos transitorios en cada uno de estos muchos sonidos simultáneamente y desarrollar un mapa espacial detallado de todos estos sonidos con la conciencia de cada fuente sonora, su posición, carácter, timbre, sonoridad y todas las demás etiquetas de identificación que podemos adjuntar a las fuentes y eventos sónicos. Creo que esta información sobre la calidad del sonido incluye la forma de onda, la identificación de transitorios incrustados y la identificación de componentes de alta frecuencia hasta al menos 40kHz (aunque no se puedan «oír» estas frecuencias de forma aislada).
Para cumplir plenamente con los requisitos de la percepción auditiva humana, creo que un sistema de sonido debe cubrir la gama de frecuencias de unos 15Hz a al menos 40kHz (algunos dicen que 80kHz o más) con más de 120dB de rango dinámico para manejar adecuadamente los picos transitorios y con una precisión de tiempo transitorio de unos pocos microsegundos en las altas frecuencias y 1°-2° de precisión de fase hasta 30Hz. Este estándar está más allá de las capacidades de los sistemas actuales, pero es muy importante que entendamos la degradación de la calidad de sonido percibida que resulta de los compromisos que se hacen en los sistemas de entrega de sonido que se utilizan actualmente. Los transductores son las áreas problemáticas más obvias, pero los sistemas de almacenamiento y toda la electrónica e interconexiones también son importantes.
Nuestro objetivo en Earthworks es producir herramientas de audio que sean mucho más precisas que los equipos antiguos con los que crecimos. No cabe duda de que estamos superando los límites. Por ejemplo, especificamos nuestro preamplificador LAB102 de 2Hz a 100kHz ±0,1dB. Algunos podrían creer que este amplio rango de rendimiento no es importante, pero escuche el sonido del LAB102, es fiel a la realidad. De hecho, los puntos de bajada de 1dB del preamplificador LAB son 0,4Hz y 1,3MHz, pero esa no es la clave de su precisión. Su tiempo de subida de la onda cuadrada es de un cuarto de microsegundo. Su respuesta al impulso es prácticamente perfecta.
Los micrófonos son el primer eslabón de la cadena de audio, traduciendo las ondas de presión del aire en señales eléctricas. La mayoría de los micrófonos actuales no son muy precisos. Muy pocos tienen una buena respuesta en frecuencia en todo el rango de 15Hz-40kHz, que creo que es necesario para un sonido preciso. En la mayoría de los micrófonos, el dispositivo acústico activo es un diafragma que recibe las ondas acústicas y, al igual que el parche de un tambor, suena al ser golpeado. Para colmo, la cápsula fonocaptora suele estar alojada en una jaula con muchas resonancias y reflexiones internas que colorean aún más el sonido. Los micrófonos direccionales, al conseguir la direccionalidad mediante el muestreo del sonido en múltiples puntos, son por naturaleza menos precisos que los omnidireccionales. El timbre, las reflexiones y los múltiples caminos hacia el diafragma se suman al exceso de fase. Estos micrófonos emborronan la señal en el dominio del tiempo.
Después de muchas mediciones y cuidadosas escuchas hemos aprendido que la verdadera respuesta al impulso de los micrófonos es un mejor indicador de la calidad del sonido que la respuesta a la amplitud de la frecuencia. Los micrófonos con un rendimiento de impulso largo y no simétrico tendrán más color que los que tienen colas de impulso cortas. Para ilustrar este punto hemos grabado cuidadosamente una variedad de fuentes utilizando dos modelos omnidireccionales diferentes (Earthworks QTC1 y otro modelo muy conocido), ambos con una respuesta en frecuencia plana hasta 40kHz dentro de -1dB.(Fig.1: QTC1 vs 4007). Cuando se reproducen en altavoces de alta calidad, el sonido de estos dos micrófonos es muy diferente. Cuando se reproducen en altavoces con una respuesta de impulso y de paso casi perfecta, que tenemos en nuestro laboratorio, la diferencia es aún más evidente. La única diferencia significativa que hemos podido identificar entre estos dos micrófonos es su respuesta al impulso.
Hemos desarrollado un sistema para derivar la respuesta en frecuencia de un micrófono a partir de su respuesta al impulso. Después de numerosas comparaciones entre los resultados de nuestra conversión de impulsos y los resultados del método de sustitución más común, estamos convencidos de su validez como norma primaria. Verá varios ejemplos de esto en la Fig.2.
Ver la forma de onda como respuesta al impulso es mejor para interpretar la información de alta frecuencia. La información de las frecuencias más bajas se entiende más fácilmente al inspeccionar la respuesta de la función de paso, que es la integral matemática de la respuesta al impulso. Ambas curvas contienen toda la información sobre la respuesta en frecuencia y tiempo dentro de los límites impuestos por la ventana de tiempo, los procesos de muestreo y el ruido.
La electrónica de los sistemas de sonido de muy alta calidad también debe ser excepcional. La distorsión y la intermodulación transitoria deben mantenerse en unas pocas partes por millón en cada etapa de amplificación, especialmente en sistemas con muchos amplificadores en cada cadena. En el diseño del circuito interno de los amplificadores de audio es especialmente importante separar el punto de referencia de la señal en cada etapa de las corrientes de retorno de la fuente de alimentación, que suelen ser terriblemente no lineales. Los circuitos de entrada diferencial en cada etapa deben extraer la señal verdadera de la etapa anterior en el amplificador. Cualquier retroalimentación global debe referenciarse desde los terminales de salida y compararse directamente con los terminales de entrada para evitar la mezcla de la suciedad de tierra y la interferencia con la señal. Si no se respetan estas reglas, el resultado es un «sonido de transistor» duro. Sin embargo, los transistores se pueden utilizar de forma que den lugar a una distorsión, intermodulación, acoplamiento de ruido de la fuente de alimentación y cualquier otro error que podamos nombrar, arbitrariamente bajos, y por lo tanto pueden ofrecer una perfección perceptiva en la amplificación de la señal de audio. (Utilizo el término «perfección perceptiva» para referirme a un sistema o componente tan excelente que no tenga ningún error que pueda ser percibido por el oído humano en su mejor momento). Mi objetivo actual de diseño en los amplificadores es que toda la distorsión armónica, incluidos los productos de intermodulación de doble tono de 19kHz y 20kHz, esté por debajo de 1 parte por millón y que el ruido ponderado A esté al menos 130dB por debajo de la salida máxima de la onda sinusoidal. Supongo que una señal puede pasar por muchos amplificadores de este tipo en un sistema sin que se detecte una degradación de la calidad de la señal.
Muchas fuentes de señales de audio tienen picos transitorios extremadamente altos, a menudo hasta 20dB por encima del nivel leído en un indicador de volumen. Es importante tener alguna herramienta de medición adecuada en un sistema de amplificación de audio para medir los picos y determinar que se están manejando adecuadamente. Muchos de los medidores de lectura de picos disponibles no leen verdaderos niveles de pico instantáneos, sino que responden a algo más cercano a una aproximación de pico promediado de 300µs a 1ms. Todos los componentes del sistema, incluidos los amplificadores de potencia y los altavoces, deben estar diseñados para reproducir los picos originales con precisión. Los sistemas de grabación truncan los picos que superan su capacidad. Los grabadores de cinta analógica suelen tener una compresión suave de los picos que a menudo se considera menos perjudicial para el sonido.
A muchos grabadores incluso les gusta este recorte de picos y lo utilizan intencionadamente. La mayoría de las grabadoras digitales tienen un efecto de pared de ladrillos en el que cualquier exceso de picos es recortado con efectos desastrosos en los tweeters, y en los oídos del oyente. Los compresores y limitadores se utilizan a menudo para reducir suavemente los picos que, de otro modo, quedarían fuera de la capacidad del sistema. Estas unidades con detectores de nivel RMS suelen sonar mejor que las que tienen detectores de media o cuasi-pico. Además, hay que tener cuidado al seleccionar los procesadores de señal para obtener una baja distorsión. Si están bien diseñados, la distorsión será muy baja cuando no se requiera un cambio de ganancia. La distorsión durante la compresión será casi en su totalidad distorsión de tercer armónico, que no es fácilmente detectable por el oído y que suele ser aceptable cuando se puede escuchar.
Un vistazo a las especificaciones de algunos de los amplificadores de potencia de gama superalta, «sin realimentación», a válvulas de vacío, revela cuánta distorsión es aceptable, o incluso preferible, para algunos audiófilos excesivamente adinerados.
Todas las conexiones entre las diferentes partes del sistema eléctrico deben estar diseñadas para eliminar el ruido y los errores de señal debidos a las corrientes de tierra de la línea eléctrica, los campos magnéticos de CA, la captación de RF, la diafonía y los efectos de absorción dieléctrica en el aislamiento de los cables. Esto es fundamental.
Los altavoces son el otro extremo del sistema de audio. Convierten las señales eléctricas en ondas de presión en el aire. Los altavoces suelen ser incluso menos precisos que los micrófonos. Fabricar un altavoz que cumpla la norma mencionada anteriormente es problemático. El altavoz ideal es una fuente puntual. Todavía no existe ningún altavoz que pueda reproducir con precisión toda la gama de 15 Hz a 40 kHz. Todos los sistemas de altavoces con varios transductores implican concesiones y compromisos.
Hemos construido varios sistemas de altavoces experimentales que aplican los mismos principios de dominio del tiempo utilizados en nuestros micrófonos Earthworks. Los resultados han sido muy prometedores. A medida que nos acercamos a la respuesta perfecta de impulso y función de paso, sucede algo mágico. La calidad del sonido se vuelve realista. En una situación de refuerzo de sonido de jazz en vivo utilizando algunos de nuestros altavoces experimentales y nuestros micrófonos SR71, la calidad del sonido no cambió con la amplificación. Desde el público sonaba como si no se estuviera amplificando en absoluto, aunque éramos muy conscientes de que el sonido era más alto. Incluso con un poco de ganancia no sonaba como si estuviera pasando por los altavoces.
Escuchar un poco de música coral de Bach que grabamos con los micrófonos QTC1 en una grabadora de muestreo de 96kHz, y reproducirla a través de nuestros altavoces modelo de ingeniería es una experiencia sorprendente. El detalle y la imagen son impresionantes. Se puede escuchar de izquierda a derecha, de delante a atrás y de arriba a abajo como si se estuviera en la sala con los intérpretes. Es emocionante comprobar que estamos avanzando tanto hacia nuestro objetivo.
He oído que la Victor Talking Machine Company publicó anuncios en los años 20 en los que se citaba a Enrico Caruso diciendo que la Victrola era tan buena que su sonido era indistinguible de su propia voz en directo. En los años setenta, Acoustic Research publicó anuncios similares, con bastante más justificación, sobre los cuartetos de cuerda en directo frente a los grabados. Hemos avanzado mucho desde entonces, pero ¿podemos alcanzar la perfección perceptiva? Sospecho que un sonido realmente excelente, ¿quizás incluso la perfección perceptiva? Como punto de referencia, deberías montar un sistema de prueba con micrófonos y altavoces que tengan una excelente respuesta al impulso y al paso, y por tanto una respuesta en frecuencia casi perfecta, junto con amplificadores de baja distorsión. Pruébalo como sistema de refuerzo de sonido y/o sistema de monitorización de estudio con fuentes de voz y música. Usted, los intérpretes y el público se sorprenderán del resultado. ¿No tiene un sistema así? ¿No es imposible? No lo es. Nosotros lo hemos conseguido. Si quiere más información, aquí hay varios libros que creo que cualquier persona que se dedique intensamente al audio debería tener y leer y releer muchas veces.
Una introducción a la fisiología de la audición, segunda edición
James O. Pickles, Academic Press 1988
ISBN 0-12-554753-6 o ISBN 0-12-554754-4 pbk.
La audición espacial – Edición revisada: The Psychophysics of Human Sound Localization
Jen Blauert, MIT Press 1997
ISBN 0-262-02413-6
Experiments in Hearing
Georg von Békésy, Acoustical Society of America
ISBN 0-88318-630-6
Hearing: Acústica fisiológica, codificación neuronal y psicoacústica
W. Lawrence Gulick, George A. Gescheider, Robert D. Frisina; Oxford University Press 1989
ISBN 0-19-50307-3