Usando um estudo do mecanismo auditivo humano como sua fundação, o fundador da Earthworks, David E Blackmer, apresenta seus argumentos e sua visão de áudio de alta definição.

É MUITA controvérsia sobre como podemos avançar em direção a uma reprodução de som de maior qualidade. O padrão de disco compacto assume que não há informação útil além dos 20kHz e, portanto, inclui um filtro de parede de tijolo logo acima dos 20kHz. Muitos ouvintes ouvem uma grande diferença quando os sinais de áudio de 20kHz com banda limitada são comparados com sinais de banda larga. Vários sistemas digitais foram propostos que amostram sinais de áudio a 96kHz e acima, e com até 24 bits de quantização.

Muitos engenheiros foram treinados para acreditar que a audição humana não recebe nenhuma entrada significativa de componentes de freqüência acima de 20kHz. Eu li muitas cartas de irritação de tais engenheiros insistindo que informações acima de 20kHz são claramente inúteis, e qualquer tentativa de incluir tais informações em sinais de áudio é enganosa, desperdiçadora e tola, e que qualquer engenheiro de áudio com mente correta deve perceber que esta limitação de 20kHz é conhecida como uma limitação absoluta há muitas décadas. Aqueles de nós que estão convencidos de que existe informação de áudio de importância crítica para pelo menos 40kHz são vistos como mal orientados.

Devemos olhar para os mecanismos envolvidos na audição, e tentar compreendê-los. Através dessa compreensão podemos desenvolver um modelo das capacidades dos sistemas de transdução e análise na audição humana e trabalhar para novos e melhores padrões de design de sistemas de áudio.

O que me fez começar na minha busca para entender as capacidades da audição humana além dos 20kHz foi um incidente no final dos anos oitenta. Eu tinha acabado de adquirir um sistema MLSSA e estava comparando o som e a resposta de um grupo de tweeters de cúpula de alta qualidade. O melhor destes tinha uma resposta de frequência praticamente idêntica aos 20kHz, no entanto soavam muito diferentes.

Quando olhei de perto para a sua resposta para além dos 20kHz eles eram visivelmente bastante diferentes. Os tweeters de cúpula metálica tinham uma cerca irregular de picos e vales em sua resposta de amplitude acima de 20kHz. Os tweeters de cúpula de seda exibiam uma queda suave acima dos 20kHz. A cúpula metálica soou dura em comparação com a cúpula de seda. Como pode ser isto? Não consigo ouvir tons mesmo a 20kHz, e mesmo assim a diferença foi audível e bastante drástica. Em vez de negar o que eu claramente ouvi, comecei a procurar outras explicações.

PORQUE Visto de um ponto de vista evolutivo, a audição humana tornou-se o que é, porque é uma ferramenta de sobrevivência. O sentido auditivo humano é muito eficaz em extrair todos os detalhes possíveis do mundo ao nosso redor para que nós e nossos ancestrais possamos evitar o perigo, encontrar comida, comunicar, apreciar os sons da natureza e apreciar a beleza do que chamamos de música. A audição humana é geralmente, creio eu, mal compreendida como sendo principalmente um sistema de análise de frequências. O modelo predominante de audição humana pressupõe que a percepção auditiva se baseia na interpretação do cérebro das saídas de um sistema de análise de freqüência, que é essencialmente um filtro de pente dinâmico de amplo alcance, no qual a intensidade de cada componente de freqüência é transmitida ao cérebro. Este filtro de pente é certamente uma parte importante do nosso sistema de análise sonora, e que filtro incrível que é. Cada zona de frequência é afinada de forma acentuada com um sistema de resistência mecânica negativa. Além disso, o Q de afinação de cada elemento filtrante é ajustado de acordo com os comandos enviados de volta à cóclea por uma série de centros de pré-análise (os núcleos cocleares) perto do tronco cerebral. Uma série de fibras nervosas de transmissão muito rápida liga a saída de cada célula capilar a esses núcleos cocleares. A capacidade humana de interpretar as informações de freqüência é surpreendente. Claramente, entretanto, algo está acontecendo que não pode ser explicado inteiramente em termos de nossa capacidade de ouvir tons.

O ouvido interno é um dispositivo complexo com detalhes incríveis em sua construção. As ondas de pressão acústica são convertidas em pulsos nervosos no ouvido interno, especificamente na cóclea, que é um tubo espiral cheio de líquido. O sinal acústico é recebido pela membrana timpânica onde é convertido em forças mecânicas que são transmitidas para a janela oval e depois para a cóclea, onde as ondas de pressão passam ao longo da membrana basilar. Esta membrana basilar é um dispositivo de transmissão acusticamente activo. Ao longo da membrana basilar encontram-se filas de dois tipos diferentes de células capilares, geralmente referidas como internas e externas.

As células capilares internas estão claramente relacionadas com o sistema de análise de frequência descrito acima. Apenas cerca de 3.000 das 15.000 células capilares da membrana basilar estão envolvidas na transmissão de informações de freqüência usando as saídas deste filtro de ondas viajantes. As células capilares externas claramente fazem algo mais, mas o que?

Há cerca de 12.000 células capilares ‘externas’ dispostas em três ou quatro filas. Há quatro vezes mais células capilares externas do que internas(!) No entanto, apenas cerca de 20% do total de caminhos nervosos disponíveis as conectam ao cérebro. As células capilares externas são interconectadas por fibras nervosas em uma rede distribuída. Esta matriz parece agir como um analisador de forma de onda, um transdutor de baixa frequência e como um centro de comando para as fibras musculares super rápidas (actina) que amplificam e aguçam as ondas viajantes que passam ao longo da membrana basilar, produzindo assim o filtro do pente. Também tem a capacidade de extrair informação e transmiti-la para os centros de análise do complexo olivariano, e depois para o córtex do cérebro onde ocorre a consciência dos padrões sônicos. A informação das células capilares externas, que parece estar mais relacionada com a forma de onda do que com a frequência, está certamente correlacionada com o domínio da frequência e outras informações no cérebro para produzir o sentido auditivo.

O nosso sistema de análise auditiva é extraordinariamente sensível aos limites (qualquer evento inicial ou final significativo ou ponto de mudança). Um resultado deste processo de detecção de limites é a muito maior consciência do som inicial numa série complexa de sons, como um campo sonoro reverberante. Esta componente do som inicial é responsável pela maioria do nosso sentido de conteúdo, significado e equilíbrio de frequência num sinal complexo. O sistema auditivo humano é evidentemente sensível à informação de impulso embutida nos sons. Minha suspeita é que esse sentido está por trás do que é comumente referido como ‘ar’ na literatura de ponta. Provavelmente também está relacionado com o que pensamos como ‘textura’ e ‘timbre’ – aquilo que dá a cada som o seu carácter individual distinto. Qualquer que seja o nome que lhe dermos, sugiro que a informação de impulso é uma parte importante de como os humanos ouvem.

Todos os sinais de saída da cóclea são transmitidos nas fibras nervosas como sinais modulados de freqüência e posição de pulso. Esses sinais são usados para transduzir informações sobre freqüência, intensidade, forma de onda, taxa de mudança e tempo. As frequências mais baixas são transduzidas aos impulsos nervosos no sistema auditivo de uma forma surpreendente. A saída de células capilares para as frequências mais baixas é transmitida principalmente como grupos de pulsos que correspondem fortemente à metade positiva da onda de pressão acústica com poucos ou nenhuns pulsos sendo transmitidos durante a metade negativa da onda de pressão. Efectivamente, estas fibras nervosas transmitem apenas na metade positiva da onda de pressão. Esta situação existe até um pouco acima de 1kHz, com picos perceptíveis de meia onda que se sobrepõem ao sinal nervoso auditivo sendo claramente visíveis até pelo menos 5kHz. Existe um limite agudo no início e no final de cada grupo de pulso de pressão positiva, aproximadamente no eixo central da onda de pressão. Esta transdução do grupo de impulsos com limites agudos no eixo é um dos mecanismos importantes que contabiliza a resolução temporal do ouvido humano. Em 1929 Von Bekesy publicou uma medida da acuidade da posição do som humano que se traduz numa resolução de tempo superior a 10µs entre os ouvidos. Nordmark, em um artigo de 1976, concluiu que a resolução intramural é melhor que 2µs; a resolução de tempo intramural a 250Hz é dita ser cerca de 10µs o que se traduz em melhor que 1° de fase nesta frequência.

O sistema auditivo humano utiliza a forma de onda bem como a frequência para analisar sinais. É importante manter uma forma de onda precisa até a região de maior frequência com reprodução precisa dos detalhes até 5µs a 10µs. A precisão dos detalhes de baixa frequência é igualmente importante. Encontramos muitos sons de baixa frequência, como tambores, que assumem uma força e impacto emocional notáveis quando a forma de onda é exactamente reproduzida. Por favor note os excepcionais sons de bateria no CD The Dead Can Dance Into the Labyrinth. O som da bateria parece ter um fundamental muito baixo, talvez cerca de 20Hz. Nós provamos o bitstream deste som e descobrimos que a primeira forma de onda positiva teve o dobro do período da forma de onda subseqüente de 40Hz. Aparentemente um meio ciclo de 20Hz foi suficiente para fazer com que todo o som parecesse ter um fundamental de 20Hz.

O sistema auditivo humano, tanto as células capilares internas como externas, podem analisar centenas de componentes sonoros quase simultâneos, identificando a localização da fonte, frequência, tempo, intensidade e eventos transitórios em cada um desses muitos sons simultaneamente e desenvolver um mapa espacial detalhado de todos esses sons com consciência de cada fonte sonora, sua posição, caráter, timbre, sonoridade e todas as outras etiquetas de identificação que podemos anexar a fontes e eventos sônicos. Acredito que esta informação de qualidade sonora inclui forma de onda, identificação de transientes embutidos e identificação de componentes de alta frequência até pelo menos 40kHz (mesmo que não se possa ‘ouvir’ estas frequências de forma isolada).

A REALIZAR COMPLETAMENTE os requisitos da percepção auditiva humana Acredito que um sistema sonoro deve cobrir a gama de frequências de cerca de 15Hz a pelo menos 40kHz (alguns dizem 80kHz ou mais) com uma gama dinâmica superior a 120dB para lidar adequadamente com picos transientes e com uma precisão de tempo transiente de alguns microssegundos em frequências altas e uma precisão de fase de 1°-2° até 30Hz. Este padrão está além das capacidades dos sistemas atuais, mas é muito importante que compreendamos a degradação da qualidade sonora percebida que resulta dos compromissos que estão sendo feitos nos sistemas de fornecimento de som agora em uso. Os transdutores são as áreas problemáticas mais óbvias, mas os sistemas de armazenamento e toda a eletrônica e interconexões também são importantes.

Nosso objetivo na Earthworks é produzir ferramentas de áudio que sejam muito mais precisas do que os equipamentos mais antigos nos quais crescemos. Nós certamente estamos empurrando o envelope. Por exemplo, nós especificamos nosso pré-amplificador LAB102 de 2Hz a 100kHz ±0.1dB. Alguns podem acreditar que este desempenho de grande alcance não é importante, mas ouçam o som do LAB102, ele é fiel à realidade. Na verdade, os pontos de descida 1dB do pré-amplificador LAB são 0,4Hz e 1,3MHz, mas isso não é a chave para a sua precisão. Seu tempo de subida de onda quadrada é de um quarto de um microssegundo. Sua resposta ao impulso é praticamente perfeita.

Microfones são o primeiro elo da cadeia de áudio, traduzindo as ondas de pressão no ar em sinais elétricos. A maioria dos microfones de hoje não são muito precisos. Muito poucos têm uma boa resposta de frequência em toda a faixa de 15Hz-40kHz, que eu acredito ser necessária para um som preciso. Na maioria dos microfones o dispositivo acústico ativo é um diafragma que recebe as ondas acústicas, e como uma cabeça de tambor, ele irá tocar quando for atingido. Para piorar a situação, a cápsula de captação está normalmente alojada numa gaiola com muitas ressonâncias e reflexos internos que colorem ainda mais o som. Microfones direcionais, porque alcançam direcionalidade através da amostragem do som em vários pontos, são por natureza menos precisos que omnis. O zumbido, os reflexos e os múltiplos caminhos para o diafragma somam-se em fase de excesso. Estes microfones mancham o sinal no domínio do tempo.

Nós aprendemos após muitas medições e escuta cuidadosa que a verdadeira resposta de impulso dos microfones é um melhor indicador da qualidade do som do que a resposta da amplitude da frequência. Microfones com desempenho de impulso longo e não simétrico serão mais coloridos do que aqueles com caudas curtas de impulso. Para ilustrar este ponto, gravamos cuidadosamente uma variedade de fontes usando dois modelos omni diferentes (Earthworks QTC1 e outro modelo bem conhecido) ambos com resposta de frequência plana a 40kHz dentro de -1dB.(Fig.1: QTC1 vs 4007). Quando reproduzidos em colunas de alta qualidade, o som destes dois microfones é bastante diferente. Quando reproduzidos em alto-falantes com resposta de impulso e passo quase perfeitos, que temos em nosso laboratório, a diferença é ainda mais aparente. A única diferença significativa que conseguimos identificar entre esses dois microfones é sua resposta de impulso.

Desenvolvemos um sistema para derivar a resposta de freqüência de um microfone a partir de sua resposta de impulso. Após numerosas comparações entre os resultados da nossa conversão de impulso e os resultados do método de substituição mais comum, estamos convencidos da validade deste como padrão primário. Você verá vários exemplos disso na Fig.2.

Ver a forma de onda como resposta a impulso é melhor para interpretar informações de freqüência mais alta. A informação de freqüência mais baixa é mais facilmente compreendida a partir da inspeção da resposta por etapas, que é a integral matemática da resposta por impulso. Ambas as curvas contêm todas as informações sobre freqüência e tempo de resposta dentro dos limites impostos pela janela de tempo, os processos de amostragem e ruído.

A eletrônica em sistemas de som de muito alta qualidade também deve ser excepcional. A distorção e a intermodulação transitória devem ser mantidas em poucas partes por milhão em cada estágio de amplificação, especialmente em sistemas com muitos amplificadores em cada cadeia. No projeto do circuito interno dos amplificadores de áudio é especialmente importante separar o ponto de referência do sinal em cada estágio das correntes de retorno da fonte de alimentação, que geralmente são terrivelmente não lineares. Os circuitos de entrada de diferença em cada estágio devem extrair o sinal verdadeiro do estágio anterior no amplificador. Qualquer feedback global deve fazer referência a partir dos terminais de saída e comparar diretamente com os terminais de entrada para evitar a mistura de grunge de terra e conversação cruzada com o sinal. O não cumprimento destas regras resulta em um “som transistor” severo. No entanto, os transístores podem ser utilizados de uma forma que resulte numa distorção arbitrariamente baixa, intermodulação, acoplamento de ruído de alimentação, e quaisquer outros erros que possamos nomear, podendo assim proporcionar uma perfeição perceptiva na amplificação do sinal de áudio. (Eu uso “perfeição perceptual” para significar um sistema ou componente tão excelente que não tem nenhum erro que possa ser percebido pela audição humana no seu melhor). O meu objectivo de design actual em amplificadores é ter todas as distorções harmónicas incluindo produtos de intermodulação de dois tons de 19kHz e 20kHz abaixo de 1 parte por milhão e ter um ruído ponderado A de pelo menos 130dB abaixo da saída máxima de onda sinusoidal. Assumo que um sinal pode passar por muitos desses amplificadores em um sistema sem degradação detectável na qualidade do sinal.

Muitas fontes de sinal de áudio têm picos transientes extremamente altos, muitas vezes até 20dB acima do nível lido em um indicador de volume. É importante ter alguma ferramenta de medição adequada em um sistema de amplificação de áudio para medir os picos e determinar se eles estão sendo manuseados adequadamente. Muitos dos medidores de pico disponíveis não lêem níveis de pico instantâneos verdadeiros, mas respondem a algo mais próximo de uma aproximação média de pico de 300µs a 1ms. Todos os componentes do sistema, incluindo amplificadores de potência e alto-falantes, devem ser projetados para reproduzir os picos originais com precisão. Os sistemas de gravação truncam os picos que estão além de sua capacidade. Os gravadores de fita analógica têm frequentemente uma compressão suave dos picos, que é muitas vezes considerada menos prejudicial para o som.

MANY RECORDISTS mesmo como este recorte de picos e usam-no intencionalmente. A maioria dos gravadores digitais tem um efeito de parede de tijolo em que qualquer excesso de picos é quadrado com efeitos desastrosos nos tweeters, e nos ouvidos do ouvinte. Compressores e limitadores são frequentemente usados para reduzir suavemente os picos que de outra forma estariam além da capacidade do sistema. Tais unidades com detectores de nível RMS geralmente soam melhor do que aquelas com detectores de pico médio ou quase-pico. Além disso, tenha cuidado ao selecionar os processadores de sinal para baixa distorção. Se forem bem projetados, a distorção será muito baixa quando não for necessária nenhuma mudança de ganho. A distorção durante a compressão será quase inteiramente a terceira distorção harmônica que não é facilmente detectada pelo ouvido e que normalmente é aceitável quando pode ser ouvida.

Um olhar para as especificações de alguns dos super-altos, ‘sem feedback’, tubo de vácuo, amplificadores de potência revela quanta distorção é aceitável, ou até mesmo preferível, para alguns audiófilos excessivamente bem-elevados.

Todas as conexões entre diferentes partes do sistema elétrico devem ser projetadas para eliminar ruídos e erros de sinal devido a correntes de terra da linha de alimentação, campos magnéticos AC, captação RF, crosstalk, e efeitos de absorção dielétrica no isolamento do fio. Isto é crítico.

Os alto-falantes são a outra extremidade do sistema de áudio. Eles convertem sinais elétricos em ondas de pressão no ar. Os alto-falantes são geralmente ainda menos precisos que os microfones. Fazer um alto-falante que atenda ao padrão mencionado acima é problemático. O altifalante ideal é uma fonte pontual. Ainda não existe um único driver que possa reproduzir com precisão toda a faixa de 15Hz-40kHz. Todos os sistemas de alto-falantes multidriver envolvem concessões e compromissos.

Construímos vários sistemas de alto-falantes experimentais que aplicam os mesmos princípios de domínio de tempo usados em nossos microfones Earthworks. Os resultados têm sido muito promissores. À medida que nos aproximamos do impulso perfeito e da resposta de step-function, algo mágico acontece. A qualidade do som torna-se real. Numa situação de reforço de som de jazz ao vivo utilizando algumas das nossas colunas experimentais e os nossos microfones SR71, a qualidade de som não mudou com a amplificação. A partir da audiência, soou como se não estivesse a ser amplificado, apesar de estarmos perfeitamente conscientes de que o som era mais alto. Mesmo com algum ganho não soava como se estivesse a passar por colunas.

Ouvir alguma música coral de Bach que gravámos com microfones QTC1 num gravador de amostras de 96kHz, e reproduzimos através das nossas colunas modelo de engenharia é uma experiência assustadora. Os detalhes e a imagem são impressionantes. Você pode ouvir da esquerda para a direita, da frente para trás e de cima para baixo como se estivesse na sala com os artistas. É emocionante descobrir que estamos a fazer progressos tão bons em direcção ao nosso objectivo.

Ouvimos dizer que a Victor Talking Machine Company fez anúncios nos anos 20 em que Enrico Caruso foi citado como dizendo que o Victrola era tão bom que o seu som era indistinguível da sua própria voz ao vivo. Nos anos 70, a Acoustic Research fez anúncios semelhantes, com bastante mais justificação, sobre quartetos de cordas ao vivo versus quartetos de cordas gravadas. Percorremos um longo caminho desde então, mas será que podemos alcançar a perfeição perceptiva? Suspeito que esse som verdadeiramente excelente, talvez até mesmo a perfeição perceptiva? Como ponto de referência, você deve montar um sistema de teste com microfones e alto-falantes com excelente resposta de impulso e passo, daí uma resposta de freqüência quase perfeita, juntamente com amplificadores de baixa distorção. Teste-o como um sistema de reforço de som e/ou sistema de monitorização de estúdio com fontes de voz e música. Você, os intérpretes e o público ficarão espantados com o resultado. Você não tem um sistema desse tipo? Isso não é impossível, diz você? Não é! Nós fizemos isso! Se você quer mais informações, aqui estão vários livros que eu acredito que qualquer pessoa que esteja intensamente envolvida com Áudio deve possuir e ler e depois reler muitas vezes.

Uma Introdução à Fisiologia da Audição, Segunda Edição
James O. Pickles, Academic Press 1988
ISBN 0-12-554753-6 ou ISBN 0-12-554754-4 pbk.

Spatial Hearing – Revised Edition: The Psychophysics of Human Sound Localization
Jen Blauert, MIT Press 1997
ISBN 0-262-02413-6

>

Experiments in Hearing
Georg von Békésy, Acoustical Society of America
ISBN 0-88318-630-6

>

Hearing: Acústica Fisiológica, Codificação Neural e Psicoacústica
W. Lawrence Gulick, George A. Gescheider, Robert D. Frisina; Oxford University Press 1989
ISBN 0-19-50307-3

Articles

Deixe uma resposta

O seu endereço de email não será publicado.