Sample Rate – Mitos e Verdades

In blog by zasnicoff

Interface do ProTools HD

Se a discussão sobre Resolução de Bits já é quente (veja este artigo), falar sobre Sample Rate (ou Frequência de Amostragem) é pedir para criar polêmica no universo do áudio. Como se fosse algo emocional ou místico, e não é.

Não há segredos. Talvez um pouco de subjetividade, como tudo na música. A falta de conhecimento e as discussões em fóruns amadores são os principais causadores das dúvidas. Os fatos existem, preto no branco, é só querer aprender, mas incrivelmente muitos preferem discutir. Os mitos se alimentam cada vez que alguém pergunta:

  • Faz sentido gravar em 96kHz?
  • O ProTools HD 192kHz soa melhor do que outros sistemas?
  • Qual a melhor maneira de se converter de um sample rate (SR) para outro?
  • Conseguimos ouvir frequências acima de 20kHz?

Faz muitos anos que a taxa de amostragem (SR=sample rate) das interfaces de áudio é um ponto forte de marketing. Valores como 96 e 192kHz se tornaram “padrão” em vários estúdios, que muitas vezes nem sabem porque utilizam estes equipamentos. Afinal, “Protools” já é legal, em 192kHz então, só pode ser o máximo!

O espaço de armazenamento deixou de ser um problema (arquivos com SR de 192kHz são 4 vezes maiores do que áudio para CD em 44.1kHz), mas será que estas altas amostragens trazem algum benefício? Em que fases da produção? Há quem diga que podem até prejudicar o resultado final, será verdade?

O custo dos equipamentos de SR alto está caindo. Hoje é bastante acessível trabalharmos em 88.1 ou 96kHz. O que pouca gente sabe é que sample rates MUITO maiores do que 192kHz já são utilizados em conversores, equipamentos digitais e plugins há muitos anos.

  1. 44.1kHz é mais do que suficiente para representar áudio com fidelidade. Você já deve ter ouvido falar do teorema de Nyquist. Ele prova que, no áudio digital, a maior frequência amostrável (ou gravável) equivale a metade da frequência de amostragem. Em outras palavras, com um SR de 44.1kHz, um sinal de até 22.050Hz pode ser gravado tranquilamente por um conversor A/D (analógico/digital), sendo posteriormemente reproduzido com fidelidade por um conversor D/A. É claro que a qualidade da conversão e da reprodução depende – e sempre dependerá – da qualidade dos conversores e demais elos da cadeia de áudio. Mesmo assim, o teorema é matemático e verdadeiro, significando: um arquivo WAV em 44.1kHz/24 bits pode conter toda e qualquer informação audível. Uma verdade inabalável. Qualquer som que seja escutado por qualquer pessoa pode ser gravado em 44.1kHz. Como gravar e que equipamentos utilizar é uma outra história.
  2. Por que 44.1kHz e não 40kHz? É sabido que a maioria das pessoas não escuta além de 20kHz, então porque precisaríamos de 44.1kHz? Na falta de um motivo principal, existem pelo menos duas razões fortes: nos primórdios do áudio digital, muitas gravações eram feitas em mídias originalmente projetadas para vídeo. Se fizermos um estudo dos detalhes técnicos dos padrões NTSC e PAL, como linhas de resolução e quadros por segundo, veremos que 44.1kHz é uma escolha natural para estes equipamentos, seus conversores, circuitos e clocks. Em segundo lugar, algumas pessoas conseguem escutar até 22kHz, então por que não extender um pouco a frequência de amostragem e garantir que toda informação audível seja registrada.
  3. Existe diferença entre 44.1kHz e 48kHz? 48kHz surgiu como padrão de áudio para DVDs e outros formatos de vídeo, por ser múltiplo exato de 8 e assim facilitar alguns projetos de hardware e software. Como as diferenças entre os dois formatos são imperceptíveis (considerando equipamentos de mesma qualidade), a escolha do SR normalmente fica por conta do formato final do áudio masterizado. Se o destino é CD, então é melhor já gravar em 44.1kHz. Conversões de SR devem ser evitadas a todo custo, pois podem alterar consideravelmente a qualidade do áudio. Quando necessárias, devem ser feitas entre múltiplos (ex.: de 88.2 para 44.1kHz ao invés de 96kHz para 44.1kHz).
  4. O problema dos filtros. A amostragem digital possui uma limitação técnica que se chama aliasing. Este fenômeno gera distorções toda vez que um sinal acima de 22.050Hz é amostrado em 44.100Hz (ou 24kHz em 48kHz, 48 em 96 etc.). Para evitar estas distorções, o áudio analógico precisa ser FILTRADO antes da conversão A/D, impedindo que qualquer conteúdo acima de 22kHz chegue ao conversor e seja amostrado. Mas afinal, existe áudio acima de 22kHz? Sem dúvida! Ele está aí, o tempo todo, como ruídos dos equipamentos ou sons da natureza, não escutamos, mas ele existe. Pois bem, todo filtro possui uma “curva de atuação”, começando a filtrar um pouco antes da frequência de corte, para poder “barrar” efetivamente tudo acima dela. Filtros com curvas “suaves” são mais fáceis de se construir e mais baratos. Filtros de curvas abruptas, além de caros, podem gerar problemas de fase e prejudicar os agudos. A solução é utilizar SRs altos, como 88.1 ou 96kHz, e conseguir gravar todo o espectro audível, sem se preocupar com aliasing ou outras distorções causadas pelo filtro. O áudio digital em alta definição pode então ser filtrado na saída (filtro após o conversor D/A) ou então digitalmente por um plugin, caso precise ser convertido para SRs mais baixos. Como veremos a seguir, isso não significa obrigatoriamente que devemos gravar em alta-definição.
  5. Oversampling: Para contornar o problema dos filtros em 44.1kHz e diminuir o ruído de “digitalização”, muitos conversores A/D (e D/A) utilizam oversampling, fazendo amostragens em alto SR. Depois, aplicam filtros digitais precisos para fazer o down-sampling para 44.1kHz, antes de armazenar o áudio. Portanto, existem muitos conversores D/A de 44.1kHz que utilizam técnicas e/ou filtros de alta qualidade, sem que seja necessário gravarmos em alta definição. Não é raro que a frequência de oversampling seja de 64x, 128 vezes ou até mais a frequência de amostragem final.
  6. Por que gravar em 96kHz? A decisão deve sempre se basear em testes de gravação e audição. Particularmente, eu não gravo e não sinto falta de gravar em 96kHz até o momento. Talvez porque meus conversores de 44.1kHz sejam suficientemente bons. Ou porque eu utilize plugins que saibam trabalhar em 44.1kHz. Ou ainda porque eu não tenha o hábito de gravar orquestras e outras formações “acusticamente densas”, como veremos a seguir. Um equipamento de alta definição requer um projeto confiável, não basta ser compatível com 96kHz para provar que é de boa qualidade. Em teoria, equipamentos de 96kHz podem ter boa qualidade a baixo custo, pois utilizam filtros mais suaves. Na prática, barato nunca foi sinônimo de qualidade ou confiabilidade no áudio. Melhor um bom conversor de 44.1kHz que utilize oversampling do que um razoável de 96kHz pelo mesmo preço. De novo, é só escutar para ouvir as diferenças e escolher. Além disso, tenha em mente que converter de 96kHz para 44.1kHz (não-múltiplos) requer equipamentos ou software de altíssima qualidade, o que é raro e pouco acessível. Como resultado, muitas vezes o áudio convertido de 96 para 44.1 soa pior do que se fosse gravado diretamente em 44.1kHz. Assim, somente grave em 96kHz se o conversor for confiável e o áudio final permanecer neste formato (ou for convertido para 48kHz). Uma última razão para justificar 96kHz, mais atual e subjetiva, seria a maior precisão TEMPORAL (e não espectral), já que algumas pessoas parecem perceber diferenças de tempo muito pequenas entre os dois ouvidos, da ordem do intervalo entre amostras (samples) em 96kHz. Assim, áudio neste SR poderia ter uma melhor imagem estéreo, desde que precisamente gravado com microfonação estéreo. Definitivamente algo para um pequeno mercado audiófilo. Mas volto a insistir, para que estes detalhes sejam percebidos, todo o resto da cadeia tem que ser de altíssima qualidade, enquanto diversos outros fatores influenciarão muito mais na imagem estéreo do que o sample rate. Por exemplo, a simetria da posição de audição e a acústica da sala.
  7. Então o que dizer sobre 192kHz? Se você leu os últimos parágrafos, já concluiu que gravar em 192kHz é absolutamente desnecessário, pelo menos atualmente. Um dos grandes motivos de se trabalhar com SR’s altos é a possibilidade de editar o áudio com maior precisão. Isso faz sentido e o resultado é realmente audível, mas NÃO SIGNIFICA que o áudio precise ser GRAVADO em 192kHz, e nem em 96kHz. O equipamento digital ou plugin se encarregará de fazer o upsampling (conversão para uma fequência de amostragem mais alta) do material gravado. Após o processamento, o áudio é novamente convertido para o SR original, podendo ser manipulado pelo software de mixagem e pela interface de áudio sem problemas. Na verdade, MUITOS plugins trabalham com upsampling de uma maneira transparente. O upsampling pode melhorar consideravelmente a qualidade do processamento, sobretudo em aplicações de correção de pitch, time stretch, compressão extrema e sintetizadores virtuais.
  8. Harmônicos Ultra-sônicos?Alguns defensores de gravações em 96kHz e 192kHz adoram falar em harmônicos e frequências altas que são audíveis, ou “sentidas” pelos ouvintes. Isso é uma besteira absurda. O que ocorre de fato, e é matematicamente provado, é que duas frequências altas (por exemplo 30kHz e 40kHz), quando combinadas, geram um “harmônico” que é a diferença das duas. Neste caso, audíveis 10kHz. Já que diversos instrumentos acústicos geram harmônicos bem acima de 20kHz e a frequência resultante das combinações pode cair na região audível, a “mixagem acústica” de uma apresentação ao-vivo (como a de uma orquestra) pode soar diferente da mixagem digital de cada instrumento gravado em 44.1kHz. Afinal, os harmônicos ultra-sônicos não serão gravados e não poderão se combinar e gerar frequências audíveis. Nestes casos (e dependendo de como o material gravado será mixado, reproduzido e das características dos conversores), pode fazer sentido gravar em 96 ou 192kHz. Na prática, os conversores A/D de 96 e 192kHz normalmente filtram am 24kHz, portanto nenhum harmônico ultra-sônico é registrado.

Mais uma vez, concluímos que o áudio final, desde que cuidadosamente manipulado, processado e convertido, pode ter altíssima fidelidade em 44.1kHz. Tudo depende dos equipamentos utilizados e da metodologia dos engenheiros. Gravações e mixagens de alta fidelidade não precisam de SR’s acima de 44.1kHz. A qualidade dos conversores e saber utilizar corretamente upsampling e conversões, quando necessários, são mais importantes e decisivos.

Quando utilizar altos sample rates, tenha certeza dos motivos, certificando-se de que haverá benefícios.