Conhecimento básico de áudio e princípios de codificação

1. Conceitos básicos

1) Taxa de bits: indica quantos bits por segundo os dados de áudio codificados (compactados) precisam ser representados, e a unidade geralmente é kbps.

2) Loudness e intensidade: Os atributos subjetivos de um som. Loudness indica o quão alto um som soa. A sonoridade varia principalmente com a intensidade do som, mas também é afetada pela frequência. De um modo geral, os sons puros de frequência média são melhores do que os sons puros de baixa e alta frequência.

3) Amostragem e taxa de amostragem: Amostragem é transformar um sinal de tempo contínuo em um sinal digital discreto. A taxa de amostragem se refere a quantas amostras são coletadas por segundo.

Lei de amostragem de Nyquist: Quando a taxa de amostragem é maior ou igual a 2 vezes o componente de frequência mais alto do sinal contínuo, o sinal amostrado pode ser usado para reconstruir perfeitamente o sinal contínuo original.

2. formatos de áudio comuns

1) O formato WAV é um formato de arquivo de som desenvolvido pela Microsoft, também chamado de arquivo de som wave. É o formato de áudio digital mais antigo, amplamente suportado pela plataforma Windows e seus aplicativos e tem uma baixa taxa de compactação.

2) MIDI é a abreviatura de Musical Instrument Digital Interface, também conhecida como Musical Instrument Digital Interface, que é um padrão internacional unificado para música digital / instrumentos musicais eletrônicos sintéticos. Ele define a maneira como os programas musicais de computador, sintetizadores digitais e outros dispositivos eletrônicos trocam sinais musicais e especifica o protocolo de transmissão de dados entre cabos e hardware e dispositivos que conectam instrumentos musicais eletrônicos de diferentes fabricantes a computadores, e podem simular o som de vários musicais instrumentos. Um arquivo MIDI é um arquivo no formato MIDI e alguns comandos são armazenados no arquivo MIDI. Envie essas instruções para a placa de som e ela sintetizará o som de acordo com as instruções.

3) O nome completo do MP3 é MPEG-1 Audio Layer 3, que foi incorporado à especificação MPEG em 1992. O MP3 pode compactar arquivos de áudio digital com alta qualidade de som e baixa taxa de amostragem. A aplicação mais comum.

4) MP3Pro foi desenvolvido pela Swedish Coding Technology Company, que contém duas tecnologias principais: uma é a tecnologia de decodificação exclusiva da Coding Technology Company e a outra é a integração do detentor da patente de MP3 French Thomson Multimedia Company e a tecnologia de decodificação German Fraunhofer A pesquisada em conjunto pela Circuit Association. MP3Pro pode melhorar a qualidade do som da música MP3 original sem basicamente alterar o tamanho do arquivo. Ele pode manter a qualidade do som antes da compressão ao máximo, enquanto compacta os arquivos de áudio a uma taxa de bits mais baixa.

5) MP3Pro foi desenvolvido pela Swedish Coding Technology Company, que contém duas tecnologias principais: uma é a tecnologia de decodificação exclusiva da Coding Technology Company e a outra é a integração do detentor da patente de MP3 French Thomson Multimedia Company e a tecnologia de decodificação German Fraunhofer A pesquisada em conjunto pela Circuit Association. MP3Pro pode melhorar a qualidade do som da música MP3 original sem basicamente alterar o tamanho do arquivo. Ele pode manter a qualidade do som antes da compressão ao máximo, enquanto compacta os arquivos de áudio a uma taxa de bits mais baixa.

6) WMA (Windows Media Audio) é a obra-prima da Microsoft no campo de áudio e vídeo da Internet. O formato WMA atinge uma taxa de compressão mais alta, reduzindo o tráfego de dados, mas mantendo a qualidade do som. A taxa de compressão geralmente pode chegar a 1:18. Além disso, o WMA também pode proteger os direitos autorais por meio de DRM (Digital Rights Management).

7) RealAudio é um formato de arquivo lançado pela Real Networks. A maior característica é que ele pode transmitir informações de áudio em tempo real, especialmente quando a velocidade da rede é lenta, ele ainda pode transmitir dados sem problemas, então o RealAudio é principalmente adequado para jogar online em rede. Os formatos de arquivo RealAudio atuais incluem principalmente RA (RealAudio), RM (RealMedia, RealAudio G2), RMX (RealAudio Secured), etc. A semelhança desses arquivos é que a qualidade do som muda com a diferença na largura de banda da rede. Sob a premissa de que a maioria das pessoas ouve um som suave, os ouvintes com uma largura de banda maior podem obter melhor qualidade de som.

8) Audible tem quatro formatos diferentes: Audible1, 2, 3, 4. O site Audible.com vende principalmente livros de áudio na Internet e fornece proteção para os produtos e arquivos que vendem através de um dos quatro formatos de áudio dedicados da Audible.com . Cada formato considera principalmente a fonte de áudio e o dispositivo de escuta usado. Os formatos 1, 2 e 3 usam níveis diferentes de compressão de voz, enquanto o formato 4 usa uma taxa de amostragem mais baixa e o mesmo método de decodificação do MP3. A voz resultante é mais clara e pode ser baixada com mais eficiência da Internet. A Audible usa sua própria ferramenta de reprodução de desktop, que é o Audible Manager. Com este reprodutor, você pode reproduzir arquivos no formato Audible armazenados em um PC ou transferidos para um reprodutor portátil.

9) AAC é, na verdade, uma abreviatura de Advanced Audio Coding. AAC é um formato de áudio desenvolvido em conjunto por Fraunhofer IIS-A, Dolby e AT&T. Faz parte da especificação MPEG-2. O algoritmo usado pelo AAC é diferente do MP3. O AAC combina outras funções para melhorar a eficiência da codificação. O algoritmo de áudio do AAC excede em muito alguns algoritmos de compressão anteriores (como MP3, etc.) em recursos de compressão. Ele também suporta até 48 trilhas de áudio, 15 trilhas de áudio de baixa frequência, mais taxas de amostragem e taxas de bits, compatibilidade com vários idiomas e maior eficiência de decodificação. Resumindo, o AAC pode fornecer melhor qualidade de som sob a premissa de que é 30% menor do que os arquivos MP3.

10) Ogg Vorbis é um novo formato de compressão de áudio, semelhante aos formatos de música existentes, como MP3. Mas uma diferença é que é totalmente gratuito, aberto e sem restrições de patentes. Vorbis é o nome deste mecanismo de compressão de áudio e Ogg é o nome de um projeto que pretende conceber um sistema multimédia totalmente aberto. O VORBIS também é uma compressão com perdas, mas usa modelos acústicos mais avançados para reduzir as perdas. Portanto, OGG codificado com a mesma taxa de bits soa melhor do que MP3.

11) APE é um formato de áudio compactado sem perdas, sob a premissa de que a qualidade do som não é reduzida, o tamanho é compactado para a metade do arquivo WAV tradicional sem perdas.

12) FLAC é a abreviatura de Free Lossless Audio Codec, um conjunto de códigos de compressão sem perda de áudio bem conhecidos, que é caracterizado pela compressão sem perdas.

3. o princípio básico da codificação de áudio

A codificação de voz é dedicada a reduzir a largura de banda do canal necessária para a transmissão, enquanto mantém a alta qualidade da voz de entrada.

O objetivo da codificação de voz é projetar um codificador de baixa complexidade para obter uma transmissão de dados de alta qualidade com a menor taxa de bits possível.

1) Curva de limiar de mudo: O limiar no qual o ouvido humano pode ouvir som em várias frequências apenas em um ambiente silencioso.

2) Banda de frequência crítica

Como o ouvido humano tem diferentes resoluções para diferentes frequências, o MPEG1 / Audio divide a faixa de frequência perceptível em 22 khz em 23 ~ 26 bandas de frequência crítica de acordo com diferentes camadas de codificação e diferentes frequências de amostragem. A figura a seguir lista a frequência central e a largura de banda da banda de frequência crítica ideal. Como pode ser visto na figura, o ouvido humano tem uma melhor resolução de baixa frequência

3) Efeito de mascaramento no domínio da frequência: Um sinal com uma amplitude maior irá mascarar um sinal com uma frequência semelhante e uma amplitude menor, conforme mostrado na figura abaixo:

4) Efeito de mascaramento no domínio do tempo: Em um curto período de tempo, se dois sons aparecerem, o som com um SPL (nível de pressão sonora) maior irá mascarar o som com um SPL menor. O efeito de mascaramento no domínio do tempo é dividido em mascaramento direto (pré-mascaramento) e mascaramento reverso (pós-mascaramento). O tempo de pós-mascaramento será maior, cerca de 10 vezes o tempo de pré-mascaramento.

O efeito de mascaramento no domínio do tempo ajuda a eliminar o pré-eco.

4. os meios básicos de codificação

1) Quantizador e quantizador

Quantização e quantizador: A quantização converte um sinal contínuo em tempo discreto em um sinal discreto em tempo discreto. Os quantizadores comuns são: quantizador uniforme, quantizador logarítmico e quantizador não uniforme. O objetivo perseguido pelo processo de quantização é minimizar o erro de quantização e minimizar a complexidade do quantizador (os dois são em si uma contradição).

(A) Quantizador uniforme: o mais simples, o pior desempenho, adequado apenas para voz telefônica.

(B) Quantizador logarítmico: é mais complicado do que o quantizador uniforme e fácil de implementar, e seu desempenho é melhor do que o quantizador uniforme.

(C) Quantizador não uniforme: De acordo com a distribuição do sinal, projete o quantizador. A quantificação detalhada é realizada onde o sinal é denso, e a quantificação aproximada é realizada onde o sinal é esparso.

2) Codificador de voz

Existem três tipos de codificadores de voz: (a) Codificador de forma de onda; (b) Vocoder; (c) Codificador híbrido.

O codificador de forma de onda visa construir uma forma de onda analógica incluindo a folha de ruído de fundo. Atuando em todos os sinais de entrada, ele produzirá amostras de alta qualidade e consumirá uma alta taxa de bits. O vocoder não irá regenerar a forma de onda original. Este conjunto de codificadores irá extrair um conjunto de parâmetros, que são enviados para a extremidade receptora para derivar o modelo de geração de voz. A qualidade de voz do vocoder não é boa o suficiente. Codificador híbrido, que incorpora as vantagens do codificador de forma de onda e sonda.

2.1 Codificador de forma de onda

O design do codificador de forma de onda geralmente é independente do sinal. Portanto, é adequado para a codificação de vários sinais e não se limita à fala.

1) Codificação no domínio do tempo

a) PCM: modulação por código de pulso, é o método de codificação mais simples. É apenas a discretização e quantização do sinal, e a logaritmização é freqüentemente usada.

b) DPCM: modulação de código de pulso diferencial, que codifica apenas a diferença entre as amostras. As uma ou mais amostras anteriores são usadas para prever o valor da amostra atual. Quanto mais amostras forem usadas para fazer previsões, mais preciso será o valor previsto. A diferença entre o valor verdadeiro e o valor previsto é chamada de residual, que é o objeto da codificação.

c) ADPCM: modulação de código de pulso diferencial adaptativo, código de pulso diferencial adaptativo. Ou seja, com base no DPCM, o quantizador e o preditor são ajustados apropriadamente de acordo com as mudanças do sinal, de modo que o valor previsto fique mais próximo do sinal real, o residual seja menor e a eficiência de compressão seja maior.

(2) Codificação de domínio de frequência

A codificação no domínio da frequência consiste em decompor um sinal em uma série de elementos de frequência diferentes e realizar uma codificação independente.

a) Codificação em sub-banda: A codificação em sub-banda é a técnica mais simples de codificação no domínio da frequência. É uma tecnologia que transforma o sinal original do domínio do tempo para o domínio da frequência, então o divide em várias sub-bandas e executa a codificação digital nelas, respectivamente. Ele usa um grupo de filtro passa-banda (BPF) para dividir o sinal original em várias (por exemplo, m) sub-bandas (chamadas de sub-bandas). Passe cada sub-banda pelas características de modulação equivalentes à modulação de amplitude de banda lateral única, mova cada sub-banda para a frequência próxima de zero, respectivamente, passe pelo BPF (um total de m) e, em seguida, transfira cada sub-banda a uma taxa prescrita ( Taxa de Nyquist) O sinal de saída da sub-banda é amostrado e o valor amostrado geralmente é codificado digitalmente e m encoders digitais são configurados. Envie cada sinal digital codificado para o multiplexador e, finalmente, envie o fluxo de dados codificados em sub-banda.

Para diferentes sub-bandas, diferentes métodos de quantização podem ser usados e diferentes números de bits podem ser alocados para as sub-bandas de acordo com o modelo de percepção do ouvido humano.

b) codificação de transformação: codificação DCT.

5. Vocodificador

Vocoder de canal: utiliza a insensibilidade do ouvido humano à fase.

vocoder homomórfico: pode processar sinais sintéticos com eficácia.

Formante vocoder: a maior parte das informações do sinal de voz está localizada na posição e largura de banda do formante.

vocoder preditivo linear: O vocoder mais comumente usado.

6. Codificador híbrido

O codificador de forma de onda tenta preservar a forma de onda do sinal codificado e pode fornecer voz de alta qualidade a uma taxa de bits média (32 kbps), mas não pode ser aplicado a ocasiões de taxa de bits baixa. O codificador de voz tenta gerar um sinal que seja auditivamente semelhante ao sinal codificado e pode fornecer fala inteligível a uma taxa de bits baixa, mas a fala resultante não soa natural. O codificador híbrido combina as vantagens de ambos.

RELP: Com base na previsão linear, o residual é codificado. O mecanismo é: transmitir apenas uma pequena parte dos resíduos e reconstruir todos os resíduos na extremidade receptora (copiar os resíduos da banda base).

MPC: codificação multipulso, que remove a correlação dos resíduos, e é usada para compensar a classificação simples do vocoder das vozes em sonoras e não sonoras sem os defeitos de estados intermediários.

CELP: predição linear excitada do livro de código, que usa a predição do trato vocal e a cascata do preditor de tom para melhor aproximar o sinal original.

MBE: excitação multibanda, o objetivo é evitar um grande número de cálculos CELP, para obter uma qualidade superior ao vocoder.