Formato de arquivo de áudio

Um formato de arquivo de áudio é um formato de dados usado em computadores para armazenar sons , incluindo música e voz humana , em formato digital . A indústria produziu muitos formatos para produção ou transmissão.

O elemento de programa que converte o arquivo de sinal e o sinal é chamado de codec , abreviação de "codec" ( codificar-decodificar ).

As telecomunicações e, em particular, a telefonia móvel utilizam codecs adaptados para a transmissão da voz.

A codificação de sons

Os formatos de codificação de áudio derivam de estudos psicoacústicos . Eles limitam a quantidade de informação no sinal de forma a reduzir a taxa de bits (e portanto o tamanho do arquivo), levando em consideração a percepção humana dos sons e a qualidade de reprodução que eles toleram.

Todas as conversões de som em sinal de áudio analógico ou digital, são limitadas ao espectro de frequências correspondentes à audição humana , ou um pouco mais.
A maioria se beneficia da sensibilidade reduzida do ouvido em frequências mais baixas e mais altas, movendo essas frequências para o ruído de fundo e o ruído de quantização .
Os codecs também podem detectar redundâncias no sinal de áudio, de forma que apenas a parte imprevisível do sinal seja transmitida. Tudo o que faz a diferença entre sinal e ruído, sejam frequências musicais ou ritmos, é baseado na repetição de um fenômeno indefinidamente.
Para obter uma taxa de transferência mais baixa, os codecs podem aproveitar os efeitos de mascaramento, frequência e temporais da audição humana, bem como a baixa discriminação das alturas espectrais nas duas oitavas superiores da audição.
Os sistemas mais sofisticados são baseados em um verdadeiro modelo de audição humana e visam transmitir apenas as informações necessárias para obter a mesma percepção auditiva do sinal bruto digitalizado .

As codificações estão em vários pontos de compromisso entre custo de produção, taxa de bits digital, restrições de transmissão e qualidade perceptiva.

Com o objetivo de reduzir a quantidade de informação, pode ser necessário definir uma qualidade de reprodução admissível, distinta da melhor qualidade possível. Quando o uso do codec visa a transmissão de fala, os parâmetros são ajustados para este uso menos exigente que a música.
A maioria das codificações dá, para um mesmo decodificador, melhores resultados com processos de cálculo longos, ou que levam em consideração, em várias passagens, todo o segmento de áudio; a qualidade de escuta pode ser inferior para aplicativos em tempo real, que impõem um baixo atraso.

Em princípio, uma codificação perceptual avançada dando, para uma mesma gravação, um tamanho menor do que uma codificação para CD poderia ter uma qualidade subjetiva superior, desde que seu original comum fosse uma fonte gravada com uma frequência de amostragem e uma resolução superior. Na prática, por um lado, muitas vezes são escolhidas as compressões que favorecem mais a redução do tamanho do arquivo, por outro lado, a fonte antes da compactação costuma ser um arquivo de CD.

Atualmente, de longe o codec mais usado é mp3 , seguido por wma e AAC .

Você tem que distinguir entre formato de arquivo e codec . Muitos arquivos usam o formato RIFF , que pode conter uma variedade de elementos ( " pedaços " ). Um cabeçalho que ocupa os primeiros quatro bytes indica o tipo RIFF, seguido das indicações necessárias da localização dos outros elementos, construídos recursivamente da mesma forma. Esses elementos podem conter todos os tipos de dados. Aqueles elementos que codificam o som indicam o codec em seu cabeçalho. A máquina ignora itens que não pode decodificar. Um arquivo identificado como wavpode, portanto, conter elementos cujo codec é mp3.

Alguns sistemas e usuários humanos podem usar a extensão do nome do arquivo de dados , que convencionalmente se refere ao formato do arquivo. Mas essa indicação, na maioria das vezes, indica uma lista de codificações possíveis, e não a codificação em si. Diz respeito mais ao sistema de classificação dos arquivos no disco rígido, do que ao formato em si. A alteração desse nome não afeta a maneira como a máquina decodifica o arquivo, apenas pode dificultar a localização do programa mais adequado para isso.

Características das codificações de áudio

Número de canais de som codificados: mono, estéreo, multicanal.
Taxa de amostragem : número de amostras por segundo usado para descrever numericamente o sinal que representa a onda sonora de cada canal. A largura de banda é altamente dependente dessa característica.
Resolução de cada amostra em bits. A relação sinal-ruído depende dessa característica se o ruído de quantização for maior do que o ruído inerente do sinal. O pontilhamento aumenta ligeiramente o ruído de fundo, para torná-lo independente do sinal, e movendo-o para uma região do espectro.
Taxa de bits digital: tamanho do arquivo em relação à duração do som.
compressão de dados ou redução da taxa de bits em comparação com um arquivo bruto.
- com reconstrução da forma de onda inicial (codificação de entropia), ou
- com reconstituição (mais ou menos precisa) da impressão sonora (codificação psicoacústica).
Potência de computação necessária para codificação.
Potência de computação necessária para decodificação.
Estrutura permitindo ou não
- para começar a reproduzir o arquivo quando não sabemos o final ainda,
- reproduzir um arquivo do meio sem saber o início,
- para pular para um local específico,
- para registrar dados auxiliares e auxiliares ( metadados ),
- gerenciar direitos de reprodução digital ( DRM ),
- adapte automaticamente o nível à sala de audição.

Dependendo do uso para o qual o arquivo se destina, certas características são mais importantes do que outras.

Um formato destinado a leitores de música:

Dois canais são suficientes.
O fluxo deve ser reduzido para registrar tempos suficientemente longos nas memórias dos jogadores portáteis.
O poder de computação necessário para a decodificação deve ser baixo para permitir uma boa autonomia dos leitores.
A largura de banda deve ser boa para ouvir música.
A relação sinal-ruído não precisa ser muito boa, pois o consumo não é feito em salas silenciosas destinadas à audição.
A gestão dos direitos de reprodução é do interesse dos produtores.
A possibilidade de adaptação automática à sala de audição (aumentando o nível das passagens fracas quando a atmosfera é ruidosa graças aos dados auxiliares) é uma vantagem.
A reconstrução da forma de onda é desnecessária.
O poder de computação necessário para codificação pode ser significativo.

Um formato destinado à produção de cinema:

Leva de dois a oito canais.
A largura de banda deve ser excelente, só pode se deteriorar mais tarde.
A relação de fase entre os canais influencia a estereofonia.
A relação sinal / ruído deve ser excelente e a reconstrução da forma de onda é preferível
1. os sinais são chamados para serem retocados, misturados, processados,
2. o consumo final ocorre em locais silenciosos destinados à escuta.

Por se tratar de uma atividade industrial:

A taxa de bits e o poder de computação necessários para codificação e decodificação são quase irrelevantes.
A gestão dos direitos de reprodução e a adaptação automática à sala de audição não interessam nesta fase.

Em um determinado formato, os arquivos podem ser divididos em várias escalas de quantização (8, 16 ou 24 bits) com diferentes frequências de amostragem (por exemplo, 22,05 kHz , 44,1 kHz , 48 kHz , 88,2 kHz , 96 kHz , 176,4 kHz , 192 kHz ,) aplicado a vários canais ( monofônico , estereofônico , 5.1 surround , etc. ). Os formatos que usam redução da taxa de bits por codificação psicoacústica oferecem várias qualidades de reprodução, correspondendo a uma redução maior ou menor da taxa de bits.

Os diferentes canais de som podem ser reais e multiplexados , ou misturados discretamente com os sinais principais, que todos os descodificadores reproduzem, enquanto apenas aqueles que utilizam algoritmos específicos ( surround ) descodificam e reproduzem os restantes. Quando há uma redução no throughput, pode ou não usar redundância entre os canais.

Os codecs podem usar duas estratégias, com suas respectivas vantagens e desvantagens.

“ Taxa de bits constante ” ou CBR: A “taxa de bits fixa” dá a cada quadro do arquivo, correspondendo a uma duração elementar, o mesmo tamanho.
" Taxa de bits variável " ou VBR: A "taxa de bits variável" adapta a compressão a cada passagem do arquivo, para obter uma qualidade homogênea. Em geral, uma melhor qualidade subjetiva geral pode ser alcançada para o mesmo tamanho de arquivo, uma vez que o arquivo pode ter mais informações para passagens difíceis. Por outro lado, essa estratégia é difícil de implementar para codificação ao vivo; normalmente, pelo menos duas passagens são necessárias para a codificação. A primeira identifica as passagens que contêm mais informações, a segunda distribui a compressão de acordo com os resultados da primeira e o objetivo de tamanho geral imposto pelo usuário. Também é mais difícil chegar a um ponto identificado apenas pelo tempo.

Usando formatos

Um formato é denominado “produção” quando é utilizado para fazer um protótipo, “broadcast” quando da gravação, que sofrerá mais alterações, será copiado para um grande número de cópias ou transmitido em canal de comunicação de taxa de dados limitada.

Em um processo de produção, o tamanho do arquivo é menos importante. Escolhemos formatos que guardam o máximo possível a informação gravada nos elementos sonoros e que permitem um processamento de melhor qualidade, mesmo ao custo de um consumo significativo de recursos informáticos. Na maioria das vezes, a compactação de dados é evitada e até mesmo o tamanho do arquivo é aumentado, por exemplo, adicionando metadados encapsulados e convertendo o formato de dados digitais de inteiros em ponto flutuante . Na maioria das vezes, o sinal pode ser restaurado após a decodificação de forma idêntica ao que era antes da codificação.

Em arquivos de streaming de áudio, o tamanho dos arquivos é muito mais importante. A codificação visa restaurar a impressão sonora, sem garantir que o sinal será reproduzido de forma idêntica. A redução na taxa de dados torna incerta a qualidade do processamento posterior.

A questão da qualidade

Ao considerar a qualidade da transmissão do ponto de vista da percepção humana, sua avaliação só pode ser feita com métodos psicoacústicos, seja pelo estudo da apreciação de amostras de ouvintes, seja com modelos de avaliação desenvolvidos a partir dessas pesquisas. Este controle de qualidade dos métodos de codificação tem sido um campo de pesquisa desde 1990. A União Internacional de Telecomunicações definiu "métodos de avaliação subjetiva da qualidade da transmissão" , que resultam em uma pontuação média de opinião. (MOS, " Pontuação Média de Opinião " ) que pode variar entre 0 (muito ruim) e 5 (excelente, comparável à versão original).

Para um formato de arquivo sem redução da taxa de bits, a qualidade de reprodução pode muito bem ser avaliada pela taxa de bits digital, que é o produto da taxa de amostragem e o número de bits. O CD, em 44,1 kHz e 16 bits, pode servir como um ponto de comparação nesta avaliação . Quando você reduz a taxa de bits, a qualidade se deteriora rapidamente; quando é aumentado, melhora cada vez mais marginalmente à medida que o fluxo aumenta. Para gravação ao vivo, onde, ao contrário do CD finalizado, você não pode controlar e antecipar o nível, uma resolução mais alta é apreciável, especialmente porque você geralmente não deseja comprimir a dinâmica do som neste estágio.

Com o auxílio de novas mídias de computador, o som pode ser digitalizado em 24 bits. Isso atinge uma relação sinal-ruído maior do que a do equipamento de gravação de som. Para a mistura e o processamento do sinal, é preferível utilizar uma resolução superior, para evitar que a acumulação de arredondamentos nos numerosos cálculos que os filtros e as misturas requerem não deteriorem o sinal. Na codificação de ponto flutuante, 32 bits ( precisão única IEEE 754 ) são suficientes para evitar esse acúmulo. Algumas máquinas funcionam em 64 bits ( precisão dupla IEEE 754 ), e assim os erros são empurrados para o infinito, ao custo de uma grande margem de cálculos desnecessários.

Da mesma forma, aumentar a frequência de amostragem ao obter um som permite que você use filtros anti-aliasing menos agressivos. Quando os filtros têm que passar de "passagem" a "corte" em uma oitava , como no CD, eles transmitem um pouco irregularmente a parte do sinal que deve passar, não podendo cortar totalmente a parte que deve desaparecer. Os melhores filtros requerem muita computação e impõem um atraso significativo no sinal. É possível adiar esta operação para a fase final de produção (masterização musical). Os dispositivos modernos oferecem frequências de amostragem duplas e quádruplas de CD: 88,2 kHz e 176,4 kHz e as da televisão: (48 kHz ), ou 96 kHz e 192 kHz .

O uso de formatos de qualidade superior é essencial durante as fases de gravação e produção. A precisão adicional assim obtida permite cálculos mais precisos durante o processamento digital em software de áudio. Isso permite uma melhoria sutil na qualidade ao aplicar efeitos como reverberação. E o custo é distribuído entre as dezenas de milhares de consumidores do produto acabado.

O formato do CD obedece a outros critérios. Cada ouvinte deve adquirir o material para ouvir. Este não deve ser muito caro. A gravação não se destina a ser modificada: o nível pode explorar a totalidade da dinâmica da mídia. O CD, com uma faixa dinâmica efetiva de cerca de 92 dB, é adequado para uma dinâmica sonora de 70 dB , correspondendo a uma mixagem de música clássica. Para outros gêneros musicais, é mais do que suficiente, a julgar pela evolução das mixagens (veja Volume War ). Também corresponde ao estado da arte na década de 1980, progressivamente aprimorado pelo progresso nos filtros digitais e no dither .

Existem ofertas prometedoras de um som de qualidade superior ao do CD: para os discos físicos, o DVD-Áudio ou o SuperAudio CD da Sony , que tem a vantagem de existir na versão híbrida: é legível ao mesmo tempo de acordo com o padrão do CD Áudio clássico, em todos os reprodutores e em SACD em um reprodutor dedicado. Por um lado, essas reivindicações foram contestadas, ao mesmo tempo que o som do CD foi aprimorado, sem alterar o formato, e por outro lado, o público audiófilo visado por esses argumentos parece ter sido muito pequeno: para ouvir uma possível diferença, você precisa de uma instalação bastante grande. Mas a existência dessa diferença não é universalmente reconhecida; por exemplo, as salas de cinema oferecem som multicanal de alta qualidade com alta dinâmica, usando codificação apenas um pouco mais alta do que CD, 48 kHz e 16 bits.

A maioria do público não se contenta apenas com a qualidade do CD, mas também com formatos mais portáteis, às vezes em detrimento da qualidade de reprodução. Para aplicações audiovisuais, ele não tem escolha.

Formatos de arquivo de áudio

RIFF

Como muitos formatos de áudio são baseados no padrão Resource Interchange File Format (RIFF ), um formato de intercâmbio de arquivos de recursos, ele deve ser descrito primeiro, embora seja um padrão de propósito geral.

O princípio é definir containers e extremidades ( chunks (en) ), ambos identificados por seus primeiros quatro bytes, que são, geralmente, caracteres ASCII , para que possam ser lidos por técnicos que abram o arquivo em um editor hexadecimal, seguido de quatro bytes que indicam onde está o final do contêiner (este número de bytes limita o tamanho de um arquivo RIFF a 4 GiB ).

Um arquivo RIFF começa com "RIFF" e o comprimento total; então o identificador do primeiro subcontêiner é encontrado, por exemplo “INFO” seguido do comprimento desta extremidade, ao final do qual começa o próximo, por exemplo “WAVE” seguido do comprimento desta extremidade.

WAV

O formato WAV (ou WAVE), ( " Waveform Audio File Format " ) é um container baseado no formato de arquivo RIFF , no qual seu identificador é "WAVE". Pode conter codificações de áudio com ou sem redução de taxa de bits, mono, estéreo ou multicanal, foi desenvolvido pela Microsoft e IBM . As informações necessárias para a decodificação podem ser encontradas no início do arquivo. O WAV é usado para armazenar metadados no arquivo.

Na maioria das vezes, ele contém áudio sem redução de dados, com taxas de amostragem e resoluções variadas.

O sufixo dos arquivos criados é .wav.

BWF

A European Broadcasting Union definiu uma extensão de broadcast do formato WAVE para uso profissional, o " Broadcast Wave Format " (BWF abreviado). Este é um bloco ( pedaço ) de metadados adicionado ao arquivo .wav. No formato RIFF, os programas que encontram um trecho que não podem interpretar simplesmente o ignoram. Os arquivos BWF são, portanto, compatíveis com reprodutores WAVE clássicos. Seu sufixo permanece .wav. É o formato de gravação padrão de muitas estações de trabalho profissionais de áudio para filmes e televisão.

O bloco de extensão de transmissão é identificado no arquivo WAV pelo código bext( " extensão de transmissão " ). Inclui uma referência de carimbo de data / hora padronizada que permite a sincronização com um pixel separado, bem como identificação de conteúdo e informações de medição para volume, dinâmica e nível de pico.

Gravadores multitrack da Sound Devices, Zaxcom, HHB USA, Fostex, Nagra e Aaton usam BWF.

Ogg

O formato Ogg é um formato livre , fruto da fundação Xiph.org . Ogg é um contêiner que pode conter áudio sem perdas ( FLAC ), codificado com o codec psicoacústico Vorbis , áudio falado ( Speex ) e vídeo ( Theora ). Um “arquivo Ogg” pode, portanto, conter uma ou outra (ou uma combinação) de faixas.

AIFF

O AIFF é o equivalente ao formato WAV em PCs da Apple . São aceitas resoluções de 8, 16, 20, 24 e 32 bits (ponto flutuante).

O sufixo dos arquivos criados é .aif.

Uma variante do AIFF-C permite comprimir o tamanho em até 6x.

CAF

O CAF ( formato de áudio Core ) foi desenvolvido pela Apple para superar as limitações de peças de áudio mais antigas como AIFF ou WAV.

É compatível com o sistema Mac OS X da Apple desde a versão 10.3 e pode ser lido pelo Quicktime 7.

CRU

RAW ( Real Audio Wrapper ) é um formato de áudio usado para representar dados de som de modulação de código de pulso sem cabeçalho ou metadados. O arquivo RAW fica inutilizável sem as informações sobre a frequência de amostragem, o número de bits da quantização e sua lei linear ou logarítmica, bem como a codificação dos valores big-endian ou little-endian , bem como o número de canais, que deve ser transmitido para outro lugar.

Formato de áudio não compactado

O PCM nada mais é do que a representação do sinal de áudio amostrado , quantizado e codificado .

A codificação é reduzida à escolha da representação digital , que pode ser, para o mesmo valor de nível de quantização, um inteiro positivo (sem sinal), um inteiro com sinal, um inteiro com sinal além de 2 n , ou um ponto flutuante . Os canais são multiplexados amostra por amostra. Cada amostra é independente de codificação e decodificação; nunca é necessário saber mais de uma amostra para decodificar e, portanto, um fluxo ou arquivo PCM pode ser cortado ou substituído a qualquer momento.

O software de criação de música pode facilmente produzir este formato, como gravadores digitais . Exceto no caso de conversão de taxa de amostragem, necessário, por exemplo, usar uma fonte de CD amostrada em 44,1 kHz em uma montagem audiovisual amostrada em 48 kHz , ou ao alterar a resolução, exigindo redithering, as etapas de codificação e decodificação de operações são limitadas ao analógico - conversão digital e conversão de digital para analógico ou mudança de formato digital. Os semicondutores e os programas que executam essas operações são comumente chamados de codecs .

O áudio PCM é normalmente armazenado em um formato de contêiner WAVE no Windows ou AIFF no Mac OS , incluindo um bloco de informações que contém as configurações de representação digital necessárias para a decodificação de dados.

Formatos de compressão de áudio reversíveis

A compressão reversível de áudio é baseada, como em qualquer outro arquivo de computador, na identificação de redundâncias em arquivos ou fluxos de áudio. Com referência à teoria da informação , ela é descrita como a codificação da entropia . Os formatos de música usam métodos de compactação complexos, como a codificação Huffman ou o processo de previsão de reconhecimento parcial . Quanto mais complexo for o método, mais tempo de recursos o codec precisará. Alguns métodos de compactação executam duas passagens, uma de reconhecimento de arquivo e a segunda de codificação; portanto, envolvem um atraso bastante grande para os fluxos.

A compressão sem perdas ( sem perdas ) significa usar um algoritmo de forma que ainda seja possível encontrar os dados originais.

Normalmente, a compactação reversível permite que os tamanhos dos arquivos sejam divididos por dois ou três. É relativamente pouco utilizado, pois esse ganho é pequeno se comparado aos permitidos pela compressão irreversível, que no entanto utiliza os mesmos métodos, após ter eliminado as informações julgadas irrelevantes.

FLAC

O formato FLAC ( Free Lossless Audio Codec ) é uma forma livre de compressão de áudio sem perdas.

Mantido pela fundação Xiph.org , este formato é muito popular para arquivamento, dada sua alta taxa de compressão sem alterar os dados.

NO C

O ALAC ( Apple Lossless Audio Codec ) é um formato de codificação sem perdas (sem perdas) criado em 2004 pela Apple.

Encurtar

Shorten também afirma que o SHN é um formato de áudio que aplica um método padrão de compactação de dados .

Formatos de compressão de áudio irreversíveis

A compressão de áudio com perdas (com perdas) é baseada em algoritmos especializados para determinar quais transformações simplificam a representação do som e, ao mesmo tempo, reproduzem da melhor forma a impressão sonora. Ele diminui o tamanho do arquivo, eliminando nuances que não são percebidas ou menos essenciais para o conteúdo. A eliminação é final, criar um arquivo em um formato de alta qualidade a partir de um arquivo compactado dessa forma só pode servir estritamente para reduzir a carga computacional do decodificador na leitura.

O formato mais conhecido é MPEG-1/2 Audio Layer 3 , que tem o sufixo .mp3. Este formato oferece uma qualidade de som muito boa para uma taxa de bits de 128 kbit / s . É este formato que foi massivamente utilizado para transferir música pela Internet a partir do final da década de 1990. Rapidamente, surgiram leitores portáteis com memória regravável e com capacidade de leitura direta neste formato.

Na década de 2000, novos formatos foram propostos. Devido aos avanços nos algoritmos e na capacidade de computação do hardware, eles superam o MP3 na mesma qualidade de taxa de bits e podem atingir uma qualidade superior. Além disso, alguns são menos restritivos do que o MP3 em termos de direitos de uso (Ogg é um formato livre). Mas o MP3 continua a ser o mais utilizado, porque a chegada contínua de novos formatos, proporcionando uma vantagem relativamente pequena em relação aos anteriores, não permite que um padrão melhor do que o MP3 seja configurado e legível por todos os reprodutores.

O formato MP3 informa ao decodificador como reconstruir um sinal de áudio a partir dos dados compactados. Não estabelece nenhuma regra para calcular a melhor maneira de representar o som original. Os codecs de MP3, portanto, têm conseguido avanços significativos desde o início do uso desse formato.

A codificação MP3 normalmente permite um ganho de um fator de 10 no tamanho do arquivo. Isso tornou possível não apenas o armazenamento de um tremendo tempo de escuta na mídia do computador, mas também sua troca pela Internet, muitas vezes ilegalmente.

AC-3

O formato de compressão AC-3 (ou Dolby Digital ) é um padrão introduzido pela empresa americana Dolby Laboratories no início dos anos 90.

Ele pode codificar áudio multicanal 5.1 ( 6 canais ), com taxas de bits variando de 32 a 640 kbit / s . Este formato é usado em projeções de cinema de 35 mm , em transmissões de televisão HD, em mídia DVD e Blu-ray , em consoles de jogos.

MP3

MP3 é a abreviatura de MPEG-1/2 Audio Layer 3 . A seção de áudio do Moving Picture Experts Group ( MPEG ) em 1990 reuniu as técnicas de compressão MUSICAM , desenvolvidas para transmissão digital, e ASPEC , destinadas a transmissões ponto a ponto, em um único padrão. O padrão possui três níveis ( " camada " ) de complexidade e desempenho crescentes, permitindo uma ampla variedade de aplicações. A camada 3 é adequada para aplicativos que requerem velocidades reduzidas, resultando na adoção desse formato no mundo da Internet muito rapidamente . ISO o tornará um padrão internacional nos anos 92-93.

A música é geralmente codificada a uma taxa de bits de 192 kbit / s , correspondendo a uma taxa de compressão ( proporção ) de 1 a 7,35, ou seja, um arquivo codificado em mp3 ocupa 7, 35 vezes menos espaço do que um arquivo não compactado gravado a 44,1 kHz . A qualidade máxima é alcançada a 320 kbit / s (taxa de redução da taxa de bits 1: 4,4). A fala geralmente é codificada em mono a uma taxa de 48 kbit / s (1:15). A taxa de dados mínima é de 8 kbit / s (1:88).

O padrão .mp3 especifica apenas operações de decodificação, para que os arquivos possam ser reproduzidos em todos os dispositivos. A qualidade do resultado, na mesma taxa de compressão, depende, em certa medida, do codificador. A precisão ligada ao poder de computação, bem como a estratégia de codificação, que pode ser em tempo real ou em várias passagens, estão envolvidas. Os codificadores podem estar sujeitos a royalties . O codificador MP3 LAME (V5) fornece 130 kbit / s com uma qualidade comparável ao AAC (Advanced Audio Coding) a 48 kbit / s .

O sufixo dos arquivos criados é .mp3.

Tipo de compressão: taxa de bits constante (CBR, Taxa de bits constante ) ou taxa de bits variável (VBR, Taxa de bits variável ).

mp3PRO

O formato mp3PRO , resultado de uma colaboração entre a Thomson Multimedia e o Fraunhofer Institute , combina o algoritmo MP3 e um sistema para melhorar a qualidade dos arquivos compactados denominado SBR para Spectral Bandwidth Replication .

Este formato foi lançado no final de 2001; um arquivo MP3pro de 64 kbit / s tem uma qualidade equivalente à de um MP3 de 128 kbit / s .

O sufixo dos arquivos criados é .mp3.

Ogg Vorbis

Vorbis difere de MP3, WMA e outros AAC por seu algoritmo. Ele segmenta as fontes de áudio em pacotes sucessivos, o algoritmo de compressão atuando primeiro em cada pacote independentemente dos outros. Isso permite que ele tenha muito poucos pontos fracos em certas frequências e mantenha a mesma qualidade, independentemente do tipo de música.

O sufixo dos arquivos criados é .ogg ou às vezes .oga.

Por abuso de linguagem, chamamos 'arquivo Ogg' de arquivos de música compactados pelo algoritmo Vorbis. Devemos falar do arquivo Ogg Vorbis quando mencionamos um arquivo .ogg que contém apenas uma trilha sonora no formato Vorbis.

VQF ou TwinVQ

O formato TwinVQ ( Transform-domain Weighted Interleave Vector Quantization ) foi desenvolvido pela NTT Cyber Space Laboratories e suportado pela Yamaha. No mesmo espírito do MP3 , comprime ainda mais e com melhor qualidade. Lamentamos o tempo de codificação um pouco longo, quase 10 vezes mais lento que o MP3 . Além disso, chegou muito mais tarde, e distribuído sob uma licença muito restritiva, teve poucos seguidores e está mais ou menos abandonado.

O sufixo dos arquivos criados é .vqf, .vql ou .vqe.

WMA

O formato WMA ( Windows Media Audio ), criado pela Microsoft a partir das recomendações MPEG-4 em 1999, é usado pelo software Windows Media Player . Este formato está vinculado a uma gestão sofisticada de direitos autorais ( Digital Rights Management , em inglês Digital Right Management ou DRM) que permite definir, por exemplo, uma vida útil limitada para os arquivos ou proibir as possibilidades de gravação.

Existem várias versões do codec (wma7.1, wma9, wma pro).

O sufixo dos arquivos criados é .wma.

NO

O formato AU é bastante difundido graças ao Unix e Linux . A frequência de amostragem está entre 1 kHz e 200 kHz . Mas os aplicativos de renderização de áudio leem principalmente apenas três taxas de amostragem: 8012.821 (entrada de codec), 22050 e 44.100 hertz.

O sufixo dos arquivos criados é .au.

São aceitas as resoluções 8, 16, 20, 24 e 32 bits (ponto flutuante).

ASF

ASF Advanced Streaming Format é um formato de contêiner da Microsoft para streaming de áudio e vídeo.

AA

AA (en) Audible , é um formato usado pela Apple para livros de áudio .

AAC ou MPEG-2 AAC

O AAC ( Advanced Audio Coding ) é uma extensão do MPEG-2 e foi atualizado no MPEG-4 , MPEG-4 versão 2 e MPEG-4 versão 3. Foi reconhecido no final de abril de 1997.

O sufixo dos arquivos criados é .aac, .mp4, .m4a.

Apple e AAC

A Apple escolheu o AAC como seu codec preferido, ele pode ser encontrado em seu iPod e em seu software iTunes . Para vendas de música online iTunes Music Store , o padrão AAC não oferece um sistema de gerenciamento de direitos digitais ( DRMs ), a Apple desenvolveu seu próprio sistema, chamado FairPlay . Pode ser reproduzido em Mac OS e Windows, apenas com o software iTunes. Em janeiro de 2009, a Apple anunciou a remoção do FairPlay DRM de todas as músicas em seu site iTunes Store 2.

O fato de AAC ser o único formato de compactação melhor do que MP3 compatível com iPods contribuiu muito para sua popularidade. Não o suficiente, entretanto, para se estabelecer como o sucessor do MP3, outros formatos mencionados sendo amplamente iguais em desempenho.

ATRAC

O ATRAC ( Adaptive Transform Acoustic Coding ) é uma técnica de compressão de áudio psicoacústica (existe um opcional puramente estatístico) desenvolvida pela Sony em 1992 para seu MiniDisc . Este formato sofreu várias alterações: ATRAC3, ATRAC3plus (coloquialmente escrito ATRAC3 +) e ATRAC Advanced Lossless se seguiram em 1999, 2002 e 2006, respectivamente.

Formatos Multitrack

Os formatos multitrack são uma inovação recente. Consistem em encapsular em um arquivo diferentes trilhas sonoras, que podem então ser combinadas pelo usuário nas proporções que lhe convêm. A ideia é oferecer, para uma peça musical, a faixa correspondente a cada instrumento (e a voz) separadamente. O usuário pode então criar sua própria versão.

O U-MYX foi usado para incluir partes bônus nos álbuns.

Esses formatos têm a desvantagem de não poderem ser ouvidos sem um computador. No entanto, o surgimento de smartphones atuando como players portáteis e capazes de rodar aplicativos independentes permite que esses formatos se tornem transportáveis, inclusive para reprodução com mixagem.

U-MYX

O U-MYX é um formato multitrack legível com um aplicativo dedicado, publicado pela mesma empresa que desenvolveu o formato. Este formato foi usado para fornecer músicas multitrack como um bônus em álbuns, o aplicativo sendo entregue junto com as músicas, tudo em uma sessão de CD visível apenas se o disco foi reproduzido em um computador.

Apesar desses exemplos de uso, o futuro do U-MYX é incerto, pois a empresa que o produz não tem certeza de seus planos futuros.

MXP4

O MXP4 é um formato multitrack no qual as trilhas são encapsuladas em Ogg. Produzido por uma empresa francesa, o formato beneficiou de forte cobertura mediática da imprensa francesa, apresentada como “sucessor do MP3”. Uma expressão que pode parecer exagerada, os formatos multitrack simplesmente desempenhando um papel diferente.

Formatos proprietários

Alguns desses formatos se tornaram obsoletos, como o SDII da Digidesign

Formatos audiovisuais

Esses formatos contêm arquivos de imagem e arquivos de áudio, bem como timecode ou pseudo-timecode (bandeira).

Por exemplo: Quicktime é multiplataforma e usa muitos padrões de mercado gratuitos, alguns outros, muito orientados, são pagos. Estrutura de dados versátil e polimórfica, alguns deles também são usados para streaming .

CD de áudio de 1993 (QuickTime 1.6);
MPEG-1 e MIDI de 1994 (QuickTime 2.0);
DV e H.261 de 1998 (QuickTime 3.0);
H.263 , Macromedia Flash e SMIL de 1999 (QuickTime 4.0);
MPEG-2 , MPEG-4 , AAC , 3GPP e 3GPP2 de 2002 (QuickTime 6.0);
H.264 e integração com OpenGL de 2005 (QuickTime 7.0).

Calculando a taxa de bits e o peso de um arquivo de áudio

Débito

taxa de bits (kbit / s) = frequência de amostragem (kHz) x quantização (bit) x número de canais Exemplo: o CD de áudio:

frequência de amostragem: 44.100 Hz
resolução: 16 bits
canais: 2 ( estéreo )

taxa de bits = 44 100 × 16 × 2 = 1 411 200 bit / s

está ao redor

1411 kbit / s ou 1378 kibibit / s .
por minuto: 84,7 Mbit ou 80,7 Mibibit
por hora: 5,1 Gbit

Peso

Tamanho de um MP3 de 192 kbit / s com duração de 3,75 minutos: [tempo (s)] x taxa de bits (kbit / s) / 8000: [3,75 × 60] × 192/8000 = 5,4 MB .

Telefonia

G.711 : padrão de compressão de áudio usado para videoconferência H.323 e H.320 e telefonia fixa.
G.722.2 : padrão de compressão de áudio de “banda larga” usado em telefonia móvel
G.723 : Anteriormente referido a um padrão de codec de áudio do tipo ADPCM… G.723.1, refere-se a outro padrão de codec de áudio do tipo vocoder.
G.726 : outro codec para o telefone
G.729 : usado para codificar a parte de áudio de uma videoconferência
Voz sobre IP de rede : às vezes chamada de telefonia IP ou telefonia via Internet , muitas vezes abreviado como "VoIP" (abreviado de Inglês Voice over IP )

Bluetooth

A transmissão Bluetooth pode usar vários codecs.

SBC : “ Low Complexity Subband Codec ” é um codec de compressão de áudio e vídeo especialmente projetado para aplicações de áudio e vídeo Bluetooth. Deve fazer parte do BlueTooth.
apx-X : Codec de sub-banda de baixa complexidade é um codec de compressão de áudio e vídeo projetado especialmente para aplicativos de áudio e vídeo Bluetooth. Foi desenvolvido pela empresa CSR, dá direito a royalties. Portanto, está disponível apenas em produtos de fabricantes que pagam esses royalties. O Apt-X está presente em uma ampla variedade de equipamentos que usam Bluetooth; equipamento de áudio, em celulares de última geração por alguns anos (HTC One M7, M9 ...), poucos laptops! A lista mais completa parece estar em http://blog.cobrason.com/2014/05/la-liste-de-tous-les-appareil-certifies-apt-x-fevrier-2013/ mas as listas oficiais estão em csr.com e aptx.com.
A2DP : Perfil de distribuição de áudio avançado é um perfil Bluetooth .

Veja também

Bibliografia

Notas e referências

(em) John Watkinson , The MPEG Handbook: MPEG-1, MPEG-2, MPEG-4 , Focal Press,2004, 2 nd ed. , 435 p. ( ISBN 978-0-240-80578-8 , leitura online ) , p. 169-170.
Ver, entre outros (en) B. Paillard , P. Mabilleau , S. Morissette e Joël Soumagne , “ PERCEVAL: Avaliação Perceptual da Qualidade dos Sinais de Áudio ” , Jornal da AES , vol. 40, n osso 1-2,1992( leia online ) ; (pt) Thilo Thiede et al. , “ PEAQ - The ITU Standard for Objective Measurement of Perceived Audio Quality ” , Journal of the AES , vol. 56, n osso 1-2,2008( leia online ) ; (pt) Inyong Choi , Barbara G. Shinn-Cunningham , Sang Bae Chon e Koeng-Mo Sung , " Medição objetiva da qualidade auditiva percebida em sistemas de codificação de compressão de áudio multicanal " , Journal of the AES , vol. 56, n osso 1-2,2008( leia online ).
P.800: Métodos de avaliação subjetiva para qualidade de transmissão , no site do ITU-T
Consulte Amostragem (sinal) # Filtros anti-aliasing .
(em) Stanley P. Lipschitz e John Vanderkooy , " Why 1-Bit Sigma-Delta Conversion is Unsuitable for High-Quality Application " , Audio Engineering Society Convention Paper ,2001( leia online [PDF] ).
Consulte União Europeia de Radiodifusão: Especificação do formato de onda de transmissão " Documento técnico EBU 3285 " ,Julho de 1997)
Sound Devices , fabricante de produtos portáteis profissionais.
Zaxcom .
HBB USA .
Fostex .
Nagra .
Aaton .
(en) ffmpeg, " Tipos de áudio brutos " : " pcm_s16le PCM significa" tamanho de onda tradicional como "(bytes brutos, basicamente). 16 significa 16 bits por amostra, "o" significa "pequeno endian", s significa "assinado", u significaria "não assinado" " . " Little endian " refere-se à organização do número de registro, aqui começando com o byte menos significativo ,.
(em) Texas Instruments ' TLV320AIC1103 PCM codec " .
" ADONIS / SIAF / CINES-GM - 0.4 " , em Archives de France (acessado em 16 de julho de 2016 ) : "FLAC é amplamente utilizado como formato de arquivamento (compressão sem perdas)" , p. 68
(em) John Watkinson , The MPEG Handbook: MPEG-1, MPEG-2, MPEG-4 , Focal Press,2004, 2 nd ed. , 435 p. ( ISBN 978-0-240-80578-8 , leitura online ) , p. 199.
ISO / IEC 11172-3: 1993 .
(in) Gabriel Bouvigne para MP3'Tech - www.mp3-tech.org, " 48 kbit / s AAC public test " ,junho de 2007.
(en) https://www.wired.com/epicenter/2009/08/mxp4s-interactive-music-format-coming-to-iphone/ .
http://www.lemondenumerique.com/?p=3869 .
http://www.timrubber.com/le-mxp4-ne-va-pas-remplacer-le-mp3/ .
De acordo com o léxico AFNIC , consulte http://www.afnic.fr/doc/lexique/d#diffusioncontinue .