MP3 (Artigo Completo)

MP3 (MPEG 1 – LAYER III)

André M. da Silveira, Kalebe A. Espindola Centro Federal de Educação Tecnológica de Santa Catarina Curso Superior de Tecnologia em Sistemas de Telecomunicações

 Use nomes mais adequadas para os arquivos das figuras, pois em breve alguem substitui o Ficheiro1 (etc) por outro arquivo 
 e os links do teu trabalho ficam errados.  Use nomes que tenham alguma relação com a figura FuncionamentoOuvido.jpg por exemplo.

RESUMO

Neste artigo tenta-se passar de uma forma sucinta as questões técnicas mais relevantes do MP3 e mostrar o percurso desde o seu aparecimento até aos dias de hoje. O MP3 começou a ser desenvolvido na Alemanha, no Centro de Investigação Fraunhofer Institut Integrierte Schaltungen, em 1987, tendo sido criado o primeiro leitor MP3 de sucesso em 1997. Em 1999 foi criado um programa de compartilhamento de arquivos denominado Napster, e neste mesmo ano surgiram os primeiros leitores MP3 portáteis. O algoritmo implementado baseia-se essencialmente nos princípios da audição humana, tentando assim, através da exploração de efeitos como psicoacustica e mascaramento, deixar passar uma determinada quantidade de ruído que não é detectada audivelmente.

1. INTRODUÇÃO

Este artigo pretende abordar vários aspectos associados à tecnologia do mp3, desde sua criação até os princípios físicos (sistema auditivo humano) em que foi baseada, passando pelos algoritmos de codificação. O MP3 é um formato de compressão de arquivos de áudio, semelhante à compressão zip, nos computadores comuns. Utiliza codificação perceptiva de áudio para comprimir som com qualidade de CD e praticamente com a mesma fidelidade. Pretende-se assim que o leitor consiga entender de onde veio e sua funcionalidade.

2. HISTÓRIA

Em 1987, o centro de Investigação Fraunhofer Institut Integrierte Schaltungen em Erlangen, na Alemanha, começou a investigar a codificação áudio de alta qualidade a baixo débito binário, num projeto denominado “EUREKA Project EU147, Digital Audio Broadcasting”, com a ajuda do professor Dieter Seitzer da Universidade de Erlangen , tendo-lhes sido concedida uma patente alemã para o MP3 em 1989 [1], [2]. Todos os algoritmos foram aprovados em 1991 e finalizados em 1992 como parte do MPEG-1, que resultou na norma internacional ISO/IEC 11172-3, publicado em 1993. Mais tarde, a 7 de Julho de 1994, a Fraunhofer Society lançou o primeiro software de codificação MP3 chamado l3enc. A extensão.mp3 foi escolhida pela equipa do instituto Fraunhofer a 14 de Julho de 1995, que anteriormente utilizava a extensão .bit. A 26 de Novembro de 1996, os Estados Unidos emitiram uma patente para o MP3 [3]. O primeiro leitor MP3 de sucesso, “AMP MP3 Playback Engine”, foi criado por Tomislav Uzelac, investigador da Advanced Multimedia Products, em 1997. Pouco tempo depois, dois estudantes universitários, Justin Frankel e Dmitry Boldyrev, pegaram no AMP Engine, adicionaram-lhe uma interface para o Sistema operacional Windows e deram-lhe o nome de “Winamp”. Em 1998, o Winamp foi disponibilizado gratuitamente, o que impulsionou o sucesso do MP3. Em 1999 apareceu o Napster, que permitiu a qualquer pessoa com ligação à Internet, encontrar e fazer o download de qualquer tipo de música que quisesse, em minutos. Ainda em 1999 apareceram os primeiros leitores MP3 portáteis, que permitiram que qualquer pessoa pudesse reproduzir este formato em casa, na praia, no carro ou em qualquer outro sítio [1], [2]. A partir desse momento, este formato tornou-se um fenômeno cultural, que se encontra presente em centenas de milhões de computadores e dispositivos eletrônicos [4]. Com todo este sucesso, o MP3 acabou por atrair a atenção das indústrias discográficas que tentaram combater a rápida proliferação deste formato [5].

3. PRINCIPIOS DE FUNCIONAMENTO

3.1. Sistema Auditivo Humano

A percepção de qualidade para o áudio depende do sistema auditivo humano (Human Auditory System - HAS). ”O” =processamento HAS inclui efeitos fisiológicos e psicológicos. O ouvido consiste em três seções fundamentais (Figura 1):

Ouvido externo (1 e 2) – Direciona o som para o tímpano;

Ouvido médio (3, 4, 5, 6 e 7) – Transforma a pressão do som em movimento mecânico;

Ouvido interno (8 e 9) – Converte estes movimentos em excitações dos nervos que enviam sinais elétricos para o cérebro.

Figura 1 - Sistema Auditivo Humano.

3.2. Efeitos Fisiológicos

Os limiares:

Limiar de Audição (threshold of hearing):

Define a intensidade mínima do som para ser ouvido; este nível decresce fortemente ao longo da banda do sinal de voz.

Limiar de Sensação (threshold of feeling):

Define a intensidade do som a partir da qual os sons são “sentidos”, podendo passar a causar dor e eventualmente danos nos ouvidos. Tipicamente, o limiar de dor (threshold of pain) é de 120 a 140 dB; a intensidade do som é medida em termos de Nível de Pressão do Som (Sound Pressure Level) relativamente a uma referência de intensidade com 10-16 W/cm2 a 1 kHz.

Figura 2 - Variação da Amplitude do Sinal relativamente ao Limiar de Sensibilidade com a freqüência.

O conceito de limiar de audição pode ser estendido com a produção de curvas de igual intensidade sonora (Figura 3). Estas curvas descrevem a sonoridade percebida para um som relativamente à sua intensidade real. Uma igual sensação a mais baixa freqüência exige maior intensidade real.

Figura 3 - Curvas de Igual Intensidade Sonora.

3.3. Mascaramento

O efeito de mascaramento descreve o comportamento do ouvido quando dois ou mais sons diferentes o estimulam simultaneamente num curto intervalo de tempo e isso consiste no, apagamento parcial ou total de algumas componentes do sinal de áudio, devido à fato de uma componente sobrepor as outras componentes (Figura 4). Um som pode simplesmente, apagar o outro ou então aumentar o seu limiar de audição.

Figura 4 - Efeito de Mascaramento.

“O” ?som máscara depende das circunstâncias: por exemplo, ainda que numa festa se possa falar normalmente com alguém, qualquer distração maior pode resultar no barulho de fundo que irá mascarar a fala do interlocutor. O efeito de mascaramento é altamente não linear e os seus efeitos são muito variados.

4 .CODIFICAÇÃO DE SUB-BANDAS ( Sub-Band Coding )

A codificação em Sub-Bandas depende do efeito de máscara que falamos anteriormente. A idéia base do SBC (Sub-Band Coding) consiste em eliminar a informação que diz respeito às freqüências mascaradas. O resultado não é o mesmo que o sinal original, mas se a computação for bem feita, o ouvido humano não perceberá a diferença.

Figura 5.A figura seguinte mostra a estrutura de um codificador SBC (Sub-Band Coding) figura (a) e um descodificador na figura (b).

O primeiro bloco de mapeamento tempo/frequência (time-frequency mapping) (realizado através de um Banco de Filtros ou de uma FFT) serve para decompor o sinal de entrada em sub-bandas. O modelo psico-acústico analisa estas sub-bandas como se fosse o sinal original e determina os limiares de mascaramento (masking thresholds) usando a informação psico-acústica. Usando estes, cada uma das amostras das sub-bandas é quantificada e codificada de forma a manter o ruído de quantificação abaixo do limiar de mascaramento. O último bloco destina-se a agrupar todas estas amostras quantificadas em tramas, para que o descodificador possa reconstruir o sinal inicial sem se perder. O descodificador é mais simples, uma vez que não é preciso o modelo psico-acústico. As tramas são interpretadas, as amostras das sub-bandas são descodificadas, e o bloco do mapeamento tempo/frequência transforma novamente estas amostras em sinal áudio.

5. MÉTODO DE COMPRESSÃO MPGE ÁUDIO

Depois de termos, no capítulo anterior, definido alguns conceitos teóricos utilizados no método de compressão MPEG áudio, e depois de apresentado o modelo em que este se baseia, vamos de seguida explicar como se desenvolve o algoritmo de compressão MPEG. O MPEG áudio, no fundo, consiste num grupo de três diferentes esquemas de codificação em sub-bandas (SBC), chamadas layers’s. Cada layer é um codificador SBC com os seus próprios componentes que o caracterizam como o bloco de mapeamento tempo/frequência, o modelo psico-acústico e quantificador, como foi descrito no capítulo anterior o codificador SBC. A Layer I é a mais simples, mas aquela que é mais pobre em termos de compressão. A Layer III é a mais complicada e também a de maior exigência em termos de computação, mas permite-nos obter a melhor compressão.

6. IMPLEMENTAÇÃO TÉCNICA

6.1. Codificação MP3

O diagrama da Figura 6 apresenta a arquitetura do processo de codificação do MP3. A entrada de áudio é transformada trama por trama em componentes espectrais — há uma transformação de tempo em freqüência. No bloco híbrido de transformação, o MP3 utiliza um banco de filtros polifásicos seguido de uma DCT modificada (MDCT, Modified Discrete Cosine Transform) para melhorar a resolução espectral. O sinal de entrada áudio segue para o PAM II (Modelo Psicoacústico) para determinar o limiar da relação da energia do sinal e o mascaramento. O débito binário de codificação é limitado pelo controlador de débito, o qual faz variar o passo de quantificação de tal maneira que quantifica os valores espectrais, e conta o número de bits do código de Huffman necessários para codificar os valores quantificados. O código de Huffman é escolhido como a ferramenta codificadora sem perdas, usando tabelas de Huffman pré-definidas. O MP3 também adapta os fatores de escala para amplificar a energia da banda espectral quando o ruído de quantificação ultrapassa o limiar de mascaramento. O controlo de distorção ajusta os fatores de escala de modo a controlar a qualidade. Finalmente, a informação necessária ao descodificador é adicionada ao áudio comprimido, resultando assim um conteúdo válido de MP3. Na Figura 6 pode ver-se o ciclo do controlador de débito. Este ciclo aloca bits para cada linha espectral, através de uma quantificação contínua dos dados áudio, aplicar a codificação de Huffman e avaliar o número de bits. O desafio é encontrar um parâmetro de quantificação óptimo – ganho global – e selecionar a tabela de Huffman apropriada. São testadas muitas iterações no processo de quantificação de modo a assegurar uma saída para a codificação de Huffman possa ser aplicada.

Figura 6 - Processo de Codificação MPEG [6].

Figura 7 - Ciclo de iterações do Controlo de Débito [6].

6.1.1 Algoritmo de Codificação

As especificações do MP3 definem como o fluxo de dados deve ser estruturado e interpretado, porem não como o codificador dever ser implementado contando que seja um codificador de acordo com a norma. Isso possibilita a concorrência entre vários fabricantes, o que beneficia o usuário e a tecnologia. A seguir descrito o funcionamento de um codificador de MP3

Figura 8 - Funcionamento de um codificador de MP3

6.1.2 Filterbank Um filterbank é um conjunto de filtros passa-banda que separam o sinal de entrada em várias componentes, cada uma contendo uma única sub banda de freqüência do sinal original. A saída, o sinal contém tantas sub bandas quanto o número de filtros existentes no filterbank - 32 no caso do MP3. Esta técnica permite isolar diferentes componentes de freqüência do sinal, bastante útil para a codificação de música. Como o aparelho auditivo humano é mais sensível a umas freqüências que outras, essas tem que ser exatamente preservadas na codificação, pois pequenas diferenças são significativas. Por outro lado, freqüências menos importantes podem não ser exatas, permitindo assim uma codificação mais eficiente. A seqüência de 1152 amostras PCM é, como vimos, filtrada em 32 sub bandas igualmente espaçadas. Se a freqüência de amostragem for 44.1kHz, a freqüência de Nyquist1 é 22.05kHz, tendo cada sub banda aproximadamente 689Hz de amplitude (22050/32 = 689Hz). Como cada amostra pode conter componentes de freqüência de 0 a 22.05kHz, filtrados para a sub banda apropriada, o número de amostras aumenta com um factor de 32, pois cada sub banda guarda um sub espectro da freqüência da amostra. Depois de filtrada, como cada amostra numa sub banda não inclui todo o espectro de freqüência, há redução de informação. Contudo, e por não haverem filtros passa-banda perfeitos, será introduzido algum efeito de aliasing.

6.1.3 MDCT - Modified Discrete Cosine Transform

Aplicando a transformada do co-seno discreta modificada a cada amostra das 32 sub bandas, há novamente uma subdivisão de cada sub banda em 18 mais finas, originando agora 576 linhas de freqüência (32*18 = 576), o que permite uma eliminação de redundância mais eficiente. No entanto, antes de aplicar a MDCT, cada sub banda está sujeita a um tipo de janela (Figura 5), determinada pelo Modelo Psico-Acústico, com o objetivo de reduzir artefatos causados pelo limite de cada segmento. Se o Modelo Psico-Acústico decide que o sinal da sub-banda presente é idêntica a anterior, é aplicado o tipo de janela Long, que melhora a resolução espectral dada pela MDCT. Caso contrário, se o sinal se apresentar bastante diferente do anterior, é aplicada a janela Short, melhorando a resolução temporal dada pela MDCT. Para melhorar eventuais transições entre janelas, são definidas duas janelas adicionais: Start e Stop. Uma janela Long torna-se uma Start se for seguida por uma janela Short. De maneira similar, uma Long torna-se Stop se for precedida por uma janela Short. As janelas Start e Stop são enviesadas para os lados, para melhorar as transições entre as janelas Long e Short. (Figura 8).

Figura 9. Tipos de janela: Janela normal (a), Janela de inicio (b), Janela curta (c), Janela parada(d).

O efeito de aliasing introduzido pelo filterbank é agora removido, reduzindo a quantidade de informação que é necessária transmitir.

6.1.4 FFT - Fast Fourier Transform

Simultaneamente ao processamento do sinal pelo Filterbank, este é também transformado do domínio do tempo para o domínio da freqüência através da Transformada Rápida de Fourier, originando assim uma maior resolução de freqüência e informação nas alterações espectrais ao longo do tempo.

6.1.5 Modelo Psico-Acústico

Este bloco recebe como entrada o resultado de processamento da FFT. Assim, como as amostras se encontram no domínio da freqüência, é possível aplicar-lhes um conjunto de algoritmos que modelam a percepção sonora humana, determinando que partes do sinal são, ou não, audíveis. Esta informação é útil para decidir que tipos de janela a MDCT deve aplicar e para oferecer ao bloco de Quantificação Não Uniforme, informação sobre como este deve quantificar as linhas de freqüência. O modelo Psico-Acústico detecta os tons dominantes calculando para cada banda critica um limite de "mascaramento". Estes limites são utilizados pelo bloco de quantificação para que este mantenha o ruído de quantificação abaixo destes limites. Componentes de freqüência abaixo destes limites podem ser "mascaradas" por ruído sem que se de uma perda de qualidade perceptível.

6.1.6 Escalonamento e Quantificação Não Uniforme

Nestes dois blocos, a quantificação, o escalonamento e a codificação de Huffman são aplicados aos 576 valores espectrais resultantes da MDCT, iterativamente em dois ciclos diferentes: Rate Control Loop e Distortion Loop. • Rate Control Loop: Este ciclo realiza a quantificação das amostras no domínio da freqüência e determina o tamanho do passo da quantificação. As amostras são quantificadas com um tamanho de passo crescente, até que os valores quantificados possam ser codificados com uma tabela de Huffman disponível. Um passo maior leva a menores valores de quantificação. É contabilizado o número de bits codificados e comparado com o número de bits disponíveis. Se esse valor é ultrapassado, o tamanho do passo da quantificação é aumentado e repetido, até que o número de bits disponível seja suficiente. • Distortion Loop: Este ciclo controla o ruído de quantificação causado pelo processo de quantificação das linhas no domínio da freqüência, com o Rate Control Loop. O objetivo é manter o ruído de quantificação abaixo do limite de mascaramento (ruído permitido pelo modelo psico-acústico).

6.1.7 Codificação de Huffman

Os valores quantificados sofrem uma codificação de Huffman. Cada subdivisão do espectro de freqüência pode ser codificado com a utilização de diferentes tabelas, de modo a adaptar e otimizar o processo de codificação a diferentes estatísticas dos sinais áudio.

6.1.8 Codificação de Informação Auxiliar

Todos os parâmetros gerados pelo codificador são utilizados para permitir que o decodificador reproduza o sinal sonoro. São estes os parâmetros incluídos na parte "Informação Auxiliar" da trama.

6.1.9 Formatação dos Dados e Geração do CRC

Neste último bloco são formadas as tramas que constituem um arquivo MP3. Cada trama representa 1152 amostras PCM. [10]

7. DECODIFICAÇÃO MP3

O processo de descodificação do MP3 tem três partes principais: descodificação de seqüências de bits, desquantificação e mapeamento freqüência - tempo (Figura 10). A primeira parte sincroniza a seqüência de bits codificada e extrai os coeficientes de freqüência quantificados e qualquer outra informação sobre cada trama (Figura 11).

Figura 10- Diagrama de blocos da descodificação MP3 [6].

Figura 11 - Diagrama de blocos da primeira etapa da descodificação [6].

A desquantificação reconstrói os dados (perceptualmente idênticos) a partir dos coeficientes de freqüência gerados pelo bloco da MDCT durante a descodificação. A última parte abrange um conjunto de operações inversas da MDCT e a análise do banco de filtros da sub-banda, no descodificador. O mapeamento freqüência-tempo constrói o sinal de saída áudio PCM a partir dos coeficientes desquantificados. A MDCT Inversa (IMDCT) transforma os coeficientes em sinais de sub-banda no domínio do tempo. É aplicada então, a inversão na freqüência, de modo a compensar a redução do número de amostras na análise do banco de filtros da sub-banda. Após esta etapa, a síntese do banco de filtros da sub-banda é aplicada aos sinais da sub-banda para formar o sinal áudio PCM de saída.

7.1 Algoritmo de Decodificação Os decodificadores para MPEG Layer III estão especificados detalhadamente nos standards ISO. Estas especificações estão feitas de modo a que não existam diferenças audíveis entre decodificadores que estejam em conformidade com a norma, na figura 11 é apresentado o diagrama de blocos da estrutura do algoritmo de decodificação do MP3.

Figura 12. Esquema de decodificação do MPEG-1 Layer III.

7.1.1 Sincronização e Verificação de Erros

Este bloco recebe o fluxo de dados, separando-o em tramas através da palavra de sincronização existente no início de cada trama. Neste bloco é também realizada uma verificação dos erros existentes em cada trama.

7.2 Descodificação de Huffman

Este bloco efetua a decodificação de Huffman, utilizando as tabelas de Huffman recebidas. Este bloco tem de gerar 576 linhas de freqüência independentemente do número de linhas descritas no código de Huffman.

7.3 Descodificação dos Fatores de Escala

Este bloco descodifica os fatores de escala utilizando informação contida no campo Side Information.

7.4 Requantificador

As linhas de freqüência obtidas no descodificador de Huffman são requantificadas, utilizando os fatores de escala recebidos do descodificador de fatores de escala.

7.5 Reordenamento

As linhas de freqüência geradas pelo Requantificador não estão ordenadas sempre da mesma forma. De modo a aumentar a eficiência de codificação de Huffman, as linhas de freqüência podem sofrer um reordenamento, visto que as amostras de freqüências próximas tem uma maior probabilidade de terem valores similares. Neste bloco é efetuada a reordenação destas linhas de freqüência.

7.6 Decodificação Stereo

Neste bloco é efetuada a separação dos dois canais dos sinais stereo. O modo como é efetuada esta descodificação depende do modo como foi realizada a codificação, que pode ser obtido no cabeçalho de cada trama.

7.7 Redução do Efeito de Aliasing

Na descrição do algoritmo de codificação, foi referido que era aplicada uma redução do efeito de aliasing no bloco MDCT. Para obter uma correta reconstrução do sinal de áudio nos blocos de descodificação seguintes, é necessário voltar a inserir os artefatos de aliasing. Isso é feito neste bloco.

8. IDMCT - INVERSE MDCT

Este bloco recebe como entrada as linhas de freqüência mapeadas em 32 sub-bandas. Aplicando a transformada discreta do co-seno inversa modificada são geradas 18 amostras no domínio do tempo para cada uma das 32 sub-bandas.

8.1 Inversão de Freqüência'

Para compensar as inversões de freqüência que ocorrem no Filterbank de síntese, cada amostra ímpar (no domínio do tempo) de cada sub-banda ímpar, é multiplicada por -1.

8.2 Filterbank de Síntese

Este bloco transforma as 32 sub-bandas de 18 amostras do domínio do tempo em 18 blocos de 32 amostras PCM.[10]

9. CONTEÚDO DOS ARQUIVOS .MP3

Todos os srquivos MP3 estão divididos em fragmentos mais pequenos designados por "tramas". Cada trama guarda 1152 amostras de áudio tendo uma duração fixa de 26ms quando é descodificado. O tamanho de cada trama depende do bitrate com que o sinal foi codificado e da freqüência de amostragem de acordo com a seguinte fórmula:

Figura 13. Formula para amostragem de acordo com o bitrate.

Ao codificar um arquivo com uma bitrate de 128 kbps e uma freqüência de amostragem de 44.100 Hz, vamos obter tramas de 417 bytes2. Para que a stream codificada cumpra exatamente o bitrate especificado, é necessário que algumas tramas tenham 418 bytes, sendo neste caso utilizado um byte de padding. Cada trama é constituída por cinco partes (Header, CRC, Side Information, Main Data e Ancillary Data) estando representada na Figura 10.

Figura 14. Estrutura de cada trama MP3.

Trocar trama por quadro em todo o texto

10. HEADER

O cabeçalho de cada trama começa com 12 bits de sincronização todos definidos a 1, ou seja '1111 1111 1111'. O fato de cada trama conter esta palavra de sincronização permite que os descodificadores comecem a descodificar o sinal em qualquer ponto da stream, o que torna possível fazer broadcast de um arquivo .mp3. O campo ID é constituído por um bit que especifica qual a versão MPEG utilizada na codificação do ficheiro (1- MPEG-1, 0- MPEG-2). O campo Layer especifica a camada utilizada (I, II ou III). Como vimos anteriormente, o MP3 corresponde a layer III. O protection bit indica se será, ou não, utilizado o CRC. O campo Bitrate indica a taxa de bits por segundo com que está codificada a trama. Este valor pode variar entre 32kbps e 320kbps para o MPEG-1 layer III. Os dois bits do campo Frequency indicam a freqüência de amostragem que pode ser de 32000Hz, 44100Hz ou 48000Hz no MPEG-1. O bit de Padding é colocado a 1 quando uma trama utiliza padding. O campo Mode define qual o modo de operação utilizado. É possível utilizar os seguintes modos de operação: • Canal Único (Mono) • Dois Canais: Cada canal é codificado de forma independente utilizando exatamente metade do bitrate total. Normalmente os dois canais são descodificados como estéreo, mas tal não é obrigatório podendo ser utilizados para, por exemplo, transmitir um discurso em duas línguas diferentes, cada uma utilizando um dos canais. • Stereo: Codificação independente mas com partilha de campos comuns na trama codificada. • Joint Stereo: Este modo utiliza a redundância existente entre os canais direito e esquerdo para otimizar a codificação. Para tal podem ser utilizadas duas técnicas: middle / side stereo (MS Stereo) e Intensity Stereo. A técnica MS Stereo (apenas existente na camada III) codifica um canal (o middle channel) como a soma dos canais esquerdo e direito, e outro canal (o side channel), como a diferença entre o canal esquerdo e o direito. Visto que normalmente os canais esquerdo e direito são bastante parecidos, o sinal correspondente a soma irá conter mais informação do que o da diferença, o que irá permitir uma codificação mais eficiente. Esta é uma técnica lossless, ou seja, não acarreta perca de informação. A técnica Intensity Stereo explora a dependência entre canais, enviando, para as freqüências acima de 2 kHz, o sinal esquerdo somado com o direito. Neste modo, a informação de stereo está contida nos fatores de escala enviados, que são diferentes para cada um dos canais. Os dois bits reservados para o Mode Extension sao utilizados apenas para o modo Joint Stereo, definindo a(s) técnica(s) utilizada(s). Os bits de Copyright e Home tem como objetivo possibilitar algum controlo de direitos de autor. O bit Copyright define se é legal ou não copiar os conteúdos do arquivo codificado, e o bit Home indica se a trama se encontra no dispositivo original. O campo Emphasis indica ao descodificador que tem de "re-equalizar" o som, depois de ser aplicado um algoritmo de supressão de ruído.

10.1 Side Information

O campo Side Information contém informação necessária para descodificar a Main Data, nomeadamente o passo de quantificação e a tabela de Huffman a utilizar na descodificaçao.

10.2 Main Data

A Main Data é constituída pelos fatores de escala e pelos bits codificados com código de Huffman. Uma correta definição dos fatores de escala para cada banda é essencial para manter o ruído de quantificação baixo.

11. ID3

Inicialmente o MP3 não previa a inclusão de informação textual descritiva do áudio codificado. Esta possibilidade foi introduzida com o ID3v1.1, através da inclusão de uma etiqueta no final de cada arquivo MP3 que permite guardar informação sobre título, artista, álbum, ano, comentário, no da música e gênero musical. O ID3v1.1 apresenta duas limitações significativas. O fato da informação ter de ser registrada em cada um dos campos de informação predefinidos e de estes campos estarem limitados a um número fixo de bytes, torna o ID3v1.1 muito pouco flexível. Adicionalmente, o fato da informação ID3 ser inserida no final de cada ficheiro não é adequado para realizar o streaming destes ficheiros. Com o objetivo de resolver os problemas identificados no ID3v1.1 foi lançada a versão ID3v2. Nesta nova versão foram introduzidos novos campos de informação, sendo o seu tamanho dinâmico, o que permite uma introdução de informação mais completa e flexível. No ID3v2 a etiqueta é inserida no início de cada arquivo, o que facilita a operação de streaming

12. APLICAÇÔES

Uma solução como o MPEG Layer III é muito útil para um largo número de aplicações. Praticamente qualquer sistema que tenha uma capacidade de canal limitada beneficia no uso desta solução. Esta técnica abrange pelo menos três grandes áreas: transmissão; radiodifusão e teledifusão; Armazenamento de Dados. No caso da transmissão temos como exemplo as rádios. Um programa de rádio que precise de fazer uma entrevista com uma celebridade ou fazer uma cobertura de um evento desportivo ou concerto de música, necessita de ter uma ligação entre o local onde está a rádio e o evento, para poder transportar o sinal de áudio de um sitio para o outro. Pode utilizar uma ligação em RDIS e usando um codificador MPEG para garantir um transporte de alta qualidade. No caso da radiodifusão, muitas vezes é utilizada a compressão de áudio para reduzir as tramas de dados e conseguir assim transmitir mais áudio utilizando o mesmo canal. No caso do armazenamento de dados apresentamos de seguida um exemplo de como a compressão de arquivos de música pode permitir guardar num único CDROM a musica existente em cerca de 12 CD Áudio sem apreciável perda de qualidade.[12]

13. IMPACTO SOCIOLÓGICO

A associação do formato MP3 com a Internet permitiu uma poderosa distribuição de música online, o que revolucionou o mundo da música [5]. Alimentado pelo crescimento explosivo da Internet tornou-se o formato mais popular de ficheiros de música, tanto legais como ilegais. Foi bem sucedido porque o consumidor pensou nele como ?CDs na Internet, ou, em muitos casos, ?CDs grátis na Internet. A procura deste formato criou um ciclo: mais produtores de conteúdo criam conteúdo no formato MP3, o que por sua vez gera um aumento na procura de software e hardware MP3 [7]. A atração do consumidor pelo MP3 levou a indústria eletrônica a criar o leitor portátil de música digital, com ele as pessoas passaram a poder localizar rapidamente a música pretendida, através da utilização de software que organiza a sua biblioteca musical e a ouvi-la onde querem: em casa, na praia, nos transportes públicos, na rua, a praticar desporto, etc. [5], [7]. A razão pela qual o MP3 se tornou o formato de áudio mais utilizado na Internet prendeu-se com o fato de os detentores da patente terem permitido, durante algum tempo, que qualquer pessoa desenvolvesse um decodificador ou reprodutor gratuitamente. Por isso, no início, muitas pessoas desenvolveram reprodutores e outro software que se espalhou rapidamente. Em contrapartida, muitos outros formatos de áudio digital, que são mais eficientes ou têm um som melhor que o MP3, têm restrições sobre a forma como se pode empregar a sua tecnologia [2]. Uma das vantagens do MP3 é ter uma perda insignificante de qualidade para um grande grau de compressão, permitindo o armazenamento online de ?CDs com qualidade musical, para não falar do aumento de capacidade dos discos rígidos e a sua diminuição de preço [5]. Outra vantagem deste formato é não ter segurança associada aos ficheiros, por isso milhões deles são colocados diariamente na Internet. Os ficheiros são suficientemente pequenos para serem descarregados facilmente, ou até mesmo enviados em anexo num e-mail para um amigo [2]. O impacto tecnológico do MP3 na sociedade, assemelha-se ao impacto que o rádio teve anteriormente.

13.1 Licenças e Patentes

Em Setembro de 1998, o Instituto Fraunhofer enviou uma carta a vários criadores de software MP3 afirmando que era necessária uma licença para distribuir e/ou vender decodificadores e/ou codificadores, e que os produtos não licenciados violavam os direitos sobre a patente do Instituto Fraunhofer e da Thomson Consumer Electronics, portanto para produzir, vender e/ou distribuir produtos que utilizassem o MPEG Layer-3 seria necessário obter uma licença. A Thomson Consumer Electronics é a entidade que controla o licenciamento da patente do MPEG-1/2 Layer 3 em muitos países, incluindo os Estados Unidos, Japão, Canadá e alguns países da União Européia. Estas questões da patente abrandaram significativamente o desenvolvimento de software MP3 sem licenciamento, o que levou à criação de novas alternativas, tais como Vorbis, AAC e WMA.

Apesar das restrições colocadas em relação às patentes, o formato MP3 continua a ser o preferido por muitas razões:

Familiaridade com o formato;

A grande quantidade de música disponível no formato MP3;

A grande variedade de software e hardware que utiliza o formato MP3;

A fraca restrição do DRM, o que torna fácil editar, copiar e distribuir ficheiros MP3;

A maioria dos utilizadores domésticos não sabem ou não se importam com a polemica em torno das patentes, que muitas vezes não têm em consideração estas questões jurídicas na escolha do seu formato musical para uso pessoal [3].

14. REFERÊNCIAS

Colocar referencias em padrão ABNT veja detalhes em Recomendações para trabalhos escritos--Marcos Moecke 18:52, 16 Dezembro 2008 (BRST)

http://inventors.about.com/od/mstartinventions/a/MPThree.htm
http://www.webmonkey.com/00/31/index3a.html
http://en.wikipedia.org/wiki/Mp3
http://www.mp3licensing.com/mp3/history.html
M. McCandless, ”The MP3 Revolution” IEEE Intelligent Systems, pp. 8-9, May/June 1999.
C.H. Yen, Y.S. Lin, B.F. Wu, ?” Low-complexity MP3 Algorithm that Uses a New Rate Control and a Fast Dequantization” IEEE Transactions on Consumer Electronics, Vol. 51 Nº 2, pp. 571-579, May 2005.
B. Ponce, ?The Impact of MP3 and the Future of Digital Entertainment Products?, IEEE Communications Magazine, pp. 68-70, Sept 1999.
?Colecção de Caderno de Políticas Culturais?, Brasília 2006.
Oliveira, Pedro Miguel, ?”Uma Revolução Chamada MP3” Exame Informática, pp. 10-13, Agosto 2005, Ed. 122.
http://www.img.lx.it.pt/~fp/cav/ano2006_2007/MERC/Trab_7/G7-MP3/SITE/mpeg1LayerIII.html
http://www.img.lx.it.pt/~fp/cav/ano2007_2008/MEEC/Trabalho_18/MP3/Artigo.pdf
http://pwp.net.ipl.pt/isel/pribeiro/MPEGAudio/