Reconhecimento de Voz utilizando extração de Coeficientes Mel-Cepstrais e Redes Neurais Artificiais

De MediaWiki do Campus São José
Ir para: navegação, pesquisa
Autor

Ernani Rodrigues de São Thiago

Orientador

Prof. Ramon Mayor Martins

Curso

Engenharia de Telecomunicações

Resumo

Com os avanços obtidos nos campos de Inteligência Artificial, os computadores passaram de meros executores de sequências lógicas, para desenvolvedores de soluções, capazes de aprender a partir de experiências (exemplos) coletados do ambiente. Neste contexto, Redes Neurais Artificiais (RNA) são largamente utilizadas para computar classificadores, capazes de classificar (com uma tolerável taxa de erro) diferentes tipos de dados. Neste trabalho, utilizou-se Coeficientes Mel-Cepstrais (MFCC) para extrair vetores de características de dados de voz, com o intuito de treinar diferentes RNAs com os dados processados. Para o treinamento da RNA, desenvolveu-se um software capaz de variar cinco parâmetros selecionados pelo usuário: número de neurônios, número de camadas ocultas, algoritmo de treinamento, taxa de aprendizado e função de ativação. Um conjunto de valores específicos foram selecionados, baseados em técnicas empíricas e teorias fundamentadas, no intuito de realizar uma análise a respeito do desempenho de RNAs. A experimentação de diferentes topologias de RNA, alcançou resultados bastante satisfatórios, onde a melhor taxa de acerto encontrada foi de 97,58%. Dessa forma, é possível considerar a utilização de RNAs em sinergia com técnicas empíricas e heurísticas para seleção de parâmetros, como alternativa à métodos mais bem estabelecidos no meio científico, como Modelos Ocultos de Markov (HMM).

Palavras chave

Redes Neurais Artificiais. Inteligência Artificial. Processamento de Sinais. Coeficientes Mel-Cepstrais.

Abstract

With advances in the fields of Artificial Intelligence, computers have evolved from mere logical sequence implementers to solution developers who are able to learn from experiences (examples) collected from the environment. In this context, Artificial Neural Networks (ANNs) are widely used to compute classifiers, capable of classifying (with a tolerable error rate) different types of data. In this paper, Mel-Frequency Cepstral Coefficients (MFCC) were used to extract characteristics vectors of voice data, in order to train different ANNs with the processed data. For ANN training, a software was developed to vary five parameters selected by the user: number of neurons, number of hidden layers, training algorithm, learning rate and activation function. A set of specific values were selected, based on empirical techniques and grounded theories, in order to perform a comparative analysis. The experimentation of different ANN topologies, reached very satisfactory results, where the best hit rate was 97.58 %. Thus, it is possible to consider the use of ANNs in synergy with empirical and heuristic techniques for parameter selection, as an alternative to more well established methods in the scientific environment, such as Hidden Markov Models (HMM).

Keywords

Artificial Neural Networks. Artificial Intelligence. Signal Processing. MelFrequency Cepstral Coefficients.

Arquivos

Arquivos relacionados a trabalho, a monografia em pdf e também arquivos fontes e executáveis estão disponibilizados nos links abaixo: