Reconhecimento de Voz utilizando extração de Coeficientes Mel-Cepstrais e Redes Neurais Artificiais
TCC Engenharia de Telecomunicações
Identificação
Autor: Ernani Rodrigues de São Thiago
Orientador: Prof Ramon Mayor Martins
Resumo
Com os avanços obtidos nos campos de Inteligência Artificial, os computadores passaram de meros executores de sequências lógicas, para desenvolvedores de soluções, capazes de aprender a partir de experiências (exemplos) coletados do ambiente. Neste contexto, Redes Neurais Artificiais (RNA) são largamente utilizadas para computar classificadores, capazes de classificar (com uma tolerável taxa de erro) diferentes tipos de dados. Neste trabalho, utilizou-se Coeficientes Mel-Cepstrais (MFCC) para extrair vetores de características de dados de voz, com o intuito de treinar diferentes RNAs com os dados processados. Para o treinamento da RNA, desenvolveu-se um software capaz de variar cinco parâmetros selecionados pelo usuário: número de neurônios, número de camadas ocultas, algoritmo de treinamento, taxa de aprendizado e função de ativação. Um conjunto de valores específicos foram selecionados, baseados em técnicas empíricas e teorias fundamentadas, no intuito de realizar uma análise a respeito do desempenho de RNAs. A experimentação de diferentes topologias de RNA, alcançou resultados bastante satisfatórios, onde a melhor taxa de acerto encontrada foi de 97,58%. Dessa forma, é possível considerar a utilização de RNAs em sinergia com técnicas empíricas e heurísticas para seleção de parâmetros, como alternativa à métodos mais bem estabelecidos no meio científico, como Modelos Ocultos de Markov (HMM).
Palavras-chave: Redes Neurais Artificiais. Inteligência Artificial. Processamento de Sinais. Coeficientes Mel-Cepstrais.