Reconhecimento de Voz utilizando extração de Coeficientes Mel-Cepstrais e Redes Neurais Artificiais

De MediaWiki do Campus São José
Revisão de 09h10min de 16 de março de 2018 por Ramon.mayor (discussão | contribs)
Ir para navegação Ir para pesquisar

TCC Engenharia de Telecomunicações

Identificação

Autor: Ernani Rodrigues de São Thiago
Orientador: Prof Ramon Mayor Martins

Resumo

Com os avanços obtidos nos campos de Inteligência Artificial, os computadores passaram de meros executores de sequências lógicas, para desenvolvedores de soluções, capazes de aprender a partir de experiências (exemplos) coletados do ambiente. Neste contexto, Redes Neurais Artificiais (RNA) são largamente utilizadas para computar classificadores, capazes de classificar (com uma tolerável taxa de erro) diferentes tipos de dados. Neste trabalho, utilizou-se Coeficientes Mel-Cepstrais (MFCC) para extrair vetores de características de dados de voz, com o intuito de treinar diferentes RNAs com os dados processados. Para o treinamento da RNA, desenvolveu-se um software capaz de variar cinco parâmetros selecionados pelo usuário: número de neurônios, número de camadas ocultas, algoritmo de treinamento, taxa de aprendizado e função de ativação. Um conjunto de valores específicos foram selecionados, baseados em técnicas empíricas e teorias fundamentadas, no intuito de realizar uma análise a respeito do desempenho de RNAs. A experimentação de diferentes topologias de RNA, alcançou resultados bastante satisfatórios, onde a melhor taxa de acerto encontrada foi de 97,58%. Dessa forma, é possível considerar a utilização de RNAs em sinergia com técnicas empíricas e heurísticas para seleção de parâmetros, como alternativa à métodos mais bem estabelecidos no meio científico, como Modelos Ocultos de Markov (HMM).

Palavras-chave: Redes Neurais Artificiais. Inteligência Artificial. Processamento de Sinais. Coeficientes Mel-Cepstrais.