Desenvolvimento de um Sistema de Reconhecimento de Locutor Utilizando Aprendizado de Máquina

De MediaWiki do Campus São José
Ir para navegação Ir para pesquisar
Autor

Henrique Hilleshein

Orientador

Prof. Mario de Noronha Neto

Curso

Engenharia de Telecomunicações

Resumo

A tecnologia nos últimos anos está evoluindo em larga escala e sistemas de segurança precisam acompanhar essa evolução. Existem vários métodos de se aumentar a segurança de um sistema, muitos desse métodos utilizam biometria, tal como reconhecimento facial e digital por exemplo. Uma biometria que também pode ser utilizada é a da voz, o qual é uma biometria que tem a vantagem de poder ser utilizada remotamente através de um microfone e um meio de transmissão. Utilizando a biometria da voz é possível fazer o reconhecimento do locutor. Nesse trabalho é feito o desenvolvimento de um sistema de reconhecimento de locutor, mostrando o passo a passo da construção do sistema, possuindo o objetivo de ser um introdutório de reconhecimento de locutor utilizando aprendizado de máquina. Um sinal de voz é composto para uma grande quantidade de informação, sendo que a boa parte da informação não importa para o reconhecimento de locutor. Para extrair a informação que interessa da voz, é utilizada a técnica Mel frequency cepstral coefficients. Utilizando a informação importante, são feitas predições utilizando o algoritmo de aprendizado de máquina Gaussian Mixture Models. Uma interface web foi criada para fazer treinamentos e testes do sistema na prática. Foi utilizado duas bases de dados para obter resultados, uma base de dados criado nesse trabalho utilizando a interface web e a base de dados ELSDSR. A maioria dos resultados foram positivos, mostrando que o sistema funciona, mas também apontam que o sistema precisaria ser melhorado para uso comercial. O sistema se demonstrou funcional, mas com alta sensibilidade à variação da voz do locutor e não funcionando corretamente quando utilizado mais de um microfone.

Palavras chave

Reconhecimento de locutor. MFCC. Aprendizado de máquina.

Abstract

The technology in recent years is evolving on a large scale and security systems need to keep up with this evolution. There are several methods of increasing the security of a system, many of these methods use biometrics, such as facial recognition and fingerprint for example. A biometry that can also be used is voice, which is a biometry that has the advantage that it can be used remotely through a microphone and a transmission medium. Using voice biometrics, it is possible to recognize the speaker. In this work, the development of a speaker recognition system is made, showing the step by step of the construction of the system, aiming to be an introductory of speaker recognition using machine learning. A voice signal is composed for a large amount of information and much of the information does not matter for speaker recognition. To extract important information from the voice, the technique Mel frequency cepstral coefficients is used. Using the important information, predictions are made by the machine learning algorithm Gaussian Mixture Models. A web interface was created to train and test the system in practice. Two data bases were used to obtain results, a database created in this work using the web interface and the database ELSDSR. Most of the results were positive, showing that the system works, but also point out that the system would need to be improved for commercial use. The system has shown to be functional, but with high sensitivity to the variation of the voice of the speaker and not working very well when using more than one microphone.

Keywords
Speaker recognition. MFCC. Machine learning.
Arquivos

Arquivos relacionados a trabalho, a monografia em pdf e também arquivos fontes e executáveis estão disponibilizados nos links abaixo: