Estudo de Técnicas de Aprendizado de Máquina em Reconhecimento de Voz para Detecção de Gênero

De MediaWiki do Campus São José
Revisão de 20h08min de 7 de setembro de 2022 por Moecke (discussão | contribs)
(dif) ← Edição anterior | Revisão atual (dif) | Versão posterior → (dif)
Ir para navegação Ir para pesquisar
Mário André Lehmkuhl de Abreu
Elen Macedo Lobato
Ramon Mayor Martins
Estudante do Curso de Engenharia de Telecomunicações do Campus São José do IFSC
Professor Orientador do Curso de Engenharia de Telecomunicações do Campus São José do IFSC
Professor Coorientador do Curso de Engenharia de Telecomunicações do Campus São José do IFSC
Resumo

Com os avanços tecnológicos ocorridos nos últimos anos, o mundo vem passando por transformações, sendo notável cada vez mais a interação dos seres humanos com aplicações computacionais. Assistentes pessoais ativados por voz, carros autônomos, reconhecimento facial, marcação automática em fotos de redes sociais entre outras aplicações já são uma realidade no cotidiano da sociedade. Para implementar essas interações artificiais, é usada uma técnica que cresceu em popularidade na última década, chamada aprendizado de máquina (Machine Learning). Esta tecnologia é uma área da inteligência artificial (IA) que investiga como as máquinas podem aprender através da extração de característica a partir de um conjunto de dados. Através disso, várias aplicações podem ser desenvolvidas em vários cenários diferentes, como por exemplo, as citadas acima. Um que vem ganhando bastante presença no dia a dia é o reconhecimento de voz, que é integrado aos assistentes virtuais, e seu uso reflete em maior usabilidade ao realizar ações sem intervenção manual. Ele também oferece maior acessibilidade para aqueles com limitações motoras. No desenvolvimento desse recurso, uma vez que existem muitas variações da fala humana, seu reconhecimento pode ser feito entre vários aspectos, sendo um deles, o de identificação do gênero da voz, para uso em assistentes virtuais. Que ao reconhecerem o gênero do usuário, podem proporcionar mais interatividade, oferecendo determinados serviços para tornar a experiência do usuário mais envolvente. No entanto, para que a interatividade seja aceitável, a confiabilidade do reconhecimento deve estar o mais exata possível. Desse modo, esse trabalho teve como objetivo analisar e comparar o desempenho de algumas técnicas mais utilizadas no aprendizado de máquina para o reconhecimento do gênero da voz. Com o propósito de verificar qual técnica apresenta o melhor reconhecimento. Afim de servir como uma contribuição científica para informar qual técnica usar, a quem pretende implementar este tipo de reconhecimento em uma aplicação, poupando tempo no processo. Nesse desenvolvimento, toda a análise foi realizada em uma base de dados de vozes contendo os gêneros feminino e masculino disponível na web, e os resultados obtidos foram avaliados em termos de acurácia, sensibilidade, especificidade e eficiência.

Palavras Chave

Reconhecimento de voz. Reconhecimento de padrões. Inteligencia artificial. Aprendizado de máquina.

Abstract

With the technological advances that have occurred in recent years, the world has been undergoing transformations, and the interaction of human beings with computer applications is increasingly remarkable. Voice-activated personal assistants, autonomous cars, facial recognition, automatic tagging in social network photos, among other applications, are already a reality in everyday society. To implement these artificial interactions, a technique that has grown in popularity in the last decade is used, called Machine Learning. This technology is an area of artificial intelligence (AI) that investigates how machines can learn through feature extraction from a dataset. Through this, several applications can be developed in various different scenarios, such as the ones mentioned above. One that is gaining a lot of presence in everyday life is voice recognition, which is integrated into virtual assistants, and its use reflects in greater usability by performing actions without manual intervention. It also offers greater accessibility for those with motor limitations. In developing this feature, since there are many variations of human speech, its recognition can be done among several aspects, one of them being the identification of the gender of the voice, for use in virtual assistants. By recognizing the user’s gender, they can provide more interactivity, offering certain services to make the user experience more engaging. However, for the interactivity to be acceptable, the reliability of the recognition must be as accurate as possible. Thus, this work aimed to analyze and compare the performance of some of the most commonly used techniques in machine learning for voice gender recognition. The purpose was to verify which technique provides the best recognition. In order to serve as a scientific contribution to inform which technique to use, to those who intend to implement this type of recognition in an application, saving time in the process. In this development, all the analysis was performed on a database of voices containing the female and male genders available on the web, and the results obtained were evaluated in terms of accuracy, sensitivity, specificity and efficiency.

Keywords

Speech recognition. Pattern recognition. Artificial intelligence. Machine learning.

Arquivos do TCC