Mudanças entre as edições de "Reconhecimento de Placas de Sinalização Via Processamento Digital de Imagem e Aprendizado de Máquina"

De MediaWiki do Campus São José
Ir para navegação Ir para pesquisar
Linha 13: Linha 13:
 
O trabalho proposto segue uma linha bem diferente dos demais trabalhos feitos anteriormente para o mesmo intuito. Foi um dos primeiros trabalhos a não utilizar técnicas baseadas na visão, ou seja, técnicas que utilizam o processamento de imagens provenientes de câmeras acopladas ao sistema. Por isso, o presente trabalho não está sujeito aos obstáculos enfrentados por estas técnicas como problemas relacionados às condições de tempo, luminosidade, ângulo, etc, que devem ser contornados na detecção e reconhecimento de placas de sinalização.  
 
O trabalho proposto segue uma linha bem diferente dos demais trabalhos feitos anteriormente para o mesmo intuito. Foi um dos primeiros trabalhos a não utilizar técnicas baseadas na visão, ou seja, técnicas que utilizam o processamento de imagens provenientes de câmeras acopladas ao sistema. Por isso, o presente trabalho não está sujeito aos obstáculos enfrentados por estas técnicas como problemas relacionados às condições de tempo, luminosidade, ângulo, etc, que devem ser contornados na detecção e reconhecimento de placas de sinalização.  
  
A técnica utilizada envolve o uso de uma arquitetura Cliente-Servidor da qual o veículo (cliente) envia requisições periódicas, contendo informações de posição geográfica (GPS), para uma base de dados (servidor). A base de dados que contém armazenada toda a informação referente as placas de sinalização em uma determinada região incluindo: posição geográfica, nome das ruas e uma breve descrição do conteúdo de cada placa, responde a requisição indicando qual placa de sinalização possui maior proximidade no ângulo de deslocamento do veículo. Para isso, o lado servidor aplica um algoritmo de filtragem que utiliza o deslocamento do veículo para extrair a placa que mais se adequa à situação.
+
A técnica utilizada envolve o uso de uma arquitetura Cliente-Servidor da qual o veículo (cliente) envia requisições periódicas contendo informações de posição geográfica (GPS) para uma base de dados (servidor). A base de dados que contém armazenada toda a informação referente as placas de sinalização em uma determinada região (posição geográfica, nome das ruas e uma breve descrição do conteúdo de cada placa) responde a requisição indicando qual placa de sinalização possui maior proximidade no ângulo de deslocamento do veículo.  
  
 
''' Vantagens '''
 
''' Vantagens '''
  
Se comparado à outros sistemas com as técnicas de detecção como Histograma de Gradientes Orientados (HOG) ou Regiões de Máxima Estabilidade (MSER), o trabalho proposto possui uma latência, pois ignora as influências do ambiente e as condições do tráfego. O gráfico abaixo apresenta a relação entre os sistemas e o tempo de latência.
+
Se comparado à outros sistemas com as técnicas de detecção como Histograma de Gradientes Orientados (HOG) ou Regiões de Máxima Estabilidade (MSER), o trabalho proposto possui uma latência muito pequena, pois ignora as influências do ambiente e as condições do tráfego. O gráfico abaixo apresenta a relação entre os sistemas e o tempo de latência.
  
 
<center>[[Imagem:Latencia_TSDR.png|Fonte: Próprio Artigo]]</center>
 
<center>[[Imagem:Latencia_TSDR.png|Fonte: Próprio Artigo]]</center>
Linha 24: Linha 24:
 
''' Desvantagens '''
 
''' Desvantagens '''
  
Apesar de possuir baixa latência, a taxa de acerto do sistema depende totalmente da precisão do GPS utilizado. Caso ocorra o envio de uma posição diferente da posição do veículo, mesmo em dezenas de metros, o sistema pode responder a requisição com uma placa de sinalização incorreta.  
+
Apesar de possuir baixa latência, a taxa de acerto do sistema depende totalmente da precisão do GPS utilizado. Caso ocorra o envio de uma posição diferente da posição do veículo, mesmo em dezenas de metros, o sistema pode responder a requisição com uma placa de sinalização incorreta. Outra questão é que para o perfeito funcionamento do sistema, é requerido um link de boa confiabilidade e taxas de transmissão e recepção aceitáveis.
 
 
Outra questão é que para o perfeito funcionamento do sistema, é requerido um link de boa confiabilidade e taxas de transmissão e recepção aceitáveis.
 
  
 
{{collapse bottom}}
 
{{collapse bottom}}

Edição das 08h53min de 23 de março de 2017

Uma câmera no painel do carro filma (ou tira fotos) da estrada. Via processamento de imagem, as placas de sinalização são detectadas pelo sistema, que emite um aviso ao motorista. Trabalho feito em MATLAB.

Revisão bibliográfica

Sistemas diversos

Anotações do artigo

O trabalho proposto segue uma linha bem diferente dos demais trabalhos feitos anteriormente para o mesmo intuito. Foi um dos primeiros trabalhos a não utilizar técnicas baseadas na visão, ou seja, técnicas que utilizam o processamento de imagens provenientes de câmeras acopladas ao sistema. Por isso, o presente trabalho não está sujeito aos obstáculos enfrentados por estas técnicas como problemas relacionados às condições de tempo, luminosidade, ângulo, etc, que devem ser contornados na detecção e reconhecimento de placas de sinalização.

A técnica utilizada envolve o uso de uma arquitetura Cliente-Servidor da qual o veículo (cliente) envia requisições periódicas contendo informações de posição geográfica (GPS) para uma base de dados (servidor). A base de dados que contém armazenada toda a informação referente as placas de sinalização em uma determinada região (posição geográfica, nome das ruas e uma breve descrição do conteúdo de cada placa) responde a requisição indicando qual placa de sinalização possui maior proximidade no ângulo de deslocamento do veículo.

Vantagens

Se comparado à outros sistemas com as técnicas de detecção como Histograma de Gradientes Orientados (HOG) ou Regiões de Máxima Estabilidade (MSER), o trabalho proposto possui uma latência muito pequena, pois ignora as influências do ambiente e as condições do tráfego. O gráfico abaixo apresenta a relação entre os sistemas e o tempo de latência.

Fonte: Próprio Artigo
Fonte: Próprio Artigo

Desvantagens

Apesar de possuir baixa latência, a taxa de acerto do sistema depende totalmente da precisão do GPS utilizado. Caso ocorra o envio de uma posição diferente da posição do veículo, mesmo em dezenas de metros, o sistema pode responder a requisição com uma placa de sinalização incorreta. Outra questão é que para o perfeito funcionamento do sistema, é requerido um link de boa confiabilidade e taxas de transmissão e recepção aceitáveis.

Via processamento de imagens

Anotações do artigo

O seguinte trabalho propõe um sistema de detecção e reconhecimentos de placas de sinalização dando foco na extração das características das regiões de interesse, especialmente na otimização utilizando o algoritmo Scale-Invariant Feature Transform (SIFT) através do procedimento de análise de componentes principais (Principal Component Analysis - PCA). Na etapa de classificação é utilizada a técnica de Máquinas de Vetores de Suporte (SVM).

SIFT

O SIFT(Scale-Invariant Feature Transform) é uma técnica utilizada para detecção e extração de regiões de interesse que são praticamente invariáveis a mudanças de iluminação, ruído, rotação e escala. Após a detecção das regiões de interesse (chamadas neste trabalho como pontos-chave) em uma imagem, é criado um descritor para cada região. Estes descritores são comparados entre si e possibilita o casamento entre diferentes imagens contendo o mesmo objeto. O algoritmo que executa esta técnica é apresentado pelos seguintes passos:

  • Criação da pirâmide de imagens: O primeiro passo do algoritmo é criação uma pirâmide de imagens ou uma pirâmide Gaussiana. É aplicado sobre a imagem original sucessivas convoluções com um filtro gaussiano de fator σ multiplicado por uma constante k (0,k,2k,...). Essas convoluções irão gerar imagem de resolução menos (ou com efeito blur) formando as denominadas oitavas. A partir das oitavas são gerados os intervalos, onde cada intervalo é a diferença entre duas oitavas (aproximação do Laplaciano da Gaussiana)[1]. A figura 1 abaixo apresenta o espaço de escala e a diferença das Gaussianas. A figura 2 apresenta a aplicação deste processo sobre uma imagem.
PiramideGaussiana.png
Figura 1 - Pirâmide Gaussiana
Fonte: [1]
Filtros gaussiano.png
Extremos max min.png
Figura 2 - Aplicação em uma imagem
Fonte: Próprio artigo
  • Localização dos pontos chaves: Os pontos chaves são encontrados comparando-o com os pontos vizinhos em uma mesma imagem e nas imagens acima e abaixo. O objetivo identificar os pontos máximos (regiões totalmente pretas envoltas por áreas brancas) e pontos mínimos (regiões brancas envoltas por área pretas) dos quais serão utilizados para a próxima etapa e eliminar os pontos ruins, no caso, aqueles que possuem baixo contraste ou são localizados nas arestas[2].
  • Orientação do ponto-chave: É encontrado dentro da área do ponto-chave os gradientes e orientações de cada pixels. Esse valores são acumulados em um histograma de 36 posições. É determinado o ponto máximo do histograma e é atribuído essa orientação para o ponto-chave[2].
  • Criação dos descritores locais: Por fim, para cada ponto chave é estabelecido um descritor para cada ponto-chave. Através de uma janela 16x16 ao redor do ponto, é criado novamente um histograma para cada região. A união destes histogramas unidos em um só vetor de 128 dimensões formará o descritor do ponto-chave[2].

Essas informações extraídas serão utilizadas posteriormente para a classificação.

Análise de Componentes Principais (PCA)

A análise de componentes principais (Principal Component Analysis) é uma técnica estatística que consiste em transformar um conjunto de variáveis em outro conjunto de mesma dimensão denominadas de componentes principais. Os componentes principais apresentam propriedades importantes: cada componente principal é uma combinação linear de todas as variáveis originais, são independentes entre si e estimados com o propósito de reter, em ordem de estimação, o máximo de informação, em termos da variação total contida nos dados [3].

A análise de componentes principais é associada à ideia de redução de massa de dados, com menor perda possível da informação. Procura-se redistribuir a variação observada nos eixos originais de forma a se obter um conjunto de eixos ortogonais não correlacionados.

Esta técnica é utilizada neste trabalho com o objetivo de otimizar a extração das características das regiões de interesse e consequentemente aumentar a precisão dos sistema de detecção e reconhecimento de placas de sinalização.

SVM

Uma Máquina de vetores de suporte (Support vector machine -SVM) é uma técnica de aprendizagem utilizada para classificação de classes binárias. Os resultados da aplicação desta técnica são comparáveis e muitas vezes superiores aos obtidos por outros algoritmos de aprendizado como as Redes Neurais Artificiais (RNAs). Exemplos de aplicações de sucesso podem ser encontradas na categorização de textos, reconhecimento de imagens e na Bioinformática. O objetivo do algoritmo é encontrar a melhor escolha para um hiperplano que classifica os dados de entrada em duas classes distintas. Os fatores mais importantes são as margens entre o hiperplano e os dados adjacentes ao hiperplano, correspondentes à cada classe.

Resultados

Os resultados alcançados estão apresentados pela tabela 1:

Results pca-sift.png
Tabela 1 - Resultados
Fonte: Próprio artigo


Anotações do artigo

A proposta do trabalho é apresentar um sistema para detecção e reconhecimento para placas de sinalização dando foco na comparação entre as principais técnicas de classificação utilizadas atualmente. O sistema é particionado em três principais estágios: segmentação da região de interesse utilizando características de cor (saturação e matiz), análise do formato da placa (círculo, retângulo ou triãngulo) e classificação através de diversas técnicas. Rede neural artificial (ANN), K-Vizinhos Mais Próximos (K-Nearest Neighbor - KNN), Máquina de vetores de suporte (Support Vectores Machine - SVM) e Random Forest (RF) .

Segmentação das cores

O processo de segmentação das cores foi aplicado através de um esquema de binarização, como é apresentado pela tabela 1 abaixo.

Segmentacao cores.png
Tabela 1 - Segmentação das cores
Fonte: Próprio artigo

Análise do formato

Para a análise do formato de cada placa de sinalização, foi aplicado uma técnica denominada Centroid-Based Graph (CBG), da qual resulta na classificação das regiões de interesse em formato de círculo, triângulo e retângulo.

Reconhecimento

Para extrair as características da imagem de uma possível placa de sinalização foi utilizada a técnica denominada Histograma de Gradientes Orientados (HOG). Primeiramente, a imagem é redimensionada em uma área de 100x100 pixels (no caso do trabalho proposto) para manter um equilíbrio entre a precisão do reconhecimento e o processamento envolvido.

O HOG é obtido através de uma densa grade de células normalizadas em relação ao contraste. Cada célula forma um histograma em escala positiva de 8 bits, onde cada posição é relacionada às magnitudes dos pixels pertencentes a cada célula. Através dos valores máximos do histograma, um vetor espacial é obtido e representa a informação que será utilizada posteriormente no processo de classificação.

Classificação

Entre os processos utilizados para classificação estão:

  • Rede Neural Artificial: Modelo matemático inspirado nas redes neurais biológicas. A ANN consiste em um grupo de neurônios artificias separados em camadas e interconectados que processam a informação utilizando um modelo complexo de relacionamento entre as entradas e saídas de cada neurônio com o objetivo de encontrar um padrão entre os dados.
  • K-Vizinhos Mais Próximos: O princípio deste algoritmo é baseado no conceito de que os dados de uma mesma classe possuem características espaciais próximas ou semelhantes. O procedimento básico é, através de probabilidade estatística relacionada à uma distância mínima k, selecionar quais regiões pertencem à uma determinada classe de interesse.
  • Máquina de vetores de suporte (comentada em outros artigos).
  • Random Forest: É um algoritmo computacional de aprendizagem que constrói uma elevada quantidade de árvores de decisão as quais são utilizadas para classificar um novo dado fornecido.

Experimento

O experimento foi realizando utilizando o banco de dados do sistema de placas de sinalização alemão. Deste banco de dados foram extraídas entre 300 à 700 imagens para treinamento ou teste de cada classe. Toda a classificação foi implementada utilizando a plataforma Matlab através de um computador com a seguinte especificação: 3GHz Pentium 4, 2GB RAM e Windows 32 bits.

Resultado da comparação

A comparação das técnicas de classificação foi dividida em dois casos específicos:

  • Caso 1: 75% da imagens seriam utilizadas para treinamento enquanto que o resto seria utilizado para os testes.
  • Caso 2: Todas as imagens de treinamento e de testes seriam utilizadas.

A performance do sistema é apresentado pela tabela 2 (caso 1) e pela tabela 3 (caso 2) abaixo:

Performace caso1.png
Tabela 2 - Resultado para o caso 1
Fonte: Próprio artigo
Performace caso2.png
Tabela 3 - Resultado para o caso 2
Fonte: Próprio artigo

A conclusão feita é que o sistema utilizando a técnica de classificação Random Forest alcançou um nível de precisão bastante elevando, porém gerando grande latência ao sistema. Por outro lado, o sistema utilizando a Rede Neural Artifical, possuindo na maioria dos casos um precisão pobre, conseguiu atingir o menor valor de latência.

Anotações do artigo

Inclua aqui suas anotações

Anotações do artigo

Inclua aqui suas anotações

Anotações do artigo

Inclua aqui suas anotações

Anotações do artigo

Inclua aqui suas anotações

Anotações do artigo

Inclua aqui suas anotações

Anotações do artigo

Inclua aqui suas anotações

Anotações do artigo

Inclua aqui suas anotações

Anotações do artigo

Inclua aqui suas anotações

Referências

  1. 1,0 1,1 COUTINHO, D.P.; MARROQUIM R. SIFT - Scale Invariant Feature Transform. LCG Computer Graphics Lab, Universidade Federal do Rio de Janeiro, 2013
  2. 2,0 2,1 2,2 BELO, F. A. Desenvolvimento de Algoritmos de Exploração e Mapeamento Visual para Robôs Móveis de Baixo Custo. Diss. PUC-Rio, 2006.
  3. VARELLA, C. A. Análise de componentes principais. Universidade Federal Rural do Rio de Janeiro, Seropédica, 2008