Mudanças entre as edições de "Reconhecimento de Placas de Sinalização Via Processamento Digital de Imagem e Aprendizado de Máquina"

De MediaWiki do Campus São José
Ir para navegação Ir para pesquisar
Linha 58: Linha 58:
 
<center>[[Imagem:Hog.png‎|200px|Substração das Imagens Filtradas]]</center>
 
<center>[[Imagem:Hog.png‎|200px|Substração das Imagens Filtradas]]</center>
  
Com estas informações é possível estabelecer um conjunto de coordenadas contendo posição horizontal(x), vertical(y), desvio padrão de maior resposta e orientação do gradiente para cada ponto chave. Uma matriz 16x16 é formada contendo as informações de todos os pontos chaves e será utilizada posteriormente para a classificação.
+
Com estas informações é possível estabelecer um conjunto de coordenadas contendo posição horizontal(x), vertical(y), desvio padrão de maior resposta e orientação do gradiente para cada ponto chave. Uma matriz 16x16 é formada contendo as informações de todos os pontos chaves e será utilizada para a formação dos descritores. A matriz é então, divida em 4 regiões, cada região é relacionada à um descritor. O descritor é representado por um vetor, onde cada valor do vetor é referente a uma das direções de um dos histogramas. Este processo é apresentado pela figura abaixo:
 +
 
 +
<center>[[Imagem:Descritores.png‎|500px|Matriz de Histogramas e Descritores]]</center>
 +
 
 +
 
  
  

Edição das 09h07min de 21 de março de 2017

Uma câmera no painel do carro filma (ou tira fotos) da estrada. Via processamento de imagem, as placas de sinalização são detectadas pelo sistema, que emite um aviso ao motorista. Trabalho feito em MATLAB.

Revisão bibliográfica

Sistemas diversos

Anotações do artigo

O trabalho proposto segue uma linha bem diferente dos demais trabalhos feitos anteriormente para o mesmo intuito. Foi um dos primeiros trabalhos a não utilizar técnicas baseadas na visão, ou seja, técnicas que utilizam o processamento de imagens provenientes de câmeras acopladas ao sistema. Por isso, o presente trabalho não está sujeito aos obstáculos enfrentados por estas técnicas como problemas relacionados às condições de tempo, luminosidade, ângulo, etc, que devem ser contornados na detecção e reconhecimento de placas de sinalização.

A técnica utilizada envolve o uso de uma arquitetura Cliente-Servidor da qual o veículo (cliente) envia requisições periódicas, contendo informações de posição geográfica (GPS), para uma base de dados (servidor). A base de dados que contém armazenada toda a informação referente as placas de sinalização em uma determinada região incluindo: posição geográfica, nome das ruas e uma breve descrição do conteúdo de cada placa, responde a requisição indicando qual placa de sinalização possui maior proximidade no ângulo de deslocamento do veículo. Para isso, o lado servidor aplica um algoritmo de filtragem que utiliza o deslocamento do veículo para extrair a placa que mais se adequa à situação.

Vantagens

Se comparado à outros sistemas com as técnicas de detecção como Histograma de Gradientes Orientados (HOG) ou Regiões de Máxima Estabilidade (MSER), o trabalho proposto possui uma latência, pois ignora as influências do ambiente e as condições do tráfego. O gráfico abaixo apresenta a relação entre os sistemas e o tempo de latência.

Fonte: Próprio Artigo
Fonte: Próprio Artigo

Desvantagens

Apesar de possuir baixa latência, a taxa de acerto do sistema depende totalmente da precisão do GPS utilizado. Caso ocorra o envio de uma posição diferente da posição do veículo, mesmo em dezenas de metros, o sistema pode responder a requisição com uma placa de sinalização incorreta.

Outra questão é que para o perfeito funcionamento do sistema, é requerido um link de boa confiabilidade e taxas de transmissão e recepção aceitáveis.

Via processamento de imagens

Anotações do artigo

O seguinte trabalho propõe um algoritmo que pode ser divido em três partes: pré-processamento da imagem, extração das características e classificação. O intuito do trabalho é apresentar, na parte de extração das características, uma otimização do algoritmo Scale-Invariant Feature Transform (SIFT) desenvolvido sobre um computador PCA.

Pré-processamento

O pré-processamento é a utilização de métodos que alteram as características da imagem (pixels) com objetivo de aumentar a qualidade da imagem e proporcionar uma maior precisão ao sistema. Entre os principais métodos para o pré-processamento da imagem estão: mudança para escala cinza, equalização do histograma, filtros e correção de Gama.

SIFT

O SIFT é uma técnica utilizada para detecção e extração de descritores de imagem que são praticamente invariáveis a mudanças de iluminação, ruído, rotação e escala aplicado em uma imagem. O algoritmo que executa esta técnica é apresentado pelos seguintes passos:

  • Detecção dos contornos: É aplicado a imagem original sucessivas convoluções com um filtro Gaussiano, essas sucessivas convoluções geram imagens com efeito de blur proporcional ao valor do desvio padrão vezes um fator k (0,k,2k...). A figura abaixo apresenta as sucessivas aplicações desse filtro:
Convolução com Filtro Gaussiano

Após este processo, é feito uma subtração entre as imagens de escala vizinha, ou seja, é destacado as bordas conforme é apresentado na imagem abaixo.

Substração das Imagens Filtradas
  • Localização dos pontos chaves: Cada nova imagem gerada é então comparada entre as demais, gerando os denominados pontos chaves. O objetivo identificar os pontos máximos (regiões totalmente pretas envoltas por áreas brancas) e pontos mínimos (regiões brancas envoltas por área pretas) dos quais serão utilizados para a próxima etapa.
  • Criação dos descritores locais: Após a localização dos pontos chave, é obtido para cada região relacionada um histograma de gradiente orientados (HOG), do qual representa a frequência das intensidades dos pixels de cada região. Para cada histograma é atribuído um vetor espacial que é direcionado para o pico de intensidades, como é apresentado pela figura abaixo.
Substração das Imagens Filtradas

Com estas informações é possível estabelecer um conjunto de coordenadas contendo posição horizontal(x), vertical(y), desvio padrão de maior resposta e orientação do gradiente para cada ponto chave. Uma matriz 16x16 é formada contendo as informações de todos os pontos chaves e será utilizada para a formação dos descritores. A matriz é então, divida em 4 regiões, cada região é relacionada à um descritor. O descritor é representado por um vetor, onde cada valor do vetor é referente a uma das direções de um dos histogramas. Este processo é apresentado pela figura abaixo:

Matriz de Histogramas e Descritores



Anotações do artigo

Inclua aqui suas anotações

Anotações do artigo

Inclua aqui suas anotações

Anotações do artigo

Inclua aqui suas anotações

Anotações do artigo

Inclua aqui suas anotações

Anotações do artigo

Inclua aqui suas anotações

Anotações do artigo

Inclua aqui suas anotações

Anotações do artigo

Inclua aqui suas anotações

Anotações do artigo

Inclua aqui suas anotações

Anotações do artigo

Inclua aqui suas anotações