Processamento de imagens, parte 1: O que é um classificador de imagens e o que fazer com ele

Compartilhe!
A classificação de imagens está no centro de muitos produtos e recursos populares – desde a marcação de fotos do Facebook até o carro autônomo da Tesla. Este artigo fornece uma introdução aos classificadores de imagens e por que eles são importantes.

As diferentes formas de processar uma imagem

Existem diferentes maneiras de processar imagens e a classificação de imagens é uma das três principais:

  • Classificação da imagem: Qual é o tipo da imagem? Produz uma classe, por exemplo, “cachorro” ou “gato” – mais sobre isso depois.
  • Detecção de objeto: onde está o objeto? O modelo exibe as coordenadas de uma chamada “caixa delimitadora” ao redor do objeto a ser encontrado na imagem. É utilizado se já sabe que está à procura de cães e quer saber se a imagem específica retrata um cão e, em caso afirmativo, onde se encontra. Casos de uso comuns são o corte de retratos ou a captura de informações importantes em imagens.
  • Segmentação de imagem: qual é a forma do objeto? O modelo cria uma máscara em pixels para cada objeto na imagem. A segmentação de imagens fornece informações mais detalhadas sobre tamanho e forma. Embora os modelos tendam a ser mais caros computacionalmente, eles são freqüentemente usados ​​para melhorar a eficiência do sistema como um todo: os algoritmos podem continuar processando apenas as partes relevantes de uma imagem. Por exemplo, um ID de rosto de telefones inteligentes deve apenas analisar linhas e formas dentro do formato do rosto, não do fundo.
Exemplos das principais técnicas de processamento de imagem

O que é classificação de imagem?

Imagine o exemplo clássico: você recebe um conjunto de imagens, cada uma das quais retrata um gato ou um cachorro. Em vez de rotular todas as imagens por conta própria, você deseja usar um algoritmo para fazer o trabalho para você: ele “olha” a imagem inteira e gera probabilidades para cada uma das classes nas quais foi treinado.

Isso geralmente é possível por meio do treinamento de redes neurais, que descrevemos com mais detalhes em outros artigos. (Nota: Existem outras técnicas, mas não desempenham um papel na prática devido ao desempenho.) Tal como em outras aplicações de aprendizagem supervisionada, a rede é alimentada com dados de treino suficientes – nomeadamente imagens rotuladas de gatos e cães.

O que acontece entre a imagem e a saída é um tanto obscuro e entraremos em maiores detalhes em outros posts. Mas, em termos simples, a maioria das redes decompõe a imagem em formas e cores abstratas, que servem para formar uma hipótese sobre o conteúdo da imagem.

Os classificadores de imagens processam imagens por meio de várias camadas de sua rede neural.

Caso você queira se aprofundar, estamos vinculando alguns recursos no final deste artigo.

Aplicações para classificação de imagens

As pessoas (incluindo nós) continuam usando o exemplo de rotular fotos de cães e gatos, mas há muito mais potencial nessa tecnologia do que isso. Eles estabelecem a base para muitas das grandes coisas de que a visão computacional é capaz, e estamos examinando algumas delas.

Mecanismos de pesquisa visual nº 1

Os motores de busca tornaram-se parte integrante da vida da maioria das pessoas. Nós digitamos palavras-chave e obtemos resultados significativos, personalizados de acordo com o que procurávamos.

Graças aos classificadores de imagem, o mesmo funciona para a pesquisa visual.

Entre os motores de busca visual mais populares estão grandes jogadores como Google e Bing. Mas também existem alguns jogadores especializados, como TinEye e Picsearch.

No negócio de fotografia, os mecanismos de busca visual reúnem colaboradores e compradores de fotos, tornando o conteúdo visual detectável por meio da busca por palavras-chave. Além disso, as sugestões automáticas de palavras-chave permitem que os colaboradores adicionem um grande número de palavras-chave precisas em pouco tempo.

Um mecanismo de pesquisa visual atende a vários casos de uso:

  • Encontre imagens com base em palavras-chave : a pesquisa clássica de imagens do Google. Um usuário digita palavras-chave e obtém as imagens correspondentes como saída.
  • Obter informações sobre uma imagem específica: um usuário insere uma imagem e obtém informações (texto e visual) dessa imagem. Insira, por exemplo, a imagem de um edifício desconhecido. O mecanismo de pesquisa fornece informações sobre o nome e a localização daquele edifício específico.
  • Encontre imagens semelhantes: um usuário insere uma imagem e obtém imagens semelhantes. Imagine, por exemplo, ter uma foto do seu ator favorito. Alimentando um mecanismo de busca visual com essa imagem, você obtém toneladas de mais fotos do seu ator favorito – em todos os tipos de configurações e locais.

Na visualização abaixo você pode ver os resultados da pesquisa do google “cachorro marrom”:

O Google é um dos principais motores de busca visual.

O mecanismo de busca visual (neste caso, o Google) fornece imagens que correspondem à solicitação de pesquisa ( encontre imagens com base em palavras-chave). A página de resultados mostra as imagens que um classificador de imagens marcou com as classes “marrom” e “cachorro”.

Mas não para por aqui. Ao clicar na imagem superior esquerda, o algoritmo mostra imagens adicionais à direita ( localizar imagens semelhantes ). Nos bastidores, um classificador de imagens escaneou todas as imagens em seu banco de dados, por exemplo, para cor, forma, tamanho. Os algoritmos então calcularam o quanto eles correspondem à imagem clicada no canto superior esquerdo.

Como você pode ver, os cães nas imagens resultantes são muito semelhantes: eles têm a mesma cor de pelo marrom escuro e seus rostos têm formato e tamanho semelhantes.

Nº 2 Detecção de logotipo: permitindo que as marcas façam “escuta visual”

As marcas de consumo precisam saber o que está acontecendo nas redes sociais, pois elas fornecem dicas valiosas sobre o comportamento do cliente. Alguns exemplos de perguntas são: A última campanha de marketing aumentou as menções à marca? Como as pessoas interagem com a marca? Quem são as pessoas que postam sobre a marca? O que eles escrevem sobre isso e por quê?

Para controlar isso, as marcas monitoram as postagens de texto em busca de menções à marca. O fabricante de roupas esportivas adidas, por exemplo, rastrearia qualquer postagem incluindo a palavra “adidas”. Esse método de marketing é chamado de escuta social .

O problema, porém, é evidente: na maioria das vezes, as pessoas postam sobre uma marca sem mencionar o nome da marca. Eles podem usar os mais novos tênis de corrida da Adidas e fazer uma declaração sobre isso, mas não o diga explicitamente na legenda da imagem. A escuta social não consegue acompanhar isso – mas a escuta visual pode.

Um usuário do Facebook postando uma imagem com tênis adidas - sem mencionar a adidas em formato de texto.
Um usuário do Facebook postando uma imagem com tênis adidas – sem mencionar a adidas em formato de texto.

As classificações de imagem permitem que as marcas também ouçam o conteúdo visual. Ao escanear as imagens, os classificadores de imagens podem detectar menções visuais à marca. Em analogia à escuta social, esse processo é denominado escuta visual .

Ao analisar dados visuais e de texto, as marcas podem agora conduzir análises de mídia social com mais precisão. Por exemplo, ao analisar os metadados geográficos e demográficos das postagens, eles podem estimar sua participação no mercado em diferentes segmentos de clientes.

A audição visual também permite que as marcas calculem o sucesso de campanhas de marketing difíceis de quantificar, como o patrocínio de eventos esportivos. Tomemos novamente a adidas que é, por exemplo, patrocinadora da Copa do Mundo FIFA. Por meio da audição visual, eles podem estimar melhor seu aumento no conhecimento da marca por meio dessa campanha específica.

A audição visual ainda contribui para a proteção da marca. A tecnologia pode, por exemplo, detectar o uso fraudulento de logotipos.

# 3 Reconhecimento facial: Substituição do cartão de embarque nos aeroportos

Já falamos sobre o Face ID da Apple acima, mas há mais aplicativos que já aprimoram nossas vidas diárias, especialmente em aeroportos modernos.

Nos aeroportos, o reconhecimento facial tem o potencial de substituir o cartão de embarque. A tecnologia reconhece os rostos dos passageiros e os associa a vários bancos de dados para verificar sua identidade e dados de voo.

Além de uma experiência aprimorada para o viajante, o potencial de economia de tempo é enorme. A Lufthansa, por exemplo, conduziu uma fase de testes em vários aeroportos dos EUA em 2018. De acordo com a empresa, demorou apenas 22 minutos para embarcar em um Airbus A380 com 350 passageiros, reduzindo os 40 minutos regulares quase pela metade.

Embarque biométrico da Lufthansa no aeroporto de Miami (créditos da imagem: airport-technology.com )

Além de um processamento mais rápido, a tecnologia de reconhecimento facial ajuda a melhorar a segurança. De acordo com o US Customs and Border Protection (CBP), o reconhecimento facial pode competir por verificações de segurança com “maior consistência e precisão” em comparação com os pontos de verificação presenciais.

Com essa enorme economia de tempo e potencial de segurança, parece ser apenas uma questão de tempo até que o embarque biométrico se torne um padrão.

Resumo

O que acabamos de discutir:

  • A classificação de imagens pertence ao campo da visão computacional e descreve o processo de rotular uma imagem de acordo com seu conteúdo visual.
  • A detecção de objetos é usada para identificar a localização de um objeto; os algoritmos geram uma caixa retangular delimitadora em torno do objeto correspondente.
  • A segmentação da imagem fornece informações mais detalhadas sobre as formas por meio de uma máscara em pixels para cada objeto na imagem.
  • A classificação de imagens é aplicada em uma ampla gama de setores e funcionalidades. Alguns dos incontáveis ​​casos de uso: Classificadores de imagens automatizam e aprimoram a marcação de imagens, permitem que as marcas façam “escuta visual”, substituem cartões de embarque em aeroportos e são a espinha dorsal dos mecanismos de busca visual.

Créditos: levity

Compartilhe!