aprendizagem por reforço

Um guia para iniciantes sobre como as máquinas aprendem (Machine Learning)

Compartilhe!

Machine Learning

Introdução

Depois de entrar na inteligência artificial e no aprendizado de máquina, não há como evitar três termos:

  • Aprendizagem supervisionada
  • Aprendizagem não supervisionada
  • Aprendizagem por reforço

Essas são as três maneiras mais comuns de como as máquinas podem aprender, portanto, compreender seu significado e diferenças é importante saber ao começar a usar inteligência artificial. Se você é novo no campo, recomendamos que leia primeiro sobre as diferentes disciplinas da inteligência artificial .

Aprendizado de máquina no contexto de IA

Ilustração: Aprendizado de Máquina é um subconjunto da Inteligência Artificial.  Existem três tipos de AM: Aprendizagem Supervisionada, Aprendizagem Não Supervisionada e Aprendizagem por Reforço.
Aprendizado de máquina é um subconjunto da Inteligência Artificial. Existem três tipos de AM: Aprendizagem Supervisionada, Aprendizagem Não Supervisionada e Aprendizagem por Reforço.

O aprendizado de máquina é um subconjunto da inteligência artificial geral e o termo geral para quando os computadores aprendem com os dados. Ele descreve a interseção da ciência da computação e estatística, onde algoritmos são usados ​​para realizar uma tarefa específica sem serem explicitamente programados; em vez disso, eles reconhecem padrões nos dados e fazem previsões assim que novos dados chegam. Eventualmente, é a forma de aprendizagem mais frequentemente usada para categorizar o aprendizado de máquina em três categorias amplas: aprendizado supervisionado, aprendizado não supervisionado e aprendizado por reforço.

Três formas de aprendizado de máquina

Aprendizagem supervisionada

A aprendizagem supervisionada faz uso de uma relação conhecida entre entrada e saída. É aqui que os dados rotulados entram em jogo: o objetivo do algoritmo é aprender com as “respostas corretas” nos dados de treinamento e usar os insights para fazer previsões ao receber novos dados de entrada.

Existem duas tarefas principais de aprendizagem supervisionada:

  • Regressão: preveja um valor numérico contínuo. Exemplo: “Quanto tempo você levará para voltar do trabalho para casa de acordo com a distância, o trânsito, o horário e o dia da semana?”
  • Classificação: atribua um rótulo. Exemplo: “Esta é a foto de um carro ou caminhão?”

Para ver como os algoritmos supervisionados funcionam, vamos dar uma olhada em um exemplo simples de classificação de imagens : imagine que você recebeu um conjunto de imagens, cada uma das quais retrata um carro ou um caminhão. Em vez de rotular as imagens por conta própria, você deseja construir um algoritmo que faça o trabalho para você.

  1. Crie um conjunto de dados rotulados, ou seja, dados “corretos” com informações de entrada e saída: fotos de carros e caminhões, cada um com os nomes de classe correspondentes.
  2. Alimente o modelo com o conjunto de dados de treinamento rotulado: o algoritmo de aprendizado de máquina começa a “ver” padrões entre a entrada (imagem) e a saída (classe). O algoritmo pode aprender relações complexas como “a distância entre as rodas é maior para caminhões” – observe que, na realidade, geralmente é difícil interpretar algoritmos dessa forma.
  3. Teste o modelo em dados não vistos e meça a precisão com que ele prevê a aula.

O termo aprendizagem supervisionada decorre do fato de que, no início, demos ao algoritmo um conjunto de dados no qual as “respostas corretas” eram dadas. Esta é a principal diferença para o aprendizado não supervisionado.

Aprendizagem não supervisionada

Enquanto a aprendizagem supervisionada requer pares de entrada-saída (ou dados rotulados ) para aprender, algoritmos de aprendizagem não supervisionada usam apenas dados de entrada ( dados não rotulados ). Embora um pouco menos intuitivo, esse método de aprendizado é adequado para problemas em que temos pouca ou nenhuma ideia de como nossos resultados devem ser. O objetivo é adquirir conhecimento e encontrar estrutura nos dados.

Considere, por exemplo, uma lista de clientes de uma empresa (dados de entrada). O CEO de uma empresa deseja entender melhor seus clientes, mas ainda não sabe que tipo de segmentos de clientes existem (sem dados de saída). Por meio do aprendizado não supervisionado, o algoritmo descobriria automaticamente e agruparia clientes em diferentes segmentos de clientes.

O objetivo do aprendizado supervisionado é fazer previsões com base em um conjunto de treinamento de dados rotulados.  O objetivo do aprendizado não supervisionado é agrupar dados não rotulados.
O objetivo do aprendizado supervisionado é fazer previsões com base em um conjunto de treinamento de dados rotulados. O objetivo do aprendizado não supervisionado é agrupar dados não rotulados.

A diferença entre supervisionado e não supervisionado fica evidente na visualização acima. Enquanto para a aprendizagem supervisionada já sabemos que existem duas categorias (círculo e cruz ) que não fazemos na aprendizagem não supervisionada. Em vez disso, é tarefa do aprendizado não supervisionado descobrir esses dois clusters.

Aprendizagem por reforço

Na aprendizagem por reforço, o algoritmo (neste contexto também conhecido como agente ) aprende por tentativa e erro usando feedback para suas próprias ações. Recompensas e punições funcionam como sinais de comportamento desejado e indesejado.

O melhor contexto para entender a aprendizagem por reforço é em um jogo com um objetivo claro e um sistema de pontos. Imagine a seguinte configuração de jogo, na qual um rato (o agente) tenta maximizar suas recompensas em um labirinto.

Um rato tentando maximizar suas recompensas em um labirinto é uma boa representação do aprendizado por reforço. (Créditos da imagem:  Chaitanya Sagarundefined )

No final do labirinto aguarda a recompensa final de +1.000 pontos: queijo. Ao longo do caminho existem recompensas menores, em forma de água, no valor de +50 pontos, bem como choques elétricos resultando em -100 pontos. Por meio de recompensas e punições, o mouse obtém feedback positivo e negativo sobre seu comportamento e aprende com sua própria experiência.

Você pode perguntar: Como a aprendizagem por reforço se compara à aprendizagem supervisionada e não supervisionada?

Semelhante ao aprendizado supervisionado, o algoritmo mapeia a entrada e a saída. A diferença é que não há dados de treinamento rotulados: enquanto algoritmos de aprendizagem supervisionada precisam ser alimentados com “respostas corretas” (ou seja, dados rotulados) no início, a aprendizagem por reforço usa recompensas e punições como sinais para comportamento desejado e indesejado. Se você tiver inclinação para a matemática, o aprendizado por reforço está maximizando sua função de recompensa, enquanto os outros estão minimizando a perda (ou seja, previsões erradas).

Comparado ao aprendizado não supervisionado, o aprendizado por reforço é diferente em termos de objetivos. Enquanto o objetivo do aprendizado não supervisionado é encontrar clusters em seus dados (por exemplo, segmentos de clientes), o aprendizado por reforço busca encontrar um modelo de ação adequado que maximize a recompensa cumulativa total do agente.

O aprendizado por reforço é amplamente utilizado na construção de IA para jogos de computador. Um exemplo importante é o programa de computador do Google AlphaGo Zero. Ele recebeu grande atenção da mídia ao derrotar o campeão mundial sul-coreano no antigo jogo chinês Go – um feito que costumava ser considerado fora do alcance até mesmo dos programas de computador mais sofisticados.

Resumo

Para resumir brevemente os diferentes tipos de aprendizado de máquina:

  • O aprendizado de máquina é o campo de estudo que dá aos computadores a capacidade de aprender sem serem explicitamente programados.
  • Aprendizagem supervisionada, aprendizagem não supervisionada e aprendizagem por reforço são as três grandes categorias de aprendizagem de máquina.
  • Na aprendizagem supervisionada, já sabemos que existe uma relação entre entrada e saída e, portanto, alimentamos o algoritmo com dados rotulados. O objetivo é fazer previsões ao receber novos dados de entrada.
  • Na aprendizagem não supervisionada, não sabemos necessariamente as relações entre as variáveis ​​no conjunto de dados. O objetivo do algoritmo é obter conhecimento e encontrar estrutura.
  • Na aprendizagem por reforço, o algoritmo aprende por tentativa e erro em um ambiente interativo usando feedback de suas próprias ações. O objetivo de maximizar as recompensas de longo prazo direciona o processo de tomada de decisão.

Créditos: https://www.levity.ai/blog/what-is-an-image-classifier

Compartilhe!