LINGUAGEM R MOD3

De MediaWiki do Campus São José
Ir para navegação Ir para pesquisar

Algoritmos de Machine Learning

DESTAQUE
Ao final deste módulo, você deverá ser capaz de classificar alguns algoritmos de regressão, classificação e clusterização relacionados à machine learning. Além disso, você também desenvolverá aptidão para classificar as técnicas e etapas de construção do modelo preditivo de machine learning e seus principais conceitos.
Machine learning ou aprendizagem de máquina é uma representação que tem como objetivo criar um modelo a partir de dados históricos para generalizar decisões.
PERGUNTA
Mas o que vem a ser um modelo nesse contexto?
RESPOSTA
Modelo é uma representação dos relacionamentos existentes nos dados por meio de uma fórmula matemática.

Antes de estudarmos os algoritmos, vamos aprender alguns termos utilizados para se referir a partes específicas de um conjunto de dados.

Instâncias ou observações
São as linhas do dataset.
Variável resposta/dependente, classe, label ou target
É a variável/coluna que se quer prever.
Features, atributos, dimensões ou variáveis independentes/explicativas
São colunas do dataset que podem ser utilizadas para prever a variável target.

A imagem a seguir ilustra alguns conceitos fundamentais para darmos continuidade ao nosso estudo.

Fig08 LINGUAGEM R.png

Fonte: Raschka (2015).

Após aprendermos alguns conceitos importantes relacionados aos algoritmos de machine learning, vamos estudá-los mais detalhadamente.


Já entendemos que um modelo é uma representação dos dados. Uma vez criado, podemos utilizá- lo em novos conjuntos de dados para realizar predições. Agora, você vai conhecer a relação do modelo com os algoritmos de machine learning. Os algoritmos de machine learning são aplicados a um conjunto de dados com objetivo de identificar os relacionamentos existentes e gerar um modelo a partir desses dados. Existem diversos algoritmos que podem ser utilizados em machine learning. Normalmente, são agrupados em duas categorias:

  1. Tipo de aprendizagem: supervisionada, não supervisionada e outros.
  2. Categorias de problemas: classificação, regressão, agrupamento, entre outros.

Primeiramente, vamos conhecer os algoritmos de aprendizagem supervisionada, a saber: regressão linear, KNN e árvores de decisão. Posteriormente, vamos verificar o objetivo do K-means, algoritmo de aprendizagem não supervisionada e, por último, apresentaremos uma lista com vários outros algoritmos de machine learning com a identificação do problema e a classificação quanto ao tipo de aprendizagem que o utiliza.

Algoritmos de aprendizagem supervisionada

Na aprendizagem supervisionada, a predição é estimada com base na relação entre os dados de entrada (features) e os dados de saída (variável resposta). Para cada entrada, é apresentado o resultado esperado. O algoritmo é responsável por mapear uma função que descreve os padrões ocultos nos dados. Para esse tipo de aprendizagem, são necessários dados rotulados, que são os dados de entrada associados com o resultado esperado. A função mapeada pelo algoritmo é utilizada para prever novos valores quando apresentada a novos conjuntos de dados. A aprendizagem supervisionada pode ser utilizada para resolver problemas de classificação e regressão. A classificação tem como resultado uma saída categórica/discreta. Já a regressão tem como resultado uma saída numérica. Vamos agora conhecer alguns algoritmos de aprendizagem supervisionada:

Regressão Linear

A análise de regressão simples estuda o relacionamento entre a variável dependente y (variável resposta) e a variável independente x (variável explicativa). O objetivo é prever o valor de uma variável contínua. A regressão linear assume que existe uma relação linear entre a variável resposta e a variável explicativa. Acompanhe no gráfico a seguir a representação de uma regressão linear:

Fig09 LINGUAGEM R.png

Fonte: Raschka (2015).

De acordo com a imagem, o valor de y é calculado com a seguinte fórmula:

W e B são os parâmetros do modelo, onde W = weight e B = bias.

Dessa forma, o treinamento de um modelo basicamente consiste em estimar os valores de W e B. Após o modelo encontrar os melhores valores com base em uma métrica de avaliação, é possível realizar as previsões. Considere uma base composta por dados de estudantes, tais como: horas de estudo por dia, quantidade de faltas e nota final. A partir de uma grande quantidade de dados históricos, é possível apresentar esses dados a um algoritmo, criar um modelo e utilizá-lo para prever a nota final de outros alunos, conforme a seguinte tabela:

Tabela: Previsão de nota dos alunos

Aluno Horas de Estudo Faltas Nota Final
A 4 2 7,0
B 2 5 5,0
C 6 0 9,5

Fonte: Elaborado pelo autor.

Referências


Icone voltar.png Icone menu.png Icone prox.png