Mudanças entre as edições de "LINGUAGEM R MOD3"
Linha 123: | Linha 123: | ||
próximos. Quando um novo dado é apresentado ao algoritmo, ele irá classificá-lo com base nos | próximos. Quando um novo dado é apresentado ao algoritmo, ele irá classificá-lo com base nos | ||
exemplos mais próximos apresentados na fase de treinamento. | exemplos mais próximos apresentados na fase de treinamento. | ||
+ | |||
+ | <center> | ||
+ | [[Imagem:fig10_LINGUAGEM_R.png|500px|border]] | ||
+ | |||
+ | '''Fonte''': Raschka (2015). | ||
+ | |||
+ | </center> | ||
+ | |||
+ | |||
+ | O parâmetro k representa a quantidade de vizinhos mais próximos que deve ser considerada pelo | ||
+ | algoritmo. Analisando o gráfico apresentado e considerando o valor de k = 3, temos que o novo | ||
=Referências= | =Referências= |
Edição das 15h48min de 17 de junho de 2024
Algoritmos de Machine Learning
- DESTAQUE
- Ao final deste módulo, você deverá ser capaz de classificar alguns algoritmos de regressão, classificação e clusterização relacionados à machine learning. Além disso, você também desenvolverá aptidão para classificar as técnicas e etapas de construção do modelo preditivo de machine learning e seus principais conceitos.
- Machine learning ou aprendizagem de máquina é uma representação que tem como objetivo criar um modelo a partir de dados históricos para generalizar decisões.
- PERGUNTA
- Mas o que vem a ser um modelo nesse contexto?
- RESPOSTA
- Modelo é uma representação dos relacionamentos existentes nos dados por meio de uma fórmula matemática.
Antes de estudarmos os algoritmos, vamos aprender alguns termos utilizados para se referir a partes específicas de um conjunto de dados.
- Instâncias ou observações
- São as linhas do dataset.
- Variável resposta/dependente, classe, label ou target
- É a variável/coluna que se quer prever.
- Features, atributos, dimensões ou variáveis independentes/explicativas
- São colunas do dataset que podem ser utilizadas para prever a variável target.
A imagem a seguir ilustra alguns conceitos fundamentais para darmos continuidade ao nosso estudo.
Fonte: Raschka (2015).
Após aprendermos alguns conceitos importantes relacionados aos algoritmos de machine learning, vamos estudá-los mais detalhadamente.
Já entendemos que um modelo é uma representação dos dados. Uma vez criado, podemos utilizá- lo em novos conjuntos de dados para realizar predições. Agora, você vai conhecer a relação do modelo com os algoritmos de machine learning. Os algoritmos de machine learning são aplicados a um conjunto de dados com objetivo de identificar os relacionamentos existentes e gerar um modelo a partir desses dados. Existem diversos algoritmos que podem ser utilizados em machine learning. Normalmente, são agrupados em duas categorias:
- Tipo de aprendizagem: supervisionada, não supervisionada e outros.
- Categorias de problemas: classificação, regressão, agrupamento, entre outros.
Primeiramente, vamos conhecer os algoritmos de aprendizagem supervisionada, a saber: regressão linear, KNN e árvores de decisão. Posteriormente, vamos verificar o objetivo do K-means, algoritmo de aprendizagem não supervisionada e, por último, apresentaremos uma lista com vários outros algoritmos de machine learning com a identificação do problema e a classificação quanto ao tipo de aprendizagem que o utiliza.
Algoritmos de aprendizagem supervisionada
Na aprendizagem supervisionada, a predição é estimada com base na relação entre os dados de entrada (features) e os dados de saída (variável resposta). Para cada entrada, é apresentado o resultado esperado. O algoritmo é responsável por mapear uma função que descreve os padrões ocultos nos dados. Para esse tipo de aprendizagem, são necessários dados rotulados, que são os dados de entrada associados com o resultado esperado. A função mapeada pelo algoritmo é utilizada para prever novos valores quando apresentada a novos conjuntos de dados. A aprendizagem supervisionada pode ser utilizada para resolver problemas de classificação e regressão. A classificação tem como resultado uma saída categórica/discreta. Já a regressão tem como resultado uma saída numérica. Vamos agora conhecer alguns algoritmos de aprendizagem supervisionada:
- Regressão Linear
A análise de regressão simples estuda o relacionamento entre a variável dependente y (variável resposta) e a variável independente x (variável explicativa). O objetivo é prever o valor de uma variável contínua. A regressão linear assume que existe uma relação linear entre a variável resposta e a variável explicativa. Acompanhe no gráfico a seguir a representação de uma regressão linear:
Fonte: Raschka (2015).
De acordo com a imagem, o valor de y é calculado com a seguinte fórmula:
W e B são os parâmetros do modelo, onde W = weight e B = bias.
Dessa forma, o treinamento de um modelo basicamente consiste em estimar os valores de W e B. Após o modelo encontrar os melhores valores com base em uma métrica de avaliação, é possível realizar as previsões. Considere uma base composta por dados de estudantes, tais como: horas de estudo por dia, quantidade de faltas e nota final. A partir de uma grande quantidade de dados históricos, é possível apresentar esses dados a um algoritmo, criar um modelo e utilizá-lo para prever a nota final de outros alunos, conforme a seguinte tabela:
Tabela: Previsão de nota dos alunos
Aluno | Horas de Estudo | Faltas | Nota Final |
---|---|---|---|
A | 4 | 2 | 7,0 |
B | 2 | 5 | 5,0 |
C | 6 | 0 | 9,5 |
Fonte: Elaborado pelo autor.
- KNN
O K-Nearest Neighbors (KNN) é um algoritmo de classificação que se baseia nos vizinhos mais próximos. Quando um novo dado é apresentado ao algoritmo, ele irá classificá-lo com base nos exemplos mais próximos apresentados na fase de treinamento.
Fonte: Raschka (2015).
O parâmetro k representa a quantidade de vizinhos mais próximos que deve ser considerada pelo
algoritmo. Analisando o gráfico apresentado e considerando o valor de k = 3, temos que o novo