LINGUAGEM R MOD3
Preparação do Ambiente de Análise de Dados
- DESTAQUE
- Ao final deste módulo, você deverá ser capaz de classificar alguns algoritmos de regressão, classificação e clusterização relacionados à machine learning. Além disso, você também desenvolverá aptidão para classificar as técnicas e etapas de construção do modelo preditivo de machine learning e seus principais conceitos.
- Machine learning ou aprendizagem de máquina é uma representação que tem como objetivo criar um modelo a partir de dados históricos para generalizar decisões.
- PERGUNTA
- Mas o que vem a ser um modelo nesse contexto?
- RESPOSTA
- Modelo é uma representação dos relacionamentos existentes nos dados por meio de uma fórmula matemática.
Antes de estudarmos os algoritmos, vamos aprender alguns termos utilizados para se referir a partes específicas de um conjunto de dados.
- Instâncias ou observações
- São as linhas do dataset.
- Variável resposta/dependente, classe, label ou target
- É a variável/coluna que se quer prever.
- Features, atributos, dimensões ou variáveis independentes/explicativas
- São colunas do dataset que podem ser utilizadas para prever a variável target.
A imagem a seguir ilustra alguns conceitos fundamentais para darmos continuidade ao nosso estudo.
Fonte: Raschka (2015).
Após aprendermos alguns conceitos importantes relacionados aos algoritmos de machine learning, vamos estudá-los mais detalhadamente.
Algoritmos de Machine Learning
Já entendemos que um modelo é uma representação dos dados. Uma vez criado, podemos utilizá- lo em novos conjuntos de dados para realizar predições. Agora, você vai conhecer a relação do modelo com os algoritmos de machine learning. Os algoritmos de machine learning são aplicados a um conjunto de dados com objetivo de identificar os relacionamentos existentes e gerar um modelo a partir desses dados. Existem diversos algoritmos que podem ser utilizados em machine learning. Normalmente, são agrupados em duas categorias:
- Tipo de aprendizagem: supervisionada, não supervisionada e outros.
- Categorias de problemas: classificação, regressão, agrupamento, entre outros.
Primeiramente, vamos conhecer os algoritmos de aprendizagem supervisionada, a saber: regressão linear, KNN e árvores de decisão. Posteriormente, vamos verificar o objetivo do K-means, algoritmo de aprendizagem não supervisionada e, por último, apresentaremos uma lista com vários outros algoritmos de machine learning com a identificação do problema e a classificação quanto ao tipo de aprendizagem que o utiliza.