Mudanças entre as edições de "LINGUAGEM R MOD2"
Linha 189: | Linha 189: | ||
que podem auxiliar o seu trabalho. Esperamos que você se aventure na busca de outras funções | que podem auxiliar o seu trabalho. Esperamos que você se aventure na busca de outras funções | ||
que atendam suas necessidades. | que atendam suas necessidades. | ||
+ | |||
+ | <syntaxhighlight lang=R> | ||
+ | # Vetores | ||
+ | cidade <- c("Brasília", | ||
+ | "São Paulo", | ||
+ | "Rio de Janeiro", | ||
+ | "Porto Alegre") | ||
+ | cidade | ||
+ | |||
+ | temperatura <- c(32,22,35,17) | ||
+ | |||
+ | regiao<- c(1,2,2,3) | ||
+ | |||
+ | # Acessando o primeiro elemento | ||
+ | cidade[1] | ||
+ | |||
+ | # Acessando um intervalo de elementos | ||
+ | temperatura[1:3] | ||
+ | |||
+ | # Copiando um vetor | ||
+ | cidade2 <- cidade | ||
+ | cidade2 | ||
+ | |||
+ | # Excluindo o segundo elemento da consulta | ||
+ | temperatura[-2] | ||
+ | |||
+ | # Alterando um vetor | ||
+ | cidade2[3] <- "Belo Horizonte" | ||
+ | |||
+ | # Adicionando um novo elemento | ||
+ | cidade2[5] <- "Curitiba" | ||
+ | |||
+ | # Deletando o vetor | ||
+ | cidade2 <- NULL | ||
+ | cidade2 | ||
+ | |||
+ | # Fatores | ||
+ | ?factor | ||
+ | |||
+ | UF <- factor(c("DF","SP","RJ","RS")) | ||
+ | UF | ||
+ | |||
+ | grau.instrucao <- factor(c("Nível Médio", | ||
+ | "Superior", | ||
+ | "Nível Médio", | ||
+ | "Fundamental"), | ||
+ | levels=c("Fundamental", | ||
+ | "Nível Médio", | ||
+ | "Superior"), | ||
+ | ordered=TRUE) | ||
+ | grau.instrucao | ||
+ | |||
+ | # Listas | ||
+ | ?list | ||
+ | |||
+ | pessoa <- list(sexo="M",cidade="Brasília",idade=20) | ||
+ | pessoa | ||
+ | |||
+ | # Acessando o primeiro elemento da lista | ||
+ | pessoa[1] | ||
+ | |||
+ | # Acessando o valor do primeiro elemento da lista | ||
+ | pessoa[[1]] | ||
+ | |||
+ | # Editando a lista | ||
+ | pessoa[["idade"]] <- 22 | ||
+ | pessoa | ||
+ | |||
+ | # Deletando um elemento da lista | ||
+ | pessoa[["idade"]] <- NULL | ||
+ | pessoa | ||
+ | |||
+ | # Filtrando elementos da lista | ||
+ | pessoa[c("cidade","idade")] | ||
+ | pessoa | ||
+ | |||
+ | # Lista de listas | ||
+ | cidades <- list(cidade=cidade, | ||
+ | temperatura=temperatura, | ||
+ | regiao=regiao) | ||
+ | cidades | ||
+ | |||
+ | # Criando um data frame com vetores | ||
+ | df <- data.frame(cidade,temperatura) | ||
+ | df | ||
+ | |||
+ | # Criando um data frama com listas | ||
+ | df2 <- data.frame((cidades)) | ||
+ | df2 | ||
+ | |||
+ | # Filtrando valores de um data frama | ||
+ | # recuperando o valor da linha 1, coluna 2 | ||
+ | df[1,2] | ||
+ | |||
+ | # todas as linhas da primeria coluna | ||
+ | df[,1] | ||
+ | |||
+ | # primeira linha de todas as colunas | ||
+ | df[1,] | ||
+ | |||
+ | # Selecionando as 3 primeiras linhas | ||
+ | # da primeira e última coluna | ||
+ | df2[c(1:3),c(1,3)] | ||
+ | |||
+ | # Verificando o nome das colunas | ||
+ | names(df) | ||
+ | |||
+ | # Verificando o número de linhas e colunas | ||
+ | dim(df) | ||
+ | |||
+ | #Verificando os tipos de dados | ||
+ | str(df) | ||
+ | |||
+ | # Acessar uma coluna do data frama | ||
+ | df$cidade | ||
+ | df["cidade"] | ||
+ | |||
+ | # Matrizes | ||
+ | ?matrix() | ||
+ | |||
+ | m <- matrix(seq(1:9),nrow=3) | ||
+ | m | ||
+ | |||
+ | m2 <- matrix(seq(1:25), | ||
+ | ncol=5, | ||
+ | byrow=TRUE, | ||
+ | dimnames=list(c(seq(1:5)), | ||
+ | c("A","B","C","D","E"))) | ||
+ | m2 | ||
+ | |||
+ | # filtrando a matrix | ||
+ | m2[c(1:2),c("B","C")] | ||
+ | </syntaxhighlight> | ||
+ | |||
Edição das 17h50min de 27 de maio de 2024
Preparação do Ambiente de Análise de Dados
- APRESENTAÇÃO
- Ao final deste módulo, você terá aptidão para executar a instalação dos programas R e RStudio, usar suas estruturas, os tipos de dados e as funções da linguagem R, além de reconhecer as principais funções relacionadas à seleção e transformação de dados nessa linguagem.
Nesta unidade você vai acompanhar o passo a passo para a instalação dos programas R e RStudio. Para tanto, vamos utilizar dois vídeos com a demonstração da instalação dos programas.
Instalando o R
Primeiramente, vamos relembrar o conceito de linguagem R: A linguagem R é uma linguagem de programação usada para análise estatística e produção de gráficos. Trata-se de um software gratuito com código aberto e com uma linguagem acessível, o que facilita a sua usabilidade. Para podermos trabalhar com o R, é necessário fazer o download do programa no computador. Portanto, vamos abrir o navegador e, na barra de endereço, digitar o link: https://cran.r-project. org/. Em seguida, devemos escolher a versão de acordo com o sistema operacional utilizado e executar o arquivo de instalação.
No vídeo a seguir, você poderá acompanhar os passos para instalação do R.
No vídeo a seguir, você poderá acompanhar os passos para instalação do R.
Após instalar o R em seu computador, é necessário instalar o RStudio, que será mostrado no próximo tópico.
Instalando o RStudio
Antes de aprendermos a instalar o RStudio, é importante saber que ele é um software livre de ambiente de desenvolvimento integrado para R, uma linguagem de programação para gráficos e cálculos estatísticos. Pode-se afirmar ainda que o RStudio possui uma interface gráfica que simplifica o uso da linguagem R na manipulação de dados, na criação de gráficos e nos cálculos estatísticos.
Depois dessa breve explicação, vamos aprender a instalar o programa RStudio. Para isso, vamos abrir o navegador e, na barra de endereço, digitar o link: https://rstudio.com/products/rstudio/ download/#download. A página exibida apresentará uma lista com os principais navegadores. Em seguida, devemos escolher a versão compatível com o sistema operacional utilizado e executar o arquivo de instalação.
No vídeo a seguir, você poderá acompanhar os passos para instalação do RStudio.
Agora você possui uma ferramenta para auxiliar o trabalho com a infinidade de dados produzidos no dia a dia e nas organizações.
Conhecendo o RStudio
Após a instalação do programa RStudio, para usá-lo efetivamente, é necessário conhecer a sua estrutura.
O RStudio é dividido em quatro janelas ou quadrantes: “Source”, “Console”, “Environment” e “Visualização”.
A imagem a seguir apresenta essa divisão:
Fonte: Enap (2020).
Neste momento, vamos conhecer cada uma dessas janelas, com uma breve descrição.
A primeira janela, localizada no primeiro quadrante (parte superior à esquerda), é denominada “Source” e será o local onde o código deve ser inserido.
A segunda janela, localizada no segundo quadrante (parte inferior à esquerda), é denominada “Console” e exibe o resultado do que é executado na janela “Source”.
A terceira janela, localizada no terceiro quadrante (parte superior à direita), é denominada “Environment” e exibe objetos que estão carregados na memória. Nela também é possível remover ou salvar os objetos.
A última janela, localizada no quarto quadrante (parte inferior à direita), é denominada “Visualização” e é composta pelas abas: “Files”, “Plots”, “Packages” e “Help”. A seguir, acompanhe a funcionalidade de cada uma:
- “Files”
- Exibe a estrutura de arquivos do projeto.
- “Plots”
- Exibe os gráficos.
- “Packages”
- Permite instalar, atualizar e pesquisar pacotes.
- “Help”
- Exibe a documentação de uma determinada função ou pacote quando a função “help()” é executada.
Após conhecer a estrutura do Rstudio, que tal praticar um pouco?
Panorama da Linguagem R
- DESTAQUE
- Ao final desta unidade, depois de conhecer os tipos de dados e as funções da linguagem R, você terá aptidão para utilizar suas estruturas e construir gráficos com as ferramentas disponíveis no R.
Criando o seu primeiro script
Para demonstrar a criação de um script, acompanhe os passos descritos no vídeo a seguir:
Vídeo 3: Criando seu primeiro script
# Primeiro script
menssgem <- "Helo World!"
print(mensagem)
Após aprender a criar um script, vamos avançar um pouco mais!
Comentando seu código
No próximo vídeo, é apresentada uma maneira para criação de comentário por meio de um símbolo muito usado na linguagem da internet. Você faz ideia de que símbolo é esse?
Vídeo 4: Comentando o seu Código
# Isto é um comentário
Você acertou qual era o símbolo? E já tinha imaginado que o caractere hashtag seria usado em
linguagem de dados?
Documentação da função
A essa altura, você pode estar com dúvidas relacionadas ao RStudio. No vídeo a seguir, é demonstrado como utilizar o recurso de ajuda. Acompanhe:
Vídeo 5: Documentação da Função
# Documentação da função
?print
Instalando pacotes
Uma das grandes vantagens do R são os pacotes disponíveis. Alguns vêm pré-instalados e são encontrados na aba “Packages”.
Para usarmos as funções que um pacote oferece, primeiro é necessário instalar o pacote desejado por meio da função “install.packages()” e depois carregá-lo utilizando a função “library()”. O vídeo a seguir explica como realizar esses passos.
# Instalando um novo pacote
install.packges("ggplot2")
# Carregando um pacote
library(ggplot2)
Você percebeu que o ponto final foi usado várias vezes? Na linguagem R é comum utilizá-lo para
representar o espaço, diferente de outras linguagens, que utilizam o underscore ou o padrão
“CamelCase”.
Estrutura de dados
Na linguagem R temos diversas estruturas que permitem armazenar os dados produzidos. Nesse tópico, vamos conhecer essas estruturas e suas principais funções.
- Vetor
Armazena um conjunto de valores ordenados chamados de elementos. Todos os elementos de um vetor devem ser do mesmo tipo.
- Fator
Armazena valores categóricos (nominal ou ordinal).
- Lista
É um tipo especial de vetor, porém é possível adicionar elementos de tipos diferentes.
- Data frame
É utilizado para organizar elementos em linhas e colunas, semelhante a uma planilha ou base de dados. Além disso, pode ser formado por listas ou vetores.
- Matriz
Armazena dados tabulares semelhante ao data frame, porém só aceita um tipo de dado.
O vídeo a seguir demonstra como essas estruturas funcionam.
Esse vídeo é fundamental para aprender mais sobre a linguagem de programação R. Em nosso curso, limitamos a apresentar as funções mais utilizadas, no entanto, existem inúmeras outras que podem auxiliar o seu trabalho. Esperamos que você se aventure na busca de outras funções que atendam suas necessidades.
# Vetores
cidade <- c("Brasília",
"São Paulo",
"Rio de Janeiro",
"Porto Alegre")
cidade
temperatura <- c(32,22,35,17)
regiao<- c(1,2,2,3)
# Acessando o primeiro elemento
cidade[1]
# Acessando um intervalo de elementos
temperatura[1:3]
# Copiando um vetor
cidade2 <- cidade
cidade2
# Excluindo o segundo elemento da consulta
temperatura[-2]
# Alterando um vetor
cidade2[3] <- "Belo Horizonte"
# Adicionando um novo elemento
cidade2[5] <- "Curitiba"
# Deletando o vetor
cidade2 <- NULL
cidade2
# Fatores
?factor
UF <- factor(c("DF","SP","RJ","RS"))
UF
grau.instrucao <- factor(c("Nível Médio",
"Superior",
"Nível Médio",
"Fundamental"),
levels=c("Fundamental",
"Nível Médio",
"Superior"),
ordered=TRUE)
grau.instrucao
# Listas
?list
pessoa <- list(sexo="M",cidade="Brasília",idade=20)
pessoa
# Acessando o primeiro elemento da lista
pessoa[1]
# Acessando o valor do primeiro elemento da lista
pessoa[[1]]
# Editando a lista
pessoa[["idade"]] <- 22
pessoa
# Deletando um elemento da lista
pessoa[["idade"]] <- NULL
pessoa
# Filtrando elementos da lista
pessoa[c("cidade","idade")]
pessoa
# Lista de listas
cidades <- list(cidade=cidade,
temperatura=temperatura,
regiao=regiao)
cidades
# Criando um data frame com vetores
df <- data.frame(cidade,temperatura)
df
# Criando um data frama com listas
df2 <- data.frame((cidades))
df2
# Filtrando valores de um data frama
# recuperando o valor da linha 1, coluna 2
df[1,2]
# todas as linhas da primeria coluna
df[,1]
# primeira linha de todas as colunas
df[1,]
# Selecionando as 3 primeiras linhas
# da primeira e última coluna
df2[c(1:3),c(1,3)]
# Verificando o nome das colunas
names(df)
# Verificando o número de linhas e colunas
dim(df)
#Verificando os tipos de dados
str(df)
# Acessar uma coluna do data frama
df$cidade
df["cidade"]
# Matrizes
?matrix()
m <- matrix(seq(1:9),nrow=3)
m
m2 <- matrix(seq(1:25),
ncol=5,
byrow=TRUE,
dimnames=list(c(seq(1:5)),
c("A","B","C","D","E")))
m2
# filtrando a matrix
m2[c(1:2),c("B","C")]