Mudanças entre as edições de "LINGUAGEM R MOD1"

De MediaWiki do Campus São José
Ir para navegação Ir para pesquisar
Linha 186: Linha 186:
 
Confira a diferença entre eles no quadro a seguir.
 
Confira a diferença entre eles no quadro a seguir.
  
 +
{| class="wikitable"
 +
|+Definições de Big Data
 +
|-
 +
!
 +
! style="background:#6A5ACD; color:white; width: 350px;text-align:center;"|Dados estruturados
 +
! style="background:#6A5ACD; color:white; width: 250px;text-align:center;"|Dados não estruturados
 +
|-
 +
|Definição
 +
|São organizados em tabelas (linhas
 +
e colunas) que representam
 +
observações e características.
 +
|Os dados não seguem um padrão de organização.
 +
|-
 +
|
 +
|
 +
|
 +
|-
 +
|
 +
|
 +
|
 +
|-
 +
|
 +
|
 +
|
 +
|-
 +
|
 +
|
 +
|
 +
|}
  
 +
 +
Características Estrutura rígida e previamente
 +
planejada.
 +
Estrutura flexível e dinâmica ou sem
 +
estrutura.
 +
Exemplo
 +
Banco de dados, pois são estruturados
 +
conforme a definição de um esquema,
 +
ou seja, define as tabelas com seus
 +
respectivos campos (atributos) e
 +
tipos (formato).
  
 
-----
 
-----
 
[[Imagem:icone_menu.png|link=LINGUAGEM_R]]
 
[[Imagem:icone_menu.png|link=LINGUAGEM_R]]
 
[[Imagem:icone_prox.png|link=LINGUAGEM_R_MOD2]]
 
[[Imagem:icone_prox.png|link=LINGUAGEM_R_MOD2]]

Edição das 14h10min de 27 de maio de 2024

Introdução à análise de dados

APRESENTAÇÃO
Ao final deste módulo, você terá aptidão para listar a importância e os benefícios da análise de dados e reconhecer os principais conceitos relacionados à data science, linguagem R e machine learning na análise de dados, tendo como foco principal o setor público.

Análise de dados no setor público

DESTAQUE
Você já parou para pensar na quantidade de dados que são processados a cada minuto por empresas, sejam elas pequenas, médias ou grandes; por bancos, públicos ou privados; e pelos órgãos públicos? E o que essas instituições fazem com esses dados?

Quando bem trabalhados, monitorados e analisados, os dados servem para auxiliar as instituições em muitos aspectos. Cada vez mais os órgãos públicos vêm tomando decisões com base nos dados, seja para detecção de anomalias, monitoramento de indicadores ou melhoria de processos. Muitos órgãos já perceberam a importância de se realizar análise sobre os dados e os ganhos que esta atividade fornece.

O Ministério da Economia, por exemplo, com o objetivo de dar mais transparência em suas ações, disponibiliza diversos painéis públicos em seu portal, conforme imagem a seguir:

Fig01 LINGUAGEM R.png

Fonte: Ministério da Economia.

Diversas áreas governamentais de vários países estão se beneficiando com a análise de dados. Alguns exemplos são:

Saúde

Centros de controle e prevenção de doenças utilizam os dados para prever surtos de gripe e rastrear padrões da doença.

Detecção e prevenção de crimes

O Departamento de Polícia de Durham, no estado da Carolina do Norte (EUA), analisa dados para identificar padrões de atividades criminosas e lugares com alta incidência de criminalidade. Isso ajuda o departamento a decidir onde os policiais devem ser alocados.

Segurança da informação

Nos Estados Unidos, o Departamento de Segurança Interna analisa os dados de tráfego da internet para detectar ameaças e acessos não autorizados.

Desastres naturais

Na Indonésia, a partir de dados históricos coletados por sensores e dados de reclamações dos cidadãos, foi possível identificar áreas propensas a inundações.


Agora que mostramos a importância da análise de dados para os governantes dos países e a sua utilização em incontáveis áreas, vamos saber um pouco sobre como o Brasil vem tratando seus dados na atualidade.

Análise de dados no Brasil

No Brasil, existem várias iniciativas com foco na análise de dados públicos. Essas iniciativas foram apresentadas na quinta edição do Seminário Internacional sobre Análise de Dados na Administração Pública, que aconteceu em Brasília, em 2019.

Essa edição foi organizada pelo Tribunal de Contas da União, pela Rede de Inovação no Setor Público, pela Controladoria-Geral da União e pela Escola Nacional de Administração Pública, com o apoio da Agência Alemã de Cooperação Internacional. O objetivo principal do evento foi promover a troca de experiências e boas práticas no uso de técnicas de análise e mineração de dados, visando a melhoria da gestão e do controle de órgãos, entidades e políticas públicas. A seguir lista-se alguns trabalhos que foram apresentados nessa edição:

  1. “Análise de dados para localização de vítimas do rompimento da barragem de Brumadinho” pelo Corpo de Bombeiros Militar de Minas Gerais.
  2. “Análise de vínculos para detecção de fraudes” pelo Tribunal de Contas do Estado de São Paulo e Conselho Administrativo de Defesa Econômica.
  3. “Fiscalização contínua de folhas de pagamento da Administração Pública” pelo Tribunal de Contas da União.
  4. “Detecção de anomalias para identificar a prática de conluio em licitações do governo federal” pela Controladoria-Geral da União.
  5. “Sinalização de corridas suspeitas do TaxiGov do governo federal com geoprocessamento e detecção de anomalias” pelo Ministério da Economia.

Esses são alguns exemplos de análise utilizando dados de órgãos públicos. Vale ressaltar que nem sempre essas análises são feitas com dados abertos, normalmente devido a questões de sigilo das informações.

Vamos refletir um pouco sobre os dados na sua organização. Você sabe se no seu órgão os dados são extraídos, analisados e monitorados, a fim de subsidiar as decisões estratégicas? Como isso é feito? Alguns desses dados ficam disponíveis para o público externo?

Dados abertos

Com o objetivo de dar transparência ao cidadão, diversos países disponibilizam na internet bases de dados governamentais classificadas como dados abertos.

Mas o que são dados abertos?

De acordo com a Open Knowledge Internacional citada no Portal Brasileiro de Dados Abertos:

Dados são abertos quando qualquer pessoa pode livremente acessá-los, utilizá-los, modificá-los e compartilhá-los para qualquer finalidade, estando sujeito a, no máximo, a exigências que visem preservar sua proveniência e sua abertura. (OPEN KNOWLEDGE INTERNACIONAL apud BRASIL).

No Brasil, a Lei de Acesso à Informação (LAI) dispõe que os órgãos públicos devem promover a divulgação de informações de interesse coletivo ou geral na internet. A lei também define as hipóteses de sigilo e de informações pessoais, que são as exceções à regra de que os dados devem ser abertos.

Vários órgãos no Brasil já disponibilizam dados abertos e o mapeamento dessas iniciativas está consolidado em Catálogos Dados Brasil, que contém os endereços eletrônicos dos dados abertos de órgãos e instituições públicas do país.

Conceitos relacionados à análise de dados

Agora, vamos relembrar alguns conceitos fundamentais no estudo da análise de dados, em especial os mais utilizados na Administração Pública, foco do nosso estudo. São conceitos relacionados à data science, machine learning e linguagem R.


O que é Big Data?

Você sabe o que significa Big Data? Pensando na tradução do inglês para o português, big significa grande e data significa dados, o que nos faz inferir que é um conjunto de palavras que quer dizer grandes dados.

Vamos verificar como alguns renomados autores conceituam Big Data. Para tanto, observe o quadro elaborado por Feitas Junior et al. (2016, p. 532) para o artigo intitulado Big Data e Gestão do Conhecimento: Definições e Direcionamentos de Pesquisa, que faz uma revisão de literatura de artigos publicados em periódicos e congressos científicos nas bases de dados EBSCOhost e Web of Science.


Definições de Big Data
Definições Autores
Trata-se de um termo geral para a enorme quantidade de dados digitais coletados a partir de todos os tipos de fontes. Kim, Trimi e Ji-Hyong (2014).
Trata-se de um termo geral para a enorme quantidade de dados

digitais coletados a partir de todos os tipos de fontes. Denotam um maior conjunto de dados ao longo do tempo, conjuntos de dados estes que são grandes demais para serem manipulados por infraestruturas de armazenamento e processamento regulares.

Mahrt e Scharkow (2013).
Dados demasiadamente volumosos ou muito desestruturados

para serem gerenciados e analisados através de meios tradicionais.

Davenport (2012) e Kwon (2014).
Refere-se ao conjunto de dados cujo tamanho está além da

habilidade de ferramentas típicas de banco de dados em capturar, gerenciar e analisar.

Di Martino et al. (2014).
São conjuntos de dados que são tão grandes que se tornam

difíceis de trabalhar com o uso de ferramentas atualmente disponíveis.

Rajesh (2013).

Fonte: Freitas Junior et al. (2016), com adaptações.


O conceito de Big Data pode ser caracterizado por quatro pilares, conhecidos por seus 4 Vs: Volume: refere-se à grande quantidade de dados.

Variedade
refere-se a diversas fontes e diferentes formatos de onde surgem os dados, por exemplo, podemos ter a informação em uma imagem, texto ou vídeo.
Velocidade
refere-se à velocidade que os dados são gerados, armazenados e recuperados.
Veracidade
refere-se à qualidade, volatilidade e validade dos dados.

De acordo com o International Data Corporation (IDC), estima-se que serão produzidos 175 zettabytes de dados no mundo até 2025, conforme gráfico a seguir.

Fig02 LINGUAGEM R.png

Fonte: International Data Corporation (2018)..

Diante do exposto, pode-se afirmar que o termo Big Data refere-se a uma grande quantidade de dados que excede a capacidade de processamento de um banco de dados tradicional. Devido a isso, torna-se necessária a utilização de arquiteturas paralelas e distribuídas para armazenar e processar esses grandes conjuntos de dados. Uma das tecnologias que foi desenvolvida para esse propósito é o Hadoop.

O que é Hadoop?

O Apache Hadoop é um framework open source (estrutura de código aberto) para processamento e gerenciamento de grandes volumes de dados (Big Data). Também pode ser definido como um ecossistema de ferramentas e métodos para armazenamento, distribuição e análise de dados estruturados e não estruturados.

Fig03 LINGUAGEM R.png

Fonte:https://hadoop.apache.org/ (2024).

O uso da plataforma Hadoop tem como principais benefícios a sua capacidade de armazenar, gerenciar e analisar grandes quantidades de dados estruturados e não estruturados de forma rápida, confiável, flexível e de baixo custo.

O que são dados estruturados e não estruturados?

De acordo com a sua estrutura, os dados podem ser separados em duas categorias: dados estruturados e dados não estruturados.

Confira a diferença entre eles no quadro a seguir.

Definições de Big Data
Dados estruturados Dados não estruturados
Definição São organizados em tabelas (linhas

e colunas) que representam observações e características.

Os dados não seguem um padrão de organização.


Características Estrutura rígida e previamente planejada. Estrutura flexível e dinâmica ou sem estrutura. Exemplo Banco de dados, pois são estruturados conforme a definição de um esquema, ou seja, define as tabelas com seus respectivos campos (atributos) e tipos (formato).


Icone menu.png Icone prox.png