Data Mining

Por Fernando Rebouças
Ao pé da letra, Data Mining é uma mineração de dados, uma análise projetada com o objetivo de vasculhar uma grande quantidade de dados. Na maioria das vezes, são dados relacionados a negócios, empresas, mercado e pesquisas científicas.

O Data Mining busca padronizar sistemas e subconjuntos de dados. Segue três etapas básicas:

  • Exploração
  • Construção de modelo
  • Definição de padrão
  • Validação e verificação

Popularmente, o Data Mining tem sido considerado uma ferramenta de gerenciamento de informação utilizada no intuito de facilitar o acesso e a organização às estruturas de conhecimento que auxiliem em decisões de trabalho. Na prática é uma análise de dados exploratórios e de modelagem.

O Data Mining integra o KDD (Knowledge Discovery in Database) , processo de conhecimento de estruturação de dados.  O Data Mining extrai informações válidas , abrangentes e até mesmo desconhecidas de uma ampla base de dados.

Não é apenas uma consulta de banco de dados, pois permite a exploração e a inferência de informação. Utiliza técnicas diferenciadas em redes neurais, evidenciando informações para uma rede hierárquica de decisão e sistemas estatísticos.

A busca, muitas vezes, é interativa possibilitando a revisão dos resultados pelos analistas responsáveis em Data Mining. O objetivo é formatar novos conjuntos informação refinada retirada de um banco de dados geral. Após o refino das informações é realizado uma realimentação do sistema seguindo novos parâmetros.

Dentre as etapas mais aprofundadas do Data Mining, podemos elucidar as seguintes:

Análise do problema

O processo de análise inicia a partir de um objetivo de busca, seguindo um determinado conhecimento; o principal objetivo é a possibilidade de  selecionar os dados e definir as técnicas  utilizadas na análise.

Preparação dos Dados

A preparação consiste em fases internas de coletânea de dados, avaliação, consolidação e limpeza, seleção dos dados e transformação.

  • Coletânea de dados: Dados provindos de diversas fontes internas ou externas, como por exemplo de cartão de crédito;
  • Avaliação: Exame sobre os dados colhidos com o objetivo de identificar características do modelo da cada informação.
  • Consolidação e limpeza: Construção de base de dados a partir de correções de erros, remoção de registros e inserção de valores comuns em campos vazios.
  • Seleção de dados: É a seleção de dados específicos para cada modelo de dado, como a seleção de variáveis em colunas ou dependentes.
  • Transformação: Ferramenta escolhida para redirecionar a apresentação dos dados.

Modelagem

Definição de tarefas e técnicas utilizadas sobre a ação de cada algoritmo, etapa que gera um modelo a ser analisado posteriormente.

Análise e validação de resultados

Considerando que um modelo válido nem sempre é um modelo correto, visa detectar o que há de implícito num modelo, e o que nele é mais peculiar na precisão de uma informação.

Fontes:
http://www.cce.puc-rio.br/informatica/dataminingcentro.htm
http://www.shammas.eng.br/acad/sitesalunos1106/data_mining/index.html