Observatório de dados/BI/Capacidade/Filtragem

Utilizamos o termo "filtar dados" de maneira vaga, para designar "redução na informação". Para que seja de bem definido é necessário especificar melhor o "tipo de filtragem de dados" que desejamos realizar. A redução pode ser necessária por diversos motivos: ruído, redundância, foco, representatividade, etc.

Capacidades

Objetivo

editar
 

Do ponto de vista da Teoria da Informação, que conceitua mais rigorosamente o que são dados e o que é informação (redução da ignorância): uma grande quantidade de dados pode ser pobre de informação, por não trazer proporcionalmente maior redução da ignorância para quem recebe os dados. Reduzindo o volume de dados seletivamente (ou seja "filtrando"), sem perder os dados importantes, pode-se chegar a um volume bem menor, garantindo uma proporção maior de informação.

Filtragem por sumarização

editar

Sumarizar dados é reduzir a informação através de um "resumo", que tem como principal referência a Estatística:

  • sumarização de listas de números: média, moda, mediana, etc.
  • sumarização de texto livre: tabela de frequência de palavras, contagem de títulos, contagem de parágrafos, etc.
  • sumarização de matrizes numéricas: determinante, correlação, etc.

Filtragem por seleção

editar

Selecionamos, dentro de um mesmo dataset, os dados que desejamos. Nesse tipo de filtragem os dados são "recortados", não há uma transformação sobre eles, apenas descartamos o que não precisamos.

A seleção, quando efetuada sobre dados tabulares, pode ser nitidamente classificada em dois tipos, o "corte horizontal" e o "corte vertical", o que, no modelo de dados relacional clássico corresponderá a operações distintas, que servem de referência para outros tipos de estrutura de dados. Aqui, para preservar a consistência terminológica denominaremos seleção condicional ao corte horizontal, e seleção de campos ao corte vertical.

Seleção condicional

editar

Numa tabela do modelo relacional corresponde a um corte na horizontal, operação que os matemáticos denominam seleção, assim como a condição denominada fórmula proposicional.

Seleção de campos

editar

Numa tabela do modelo relacional corresponde a um corte na vertical, operação que os matemáticos denominam projeção.

Se os dados não são numéricos, tal como num texto estruturado (por exemplo o Código Civil ou um romance dividido em capítulos), operações tais como extração de títulos podem ser entendidas como seleção de campos.

Filtragem composta

editar

Na linguagem SQL, por exemplo, numa mesma operação de "SELECT" podem ser realizadas simultaneamente a filtragem por seleção condicional, seleção de campos, e sumarização. Filtros compostos são em geral mais complexos e nem sempre podem ser decompostos em operações simples, de modo que fica difícil dar uma designação mais precisa.

Composição com junção

editar
 
Interseçãoof de dois datasets 

Uma forma bastante simples e usual de filtragem é a seleção condicional (acima) com uma condição baseada em relacionamento. Pode-se relacionar dois datasets com mesma estrutura de dados através da união e então submeter o resultado a uma seleção condicional. O resultado, quando a condição é referente itens comuns (igualdade), pode ser designada interseção.

Existem diversas outras formas além da interseção, mas não requerem denominação específicas, podemos designá-las coletivamente "filtragem composta com junção".