Observatório de dados/BI/Capacidade/Carga

A carga, importação ou ingestão dos dados na ferramenta de BI corresponde a uma das "capacidades". Quando a ferramenta é concebida como sistema, refere-se ao conceito de aquisição dos dados.

Capacidades

Quando não for especificado por faceta, a "carga" é simplesmente o dispor dos dados no interior da ferramenta, independente de ter restrições nas facetas.

Vínculo com outras capacidades

editar

A capacidade de carga está vinculada às capacidades de registro da proveniência e de produção por junção. A capacidade de é uma extensão natural da carga. Em alguns casos a proveniência é um algoritmo descritivo da produção de uma fonte que depende de outras. Para fontes que são dependentes por operações padronizadas, faz-se uso da capacidade de modificação, em particular a de junção, que permite fundir duas ou mais fontes em uma só.

Facetas

editar

A classificação das maneiras de carga se faz através de facetas, ou seja, verifica-se se a ferramenta contempla uma ou mais facetas, de forma obrigatória ou opcional.

Arquivo

editar

carga de arquivo contendo um ou mais datasets Arquivos tais como .xls do Excel pode conter várias planilhas, arquivos tipo CSV representam apenas uma tabela. Arquivos do tipo JSON ou XML em geral representam um só objeto, exceto quando o formato (ex. formato .xlsx do Excel corresponde a uma DTD do padrão XML) determinar sub-partições.

Carga Web seria mais uma variante, mas hoje http:// e file// são nativos da carga, portanto o sistema é indiferente se o dado é local ou remoto (na rede). Exemplo: em PHP a função file_get_contents() é indiferente. No caso do MS-Power-BI, por exemplo, a opção "Web" é destacada como modo distinto da opção "file".

Arquivo aberto tabular

editar

Seguindo a taxonomia das especificações Frictionlessdata/tabular-data-resource:

  • CSV (comma separated variables) e seus dialetos:
  • JSON Row Arrays
  • Row Objects

Conexão

editar

Carga de tabela ou dataset de banco de dados, especificada através de uma conexão (por exemplo conection-string).

Vinculação

editar

Vinculação de arquivo ou conexão com banco de dados ... atualizando o BI quanto o dado é atualizado...

Vinculação Web seria mais uma variante, valem os mesmos comentários que apresentados na faceta arquivo (acima).

Configurabilidade

editar

Pode-se configurar previamente a carga de arquivo ou conexão, por exemplo se quero que um arquivo CSV seja lido em "modo padrão" ao invés de "modo localizado" (no Brasil como a virgula é usada para decimais adota-se como separador de campos o ";" ou tab). Sem isso o arquivo vai sempre ser erroneamente interpretado.

Assistência

editar

Carga assistida. Qualquer uma das atividades de carga pode ser assistida pelo usuário, quando a informação de carga é incompleta. Por exemplo um arquivo cuja acentuação das letras pode estar em UTF-8 ou ISO, e só o usuário batendo o olho vai poder decidir qual realmente é.

A assistência pode ser sentido de:

  • o usuário responder passo-a-passo qual decisão quer tomar;
  • o usuário permitir que o computador tome decisões por suposto "mecanismo inteligente" (que em geral não é tão inteligente assim).

Preparo

editar

São procedimentos de extração que antecedem ou complementam a carga:

  • raspagem de dados: técnica computacional que se assemelha uma transcrição, em geral consiste em extrair texto de imagem ou dados de documentos não-estruturados tais como documentos PDF.
  • limpeza de dados: ato de descobrimento e correção ou eliminação de registros de dados errôneos
  • transformação preparatória: por exemplo transformar estrutura não-tabular em tabela. Em geral designada "preparo dos dados".
    Em geral ferramentas de BI com baixa flexibilidade de carga (ou por exemplo repertório de aceitação de formatos limitado) requerem maior preparação.