Observatório de dados/BI/Capacidade/Proveniência

Como o público pode confiar num relatório de BI?

editar

Existem diversos elementos que levam a uma maior ou menor confiabilidade do dado,

  • fontes dos dados: todo relatório de BI deve citar as fontes e de preferência dar acesso a elas (permitir baixar os dados).
  • Reprodutibilidade: elemento fundamental na Ciência e no jornalismo (única arma contra as fake news), quando um resultado não pode ser reproduzido, ele automaticamente deixa de ser confiável.
  • reputação: a confiabilidade da pessoa ou autoridade responsável pela guarda ou geração de um dado, é transmitida ao próprio dado.
    • do responsável da fonte: fontes fiáveis são fundamentais. Se por exemplo preciso dos dados de população do Brasil, a fonte original e fiável é o site do IBGE onde posso baixar e referenciar os dados utilizados pelo relatório.
    • do responsável do relatório (autor do relatório, que efetuou a análise de BI)

Proveniência: de onde vieram os dados publicados?

editar
Ilustrando o fluxo de processamento no preparo dos dados
 
EXEMPLO

A tabela de dados utilizada para definir no Brasil as profissões enquadradas como MEI (microempreendedor individual), que corresponde ao Anexo-XIII da Resolução CGSN de 1994. Temos diferentes fontes e elementos a considerar:

  1. Identificador do documento,
    urn:lex:br:ministerio.fazenda;comite.gestor.simples.nacional:resolucao:2011-11-29;94
    no padrão URN LEX. Trata-se de uma identificação hierárquica: jurisdição BR (federal); autoridade Ministério da Fazenda/Comitê Gestor do Simples Nacional; documento do tipo Resolução; data de publicação 2011-11-29; documento ID 94.
    Na ficha catalográfica do portal que resolve o identificador oficial, são indicados:
    1. Publicação Original:
    2. Publicação retificada:
    3. Texto retificado multivigente: mais este.
  2. arquivo de dados CSV: faz parte do repositório git da Open Knowledge http://datasets.ok.org.br/MEI-anexo13-atividades
  3. Conteúdo transcrito para site oficial, portaldoempreendedor.gov.br.

A descrição padronizada da proveniência dos dados é parte essencial da entrega de um "produto de BI", por descrever as fontes de dados e o percurso computacional realizado para se chegar nos gráficos, tabelas, sumarizações e demais visualizações de dados.

Apenas citar as fontes em geral não basta. O conceito de proveniência é similar ao conceito similar ao de cadeia de custódia para a determinação da autenticidade e integridade dos dados utilizados como fonte. Pode referir-se à documentação cronológica ou histórico que registra a sequencia de custódia, controle, transferência, análise e disposição dos dados digitais ou ainda de uma fonte analógica. O processo de descrição da proveniência em geral consiste de:

  1. obtenção dos identificadores oficiais e endereços de guarda fiáveis dos dados...
  2. registro do processo de captura
  3. registro dos filtros e operações de preparo
  4. identificação do dado ou dados finais