Observatório de dados/BI/Capacidade/Proveniência
Como o público pode confiar num relatório de BI?
editarExistem diversos elementos que levam a uma maior ou menor confiabilidade do dado,
- fontes dos dados: todo relatório de BI deve citar as fontes e de preferência dar acesso a elas (permitir baixar os dados).
- Reprodutibilidade: elemento fundamental na Ciência e no jornalismo (única arma contra as fake news), quando um resultado não pode ser reproduzido, ele automaticamente deixa de ser confiável.
- reputação: a confiabilidade da pessoa ou autoridade responsável pela guarda ou geração de um dado, é transmitida ao próprio dado.
- do responsável da fonte: fontes fiáveis são fundamentais. Se por exemplo preciso dos dados de população do Brasil, a fonte original e fiável é o site do IBGE onde posso baixar e referenciar os dados utilizados pelo relatório.
- do responsável do relatório (autor do relatório, que efetuou a análise de BI)
Proveniência: de onde vieram os dados publicados?
editarIlustrando o fluxo de processamento no preparo dos dados EXEMPLO A tabela de dados utilizada para definir no Brasil as profissões enquadradas como MEI (microempreendedor individual), que corresponde ao Anexo-XIII da Resolução CGSN de 1994. Temos diferentes fontes e elementos a considerar:
- Identificador do documento,
urn:lex:br:ministerio.fazenda;comite.gestor.simples.nacional:resolucao:2011-11-29;94
no padrão URN LEX. Trata-se de uma identificação hierárquica: jurisdição BR (federal); autoridade Ministério da Fazenda/Comitê Gestor do Simples Nacional; documento do tipo Resolução; data de publicação 2011-11-29; documento ID 94.
Na ficha catalográfica do portal que resolve o identificador oficial, são indicados:- Publicação Original:
- Publicação retificada:
- Texto retificado multivigente: mais este.
- arquivo de dados CSV: faz parte do repositório git da Open Knowledge http://datasets.ok.org.br/MEI-anexo13-atividades
- Conteúdo transcrito para site oficial, portaldoempreendedor.gov.br.
- Identificador do documento,
A descrição padronizada da proveniência dos dados é parte essencial da entrega de um "produto de BI", por descrever as fontes de dados e o percurso computacional realizado para se chegar nos gráficos, tabelas, sumarizações e demais visualizações de dados.
Apenas citar as fontes em geral não basta. O conceito de proveniência é similar ao conceito similar ao de cadeia de custódia para a determinação da autenticidade e integridade dos dados utilizados como fonte. Pode referir-se à documentação cronológica ou histórico que registra a sequencia de custódia, controle, transferência, análise e disposição dos dados digitais ou ainda de uma fonte analógica. O processo de descrição da proveniência em geral consiste de:
- obtenção dos identificadores oficiais e endereços de guarda fiáveis dos dados...
- registro do processo de captura
- registro dos filtros e operações de preparo
- identificação do dado ou dados finais