Categoria:Observatório de dados

Observatório de Dados é uma iniciativa de Estatística aplicada e de Dados abertos, contendo tutoriais gerais e projetos específicos.

Projetos tais como o Observatório JATS e o Observatório dos Prenomes, e tutoriais sobre conjuntos, estatística e a "metodologia do Observatório de Dados", que se baseia no modelo de recuperação e na proposta da formação de equipes curadoras dos dados.

Motivações

editar

Existem problemas bem gerais e conhecidos, tais como a falta de transparência e corrupção no governo brasileiro (nos Três poderes) e as fake news, inconsistências e imprecisão nos meios de comunicação do Quarto poder. E existem soluções, tais como o uso de dados abertos, a publicação dos diários oficiais em formatos mais abertos e estruturados, a auditoria dos dados oficiais por parte do cidadão comum, e o combate às fake news através da verificação sistemática dos fatos — que por sua vez demanda transparência e o uso de dados abertos.

Existem também problemas de linguagem e expressão dos fatos através do texto tradicional: a linguagem natural, o texto em português do dia-a-dia, não é suficiente para expressar com precisão, em poucas frases, o resultado de um levantamento estatístico ou de uma análise quantitativa. Para esses problemas, todavia, existem soluções tecnológicas gerais e bem consolidadas: ambientes como a Wikipedia, Wikidata e Wikiversity, permitem expressar os fatos com mais precisão, sem perder a simplicidade e a clareza requeridos pelo cidadão. Temos tudo por aqui:

  • Um bom editor de hipertexto: se você estiver logado na Wikiversity e clicar em "editar" terá em mãos a o mais poderoso e amigável editor de hipertextos que a humanidade já construiu. Permite inclusive a edição sofisticada de tabelas, de expressões matemáticas e tudo o mais que um relatório estatístico precisa.
  • Um bom suporte ontológico e de metadados para fazer uso irrestrito da Web Semântica: a Wikidata.
    Podemos, numa simples frase, nos referir a conceitos como "pessoa viva" ou "lei seca" sem ambiguidade, sem ficar em dúvida se seria "pessoa esperta ou não-morta?", "proibição geral do alcool ou da lei 11.705?". O link Wikidata garante precisão semântica: pessoa viva e lei seca.
  • Um bom suporte pedagógico: proposta do ambiente Wikiversity.
  • Uma boa interface para apresentar dados abertos quantitativos: a ponte entre a Wikiversity e as fontes abertas de dados, tais como Datasets-br, IBGE, Dados.gov.br e outros.

O Observatório de Dados tem em vista este tipo de cenário: é possível formalizar a linguagem de apresentação dos fatos quantitativos relevantes para o cidadão, sem perder seu entendimento e a sua profundidade.

Considerações e objetivos gerais

editar

Considerando-se que

  • A Web Semântica é uma tecnologia madura (10 anos), amplamente utilizada (milhões de dados-ligados já publicados) e simples de usar (RDF).
    A Wikidata, contendo todos os conceitos da Wikipedia e de outras ontologias, se tornou a principal ontologia da Web Semântica.
  • A Wikiversity é um ambiente totalmente integrado à Wikipedia e à expressão de conjuntos, orientado à produção de hipertextos e à organização de grupos de estudo.
  • Os grupos de interesse, em dados abertos e estatísticas sobre esses dados, podem se organizar como curadores e experts de forma produtiva no ambiente oferecido pela Wikiversity.

podemos caracterizar o Observatório de Dados como um ambiente para a construção colaborativa de estudos e relatórios, onde se encontram disponíveis todos os recursos para uma expressão mais precisa e didática dos conteúdos relativos a dados e estatísticas. Os objetivos principais deste ambiente, e dos seus curadores, são:

  1. Oferecer resultados mais didáticos e precisos sobre estatísticas já conhecidas, interpretando-as de maneira consensual e padronizada.
  2. Consolidar metodologias testadas e consensuais, através exemplos e tutoriais.
  3. Incentivar e difundir relatórios hipertextuais (conectados) produzidos por curadorias especializadas.

Projetos implementados

editar

Os projetos do Observatório de Dados são "observatórios especializados", montados sobre o tripé das convenções, formação das curadorias e da metodologia de refinamento dos dados.

São observatórios de fato, pois há um "universo de dados" que não damos conta de conhecer, dada a quantidade imensa itens e de detalhes analisáveis; mas podemos escolher um "alvo", e nos pormos a observar o que existe naquela região do "espaço de dados"... E para observar precisamos de ferramentas e pessoas operando essas ferramentas, constituindo assim um observatório.

Observatórios e suas especialidades

editar

O Observatório de Dados é um "projeto guarda-chuva" para observatórios especializados e mais efetivos: de nomes de pessoas do Brasil, de documentos científicos, etc. Cada um deles tem seu universo padronizado, conforme definições abaixo.

Observatórios e seus conjuntos de referência
Rótulo Elemento típico Definição formal do conjunto
P   Pessoas vivas em 2010 Pessoa viva no ano de 2010.

P = { ∀pInstancesOf(Pessoa) | nascimento(p) ≤ 2010  ∧  morte(p) > 2010 }

TB  Território Brasileiro de 2010 Ponto geográfico do território brasileiro em 2010.

TB = Brasil2010InstancesOf(PontoGeográfico)

D   Documentos Um documento publicado. D = InstancesOf(Documento)
DO   Diários Oficiais Um diário oficial. DO = InstancesOf(DiárioOficial)
RC   Revistas científicas Uma revista científica. RC = InstancesOf(RevistaCientifica)
Título Domínio de discurso Descrição
Observatório dos Prenomes Conjunto das pessoas vivas em 2010 (P) e residiam no território brasileiro (TB) do mesmo ano.
Observatório JATS Conjunto dos artigos científicos, documentos (D) publicados pelas revistas científicas (RC).
Observatório LEX Conjunto das matérias (documentos D) publicadas pelos diários oficiais (DO).
Maiores detalhes na definição dos núcleos semânticos.

Infraestrutura implementada

editar

Banco de dados PostgreSQL com datasets representados em JSON (tipo de dado [JSONb]) Ver https://github.com/datasets-br/sql-unifier