Observatório de dados/Definindo um núcleo semântico
- Tutorial para a introdução de conceitos e convenções adotadas no Observatório de Dados, para se expressar formalmente núcleo semântico.
O objeto de pesquisa do Observatório de Dados são conjuntos e seus elementos. Representações de conjuntos concretos de pessoas, lugares, animais, empresas, eventos... Qualquer tipo de entidade pode ser caracterizada por um conjunto. A definição precisa de conjuntos conceituais, todavia, requer uso de recursos da Web Semântica para que seja mais precisa. É uma metodologia onde se define o conjunto a partir de um "núcleo semântico", conectando-o com ontologias como a Wikidata.
Notação de conjuntos
editarNas convenções sobre conjuntos foi lembrado que um conjunto pode ser definido de maneira extensional ou intensional. O conjunto I, por exemplo, dos números inteiros ímpares entre 0 e 14:
- definição extensional:
- definição intensional: ou mais preciso,
A definição de conjuntos também lança mão do uso do "conjunto universo" ou domínio de discurso, que no exemplo foi o conjunto dos números naturais. O domínio de discurso estabelece um contexto de referência para podermos expressar os elementos. Os elementos de A acima não foram confundidos com o número decimal 5,13 porque o domínio é de inteiros.
Como estamos falando de entidades do mundo real, podemos imaginar que a maioria delas já tenha sido conceituada na Wikipedia — e que o conceito tem um identificador na Wikidata. O conceito de números naturais está na Wikipedia, e tem o código Q21199 na Wikidata. Assim, expressando com ajuda da Wikidata teremos
onde função InstancesOf(X) retorna o conjunto das instâncias do conceito X. Como na Wikidata também foi definido com precisão o conceito de número ímpar (Q13366129) pode-se reduzir a expressão para
Observatórios e suas especialidades
editarO Observatório de Dados é um "projeto guarda-chuva" para observatórios especializados e mais efetivos: de nomes de pessoas do Brasil, de documentos científicos, etc. Cada um deles terá um universo padronizado, conforme definições abaixo:
Rótulo Elemento típico Definição formal do conjunto P Pessoas vivas em 2010 Pessoa viva no ano de 2010. P = { ∀p ∈ InstancesOf(Pessoa) | nascimento(p) ≤ 2010 ∧ morte(p) > 2010 }
TB Território Brasileiro de 2010 Ponto geográfico do território brasileiro em 2010. TB = Brasil2010 ⊂ InstancesOf(PontoGeográfico)
D Documentos Um documento publicado. D = InstancesOf(Documento) DO Diários Oficiais Um diário oficial. DO = InstancesOf(DiárioOficial) RC Revistas científicas Uma revista científica. RC = InstancesOf(RevistaCientifica)
Título Domínio de discurso Descrição Observatório dos Prenomes Conjunto das pessoas vivas em 2010 (P) e residiam no território brasileiro (TB) do mesmo ano. Observatório JATS Conjunto dos artigos científicos, documentos (D) publicados pelas revistas científicas (RC). Observatório LEX Conjunto das matérias (documentos D) publicadas pelos diários oficiais (DO).
- Maiores detalhes na definição dos núcleos semânticos.
Uma campanha e seu alvo
editarAs campanhas de um observatório específico, estabelecem "alvos", que são subconjuntos universo U já definido pelo próprio observatório.
Por exemplo no Observatório JATS a campanha c05 definiu como alvo o assunto Zika virus, que já se encontra bem definido na Wikipedia, e portanto procurar na mesma página o link para a Wikidata, Q202864, e usar seu código como indicador de assunto.
Caso os curadores julguem que o item Wikidata não representa o assunto, podem lançar mão dos operadores união e interseção para formular o conceito a partir de mais de um item Wikidata.
Como vimos na introdução, é também obrigatória a definição extensional, através de amostras. O conjunto das amostras homologadas pela curadoria para esse fim é apelidado "núcleo semântico".
Resumindo: o alvo da campanha precisa receber uma definição intensional através de seu identificador Wikidata, ou uma expressão que traduza melhor o conceito; e precisa receber o apoio para a definição de exemplos e contra-exemplos através de amostras.
Modelo de Recuperação
editarEm bibliotecas, bancos de dados, etc. ou no controle de qualidade dos produtos de uma fábrica, precisamos avaliar um a um os elementos do conjunto-universo, e então recuperar alguns como "relevantes", conforme algum critério classificatório. Se não forem só alguns a serem recuperados, o trabalho de recuperação pode se mostrar muito custoso, sendo importante abstrair um modelo de recuperação para avaliar a qualidade do conjunto de elementos selecionados.
No modelo de recuperação adotado, convenciona-se a seguinte nomenclatura de conjuntos:
- U é o universo de busca, portanto o conjunto concreto de todos os itens disponíveis no dia da pesquisa.
- R é um conjunto idealizado de "itens relevantes" (sem erros de classificação), pertinentes ao assunto definido pelo núcleo semântico.
- S é um conjunto concreto qualquer de "itens selecionados a candidatos de subconjunto de R". A interseção RS é obtida a custo de inspecionar um a um os elementos de S.
Exemplo
editarDefinindo conforme as especificações acima e as fixadas pelo Observatório JATS, que contextualiza a campanha do exemplo da busca pelo assunto Zika:
O conjunto de "representantes do núcleo" é um subconjunto de RS pequeno (da ordem de 10 < |RS| > 100) obtido a partir de um conjunto S composto de artigos eleitos pelos curadores através dos seguintes critérios:
- populares, por exemplo indicados como mais citados pelo Google Scholar;
- típicos, representativos de diferentes grupos ou categorias;
- atípicos, úteis para comprovar que existem exceções.
A planilha dos exemplos é rotulada nucleoSem_exemplos.
Além desses representantes que ajudam a formar núcleo semântico, pode-se acrescentar um conjunto de representantes de falso-positivos (conjunto S_RS), ou seja, de contra-exemplos para uso no treino das equipes e testes de algoritmos. São rotulados nucleoSem_contraEx. Ambos são fornecidos manualmente pela curadoria.