Observatório de dados/Precisão e revogação

Precisão e revocação são quantidades bem definidas e fundamentadas na Ciência da Informação. Elas são baseadas no "conjunto universo", que contém todos os elementos misturados, os relevantes e os indesejados, sobre determinado assunto. Aqui exemplificaremos com o caso onde os elementos relevantes (desejados) são artigos científicos sobre a Zika.

Quando podemos examinar um por um dos elementos do universo, a tarefa é simples. Quando porém existem milhares de elementos no universo de busca, "separar o joio do trigo" é uma tarefa bem mais difícil, e seu resultado precisa ser avaliado para se conferir se o objetivo foi de fato atingido.

O conjunto R dos relevantes e S dos selecionados,
ambos dentro do universo U.

Algoritmo da formação desse "conjunto o mais próximo possível do conjunto relevante":

  1. Definir o alvo da busca, o conjunto ideal dos "itens relevantes", através do seu núcleo semântico, e de um subconjunto concreto de amostras representativas deste núcleo.
  2. Selecionar (do universo) subconjunto grande de artigos relevantes para o assunto. Recuperar
  3. Eliminar falso-positivos.
  4. Voltar ao item 2 enquanto não houver certeza de ter recuperado todos os artigos relevantes.

No processo do item 2, "recuperar subconjunto" pode haver repetições, mas como a iteração resulta na união de conjuntos, é suposto que serão todos distintos.

Conjunto incerto e seu núcleo semântico

editar

O que queremos dizer com "Zika"? Apesar de não ser um termo tão vago, uma simples busca por palavra-chave pode trazer coisas bem distintas: pessoa com sobrenome Zika, floresta africana chamada Zika, virus da Zika, etc. O primeiro passo da pesquisa por um assunto, é estabelecer não apenas a terminologia do assunto, mas também a sua semântica. Suponhamos então que é o Zika virus, ou seja, é precisamente o assunto Q202864.

Quantos artigos científicos foram escritos sobre esse assunto? No que consiste, para este levantamento, um artigo científico? A segunda pergunta ajuda a definir o universo U sobre o qual se realizará a busca.

O número de elementos em U neste caso é grande. Em 2014 o número de artigos analisados pelo Google Scholar[1] era da ordem de 160 milhões. Com uma base de dados mais qualificada e especializada, em 2017 o PubMed apresentava da ordem de 27.3 milhões de artigos.[2]

Apesar de ainda haverem incertezas, estamos aos poucos definindo o nosso conjunto R de artigos relevantes,

R é um conjunto idealizado, composto de todos os "artigos relevantes para o assunto Q202864".

A partir destes esclarecimentos podemos então escolher a ferramenta de busca (escolhemos o PubMed que é especializado) e como buscar — usamos outras palavras-chave além de "Zika", tais como "ZIKV". O resultado da busca é que vai compor o "conjunto concreto de artigos selecionados", S, cujos elementos são candidatos a serem também elementos de R... Depende de alguém conferir se é mesmo.

Quantificando

editar
 
Conjuntos U, R, S e interseção RS dos selecionados relevantes.

Sejam R e S subconjuntos do universo U de artigos científicos:

  •  
  •  
  •   é o número de elementos no conjunto X.
  •   é o a interseção de X com Y.

 

As frações p e r podem também ser expressas como percentuais. Quando conveniente pode-se adotar o rótulo RS para  , os verdeiro-positivos. Os falso-positivos são seu complemento,  , rotulados S_RS.
Amostras de RS são apelidadas de exemplos homologados, amostras de S_RS de contra-exemplos.

Afunilando

editar
 
Processo de filtragem, afunilando quantidades. Parte de um conjunto   com alta revogação (r), e vai reduzindo o tamanho de   conforme são eliminados falso-positivos.

A qualidade do conjunto S pode ser avaliada por p e r, e a maximizar a qualidade pode exigir a maximização simultânea de ambos indicadores.

Equiparação pragmática do conjunto R
Como aprendemos algo sobre S durante a análise de qualidade, o que se faz é obter um conjunto   com indicadores   e  , depois um conjunto   com indicadores   e  , e assim por diante, eliminando falhas (falso-positivos) e acrescentando novos elementos, supondo que ainda existam falso-negativos em  . Até chegarmos a um conjunto   onde não conseguimos mais detectar falhas ou acrescentar novos elementos. Neste momento podemos supor que não existem mais falso-negativos, ou dizer que fizemos o melhor possível... Então, do ponto de vista prático, vale a equiparação entre os selecionados e os relevantes,  .
Método do funil
Na prática todavia fica mais simples usar  , depois  , etc. com   baixo e   bem alto, de modo que não há risco de falso-negativos no conjunto  . Daí em diante garantiremos que   e que  , de modo a filtrar elementos (falso-positivos) como num funil.

Avaliando custos

editar

Se o valor de |U| é muito alto (milhões de elementos) não há como conhecer R, portanto qualquer valor para |R| será uma estimativa. Já o valor de |S| é sempre conhecido com exatidão. Por fim o valor de |SR| também pode ser conhecido: por "força bruta" podemos conferir um a um dos elementos de S e dizer se pertencem ou não a R.

A "verificação por força bruta", também chamada "verificação exaustiva" (algumas áreas adotam o termo "sistemática"), é a mais confiável e ao mesmo tempo a de maior custo. O que se faz usualmente é verificação estatística, tanto por amostragem como por buscas complementares para eliminar hipóteses de falso-positivo ou falso-negativo.

... Custos para se descobrir e refinar R: existe uma lenda que diz que os primeiros 70% são mais baratos do que os restantes 20%, que são mais baratos que os restantes 10%.

Referências

editar
  1. "About the size of Google Scholar: playing the numbers", https://arxiv.org/ftp/arxiv/papers/1407/1407.6239.pdf
  2. (Nota: para conferir o tamanho corrente do banco de dados do PubMed.gov basta buscar 1800:2100[dp]).