Observatório JATS/Tutorial do Curador

Na equipe das campanhas são necessários dois atores, o curador e o expert. Este tutorial tem como público-alvo o curador. É um complemento do tutorial do expert pois estaremos abordando os mesmos exemplos, com cada equipe fazendo o seu papel na metodologia.

O objetivo deste tutorial é mostrar passo-a-passo as tarefas da curadoria que garantem a formação do conjunto de artigos JATS e sua comparação com o conjunto geral de artigos (JATS e não-JATS). Como ilustração vamos usar o exemplo da campanha-05 sobre o Zika virus.

Resumo

editar

Simplificadamente a sequência de tarefas é a seguinte:

  1. Definir o tema com precisão, fixando o seu "núcleo semântico".
  2. Buscar os artigos relevantes
  3. Filtrar os falso-positivos
  4. Filtrar os não-artigos (prioriza-se research articles)
  5. Avaliar o perfil por ano e por ISSN
  6. Recuperar os disponíveis em JATS
  7. Qualificar o JATS
  8. Avaliar o perfil dos JATS e comparar com o perfil geral
  9. Realizar levantamentos mais específicos sobre o JATS

Todas essas tarefas são realizadas com a ajuda dos experts e cada uma delas resulta num pequeno relatório.

Definições iniciais

editar

O assunto de uma campanha do Observatório JATS precisa ser definido através de recursos da Web Semântica e de alguns exemplos, o que resulta na definição do "núcleo semântico". Para maiores detalhes ver o tutorial de introdução.

O núcleo semântico da campanha c07 é dado por:

  • conceito Q15706459 (research article - artigo científico de pesquisa), que é um subtipo de Q13442814 (scientific article).
  • Amostras de artigos selecionados pela curadoria: planilha dos exemplos (nucleoSem_Exemplos) e planilha dos contra-exemplos (nucleoSem_ContraEx).

....

Levantamento e seleção dos relevantes

editar

A pesquisa dos artigos científicos pode fazer uso das mais diversas ferramentas de busca (PubMed, Google Scholar, etc.) visando num primeiro momento a máxima revocação. Aos poucos as filtragens de falsos-positivos vão elevando a precisão e fixando o real conjunto dos artigos existentes sobre o tema da campanha. Outros elementos metodológicos também podem ser encontrados na literatura sobre revisão sistemática.

O principal produto do levantamento é uma lista de identificadores, que, na prática podem ser DOIs ou indetificadores PubMed (PMID).

Exemplo: buscar no http://PubMed.gov todos os artigos com a palavra-chave "Zika" ou "ZIKV" (suficientes para caracterizar o assunto Zika virus). A maior parte dos artigos foi produzida entre 2014 e 2017, com grande salto em 2016... Depois de fazer a busca desejada pode-se baixar os resultados em uma planilha CSV através do FLink: ver este tutorial para maiores detalhes.

Para a planilha do tutorial foi usada em outubro de 2017 a busca

Zika[Title/Abstract] OR ZIKV[Title/Abstract] OR Zika[MeSH Terms] OR ZIKV[MeSH Terms]

Baixar a planilha gerada pelo FLink, um arquivo CSV com um nome numérico, algo como 123456.csv. Renomear para algo mais significativo, com a seguinte sequência de prefixos concatenados:

  • pubMed pois a pesquisa foi feita no PubMed.
  • _resultMax pois buscou-se máxima revocação...
  • -Zika-2017-10 é o rótulo do tema e uma referência de data (ano e mês).

Resultando em pubMed_resultMax-Zika-2017-10.csv, com 3412 itens, que pode então ser entregue para a equipe de experts.

Garantindo a precisão dos selecionados

editar

Até aqui maximizou-se a revogação, trazendo entre os 3412 artigos alguns falsos-positivos como o artigo PMID 24605459, "Mosquitoes of Zika Forest, Uganda: species composition and relative abundance", que é relativo à Zika Forest e sua fauna... Vamos supor que a curadoria tenham homologado este e outros artigos sobre pássaros da floresta como falsos-positivos.

Cabe agora à equipe de experts listar (para que se confirme) e eliminar esses falsos-positivos, garantindo maior precisão do conjunto-universo ddepois da filtragem. Para simplificar, vamos supor que a filtragem consiste em avaliar resumos e títulos com as palavras-chave "forest", "bird" ou "ornithology". A filtragem resultou em apenas 11 itens (11/3412 = 0,3%), listados em [[1]]. Apenas 3 (27% dos 11) eram de fato falsos-positivos: 4378566, 27942961, 28716770.

Perfil de distribuição por anos e ISSNs

editar
c05_res1_01
year n
... ...
2012 5
2013 3
2014 27
2015 37
2016 1641
2017 1626

A tabela ao lado ilustra o gráfico já mostrado pelo PubMed na pesquisa, mostrando o salto em 2016,

O perfil completo de ano-quantidade está c05_res1_01-BySql.csv.

Filtrando o que sobra em JATS

editar

...

Análise preliminar e qualificação dos arquivos JATS

editar

...

Levantamentos estatísticos gerais

editar

...

Levantamentos estatísticos específicos

editar

...