Observatório JATS/Tutorial do Curador
Na equipe das campanhas são necessários dois atores, o curador e o expert. Este tutorial tem como público-alvo o curador. É um complemento do tutorial do expert pois estaremos abordando os mesmos exemplos, com cada equipe fazendo o seu papel na metodologia.
O objetivo deste tutorial é mostrar passo-a-passo as tarefas da curadoria que garantem a formação do conjunto de artigos JATS e sua comparação com o conjunto geral de artigos (JATS e não-JATS). Como ilustração vamos usar o exemplo da campanha-05 sobre o Zika virus.
Resumo
editarSimplificadamente a sequência de tarefas é a seguinte:
- Definir o tema com precisão, fixando o seu "núcleo semântico".
- Buscar os artigos relevantes
- Filtrar os falso-positivos
- Filtrar os não-artigos (prioriza-se research articles)
- Avaliar o perfil por ano e por ISSN
- Recuperar os disponíveis em JATS
- Qualificar o JATS
- Avaliar o perfil dos JATS e comparar com o perfil geral
- Realizar levantamentos mais específicos sobre o JATS
Todas essas tarefas são realizadas com a ajuda dos experts e cada uma delas resulta num pequeno relatório.
Definições iniciais
editarO assunto de uma campanha do Observatório JATS precisa ser definido através de recursos da Web Semântica e de alguns exemplos, o que resulta na definição do "núcleo semântico". Para maiores detalhes ver o tutorial de introdução.
O núcleo semântico da campanha c07 é dado por:
- conceito Q202864 (Zika virus).
- conceito Q15706459 (research article - artigo científico de pesquisa), que é um subtipo de Q13442814 (scientific article).
- Amostras de artigos selecionados pela curadoria: planilha dos exemplos (nucleoSem_Exemplos) e planilha dos contra-exemplos (nucleoSem_ContraEx).
....
Levantamento e seleção dos relevantes
editarA pesquisa dos artigos científicos pode fazer uso das mais diversas ferramentas de busca (PubMed, Google Scholar, etc.) visando num primeiro momento a máxima revocação. Aos poucos as filtragens de falsos-positivos vão elevando a precisão e fixando o real conjunto dos artigos existentes sobre o tema da campanha. Outros elementos metodológicos também podem ser encontrados na literatura sobre revisão sistemática.
O principal produto do levantamento é uma lista de identificadores, que, na prática podem ser DOIs ou indetificadores PubMed (PMID
).
Exemplo: buscar no http://PubMed.gov todos os artigos com a palavra-chave "Zika" ou "ZIKV" (suficientes para caracterizar o assunto Zika virus). A maior parte dos artigos foi produzida entre 2014 e 2017, com grande salto em 2016... Depois de fazer a busca desejada pode-se baixar os resultados em uma planilha CSV através do FLink: ver este tutorial para maiores detalhes.
Para a planilha do tutorial foi usada em outubro de 2017 a busca
Zika[Title/Abstract] OR ZIKV[Title/Abstract] OR Zika[MeSH Terms] OR ZIKV[MeSH Terms]
Baixar a planilha gerada pelo FLink, um arquivo CSV com um nome numérico, algo como 123456.csv
. Renomear para algo mais significativo, com a seguinte sequência de prefixos concatenados:
pubMed
pois a pesquisa foi feita no PubMed._resultMax
pois buscou-se máxima revocação...-Zika-2017-10
é o rótulo do tema e uma referência de data (ano e mês).
Resultando em pubMed_resultMax-Zika-2017-10.csv
, com 3412 itens, que pode então ser entregue para a equipe de experts.
Garantindo a precisão dos selecionados
editarAté aqui maximizou-se a revogação, trazendo entre os 3412 artigos alguns falsos-positivos como o artigo PMID 24605459, "Mosquitoes of Zika Forest, Uganda: species composition and relative abundance", que é relativo à Zika Forest e sua fauna... Vamos supor que a curadoria tenham homologado este e outros artigos sobre pássaros da floresta como falsos-positivos.
Cabe agora à equipe de experts listar (para que se confirme) e eliminar esses falsos-positivos, garantindo maior precisão do conjunto-universo ddepois da filtragem. Para simplificar, vamos supor que a filtragem consiste em avaliar resumos e títulos com as palavras-chave "forest", "bird" ou "ornithology". A filtragem resultou em apenas 11 itens (11/3412 = 0,3%), listados em [[1]]. Apenas 3 (27% dos 11) eram de fato falsos-positivos: 4378566, 27942961, 28716770.
Perfil de distribuição por anos e ISSNs
editaryear | n |
---|---|
... | ... |
2012 | 5 |
2013 | 3 |
2014 | 27 |
2015 | 37 |
2016 | 1641 |
2017 | 1626 |
A tabela ao lado ilustra o gráfico já mostrado pelo PubMed na pesquisa, mostrando o salto em 2016,
O perfil completo de ano-quantidade está c05_res1_01-BySql.csv.
Filtrando o que sobra em JATS
editar...
Análise preliminar e qualificação dos arquivos JATS
editar...
Levantamentos estatísticos gerais
editar...
Levantamentos estatísticos específicos
editar...