Introdução editar

 

A bioestatística é uma disciplina que combina métodos estatísticos com conhecimentos em biologia, saúde pública e outras ciências da saúde para planejar, conduzir, analisar e interpretar pesquisas. Ela desempenha um papel importante em muitos aspectos da saúde pública, como em estudos epidemiológicos, ensaios clínicos, estudos genéticos e na avaliação de políticas de saúde e programas de prevenção de doenças.

A palavra "estatística" vem do italiano "statista", que significa "estadista" ou "político". Originalmente, a estatística estava preocupada com a coleta de informações para o uso do estado, principalmente para fins de administração e planejamento militar. Isso reflete sua longa história ligada à governança e à tomada de decisões baseada em dados.

Métodos estatísticos editar

Referem-se a técnicas e procedimentos usados para coletar, organizar, analisar, interpretar e apresentar dados. Esses métodos são divididos em duas categorias principais: estatística descritiva e estatística inferencial.

Estatística descritiva editar

A estatística descritiva foca na descrição e síntese dos dados de uma maneira informativa e compreensível. Isso inclui o uso de:

  • Medidas de tendência central: como a média, mediana e moda, que resumem um conjunto de dados em um único valor representativo.
  • Medidas de dispersão: como o desvio padrão, variância e amplitude, que indicam o quão espalhados estão os dados.
  • Representações gráficas: Como histogramas, gráficos de barras e gráficos de dispersão, que fornecem uma visualização intuitiva dos dados.
Estatística Inferencial editar

A estatística inferencial utiliza os dados de uma amostra para fazer generalizações ou inferências sobre uma população maior. Isso é feito por meio de:

  • Estimação de parâmetros: estima o valor de um parâmetro da população, como a média ou proporção, a partir de uma amostra.
  • Testes de hipóteses: avalia afirmações ou suposições sobre os parâmetros da população com base na análise de amostras.
  • Modelos preditivos: utiliza os dados para prever ou estimar um fenômeno futuro.
  • Análise de regressão: estuda a relação entre variáveis dependentes e independentes para entender como a variação em uma ou mais variáveis independentes afeta a variável dependente.

Aplicações da Bioestatística editar

A bioestatística é essencial para avançar no conhecimento científico e na tomada de decisões baseadas em evidências no campo da saúde. Ela fornece as ferramentas necessárias para quantificar a incerteza, avaliar riscos e benefícios de intervenções de saúde, e estabelecer causas e efeitos em estudos de saúde. Os usos mais comuns incluem:

  • Desenho de estudos: a bioestatística ajuda na criação de estudos experimentais e observacionais, garantindo que sejam estruturados de maneira a produzir resultados confiáveis e válidos.
  • Análise de dados: aplica métodos estatísticos para analisar dados coletados em pesquisas, permitindo a identificação de padrões, associações e causalidades.
  • Interpretação de resultados: facilita a interpretação correta dos resultados estatísticos, incluindo a avaliação da significância estatística e a relevância clínica das descobertas.
  • Monitoramento e vigilância: utilizada no monitoramento de dados de saúde pública para detectar surtos de doenças, avaliar programas de saúde e identificar problemas de saúde emergentes na população.
  • Desenvolvimento de novos tratamentos e vacinas: desempenha um papel central nos ensaios clínicos, desde o desenho até a análise dos resultados, contribuindo para o desenvolvimento de novos medicamentos e vacinas.

História da bioestatística editar

A bioestatística é uma disciplina em constante evolução, adaptando-se às necessidades emergentes da pesquisa em saúde e aos avanços tecnológicos.

Origens e desenvolvimento inicial editar

  • Século XVII ao XIX: O surgimento da bioestatística está ligado ao desenvolvimento da estatística e da probabilidade. No século XVII (de 1601 a 1700), John Graunt realizou um dos primeiros estudos estatísticos ao analisar registros de mortalidade em Londres, o que pode ser considerado um marco inicial no uso de dados para entender questões de saúde pública.
  •  
    Pierre Louis
    Século XIX: No século XIX (de 1801 a 1900), Pierre Charles Alexandre Louis aplicou métodos numéricos ao estudo de doenças, estabelecendo princípios de comparação de grupos fundamentais para a pesquisa clínica contemporânea.
Consolidação no século XX editar

A bioestatística ganhou terreno no século XX (de 1901 a 2000) com o desenvolvimento de novas técnicas e a formalização de métodos estatísticos. Alguns nomes de destaque incluem:

  •  
    Ronald Fisher
    Ronald A. Fisher é frequentemente considerado o pai da bioestatística moderna. Suas contribuições ao desenvolvimento da análise de variância (ANOVA), delineamento experimental e máxima verossimilhança tiveram um impacto profundo no campo. Fisher também introduziu o conceito de significância estatística, uma pedra angular da inferência estatística.
Fisher também contribuiu significativamente para a genética. Ele foi um dos fundadores da genética de populações, integrando as leis mendelianas de hereditariedade com a teoria da seleção natural de Charles Darwin.
  •  
    Karl Pearson
    Karl Pearson é conhecido por seu trabalho pioneiro em estatística aplicada, que inclui o desenvolvimento do coeficiente de correlação de Pearson, um dos primeiros passos na quantificação de relações lineares entre variáveis. Ele fundou o primeiro departamento universitário de estatística no mundo, no University College London.
  •  
    Florence Nightingale
     
    Diagrama de área polar de Florence Nightingale
    Embora mais conhecida por seu trabalho como enfermeira, Florence Nightingale também foi uma estatística inovadora. Ela utilizou métodos estatísticos para melhorar as práticas de saúde e higiene no exército britânico, tendo sido creditada com o desenvolvimento de formas iniciais de representação gráfica de dados estatísticos, como o diagrama de área polar, para persuadir os tomadores de decisão da época.
  •  
    David Cox
    David R. Cox foi um estatístico britânico renomado por seu trabalho em técnicas de regressão e design de experimentos. Ele é mais conhecido pelo modelo de riscos proporcionais de Cox, um método amplamente utilizado na análise de dados de sobrevivência, que revolucionou a pesquisa médica e epidemiológica.
Avanços recentes e desafios atuais editar
  • Fim do século XX e início do século XXI: O avanço da computação e do armazenamento de dados possibilitou o desenvolvimento de métodos estatísticos complexos, como modelos de riscos proporcionais de Cox, análise de sobrevivência, e bioinformática, fundamentais para a pesquisa genômica e epidemiológica.
  • Desafios atuais: A bioestatística continua a enfrentar desafios, incluindo o gerenciamento e análise de grandes volumes de dados biomédicos (big data), questões éticas relacionadas ao uso de dados de pacientes, e o desenvolvimento de métodos que possam lidar com a complexidade dos sistemas biológicos e de saúde.

Definição e classificação de variáveis editar

Variáveis são elementos estruturantes na pesquisa científica, servindo como unidades básicas de coleta e análise de dados. Elas podem ser definidas como características ou atributos que podem assumir diferentes valores entre indivíduos ou grupos em um estudo. A classificação de variáveis é usada na escolha de técnicas de análise estatística adequadas e para a interpretação correta dos resultados obtidos.

Definição de variáveis editar

Variável é qualquer característica, número ou quantidade que pode ser medida ou contada. As variáveis podem variar de indivíduo para indivíduo, tendo sido usadas para coletar dados, testar hipóteses e realizar inferências estatísticas. Elas podem representar conceitos simples, como idade ou peso, ou mais complexos, como nível de satisfação com a vida ou estado de saúde mental.

A transformação de variáveis é uma técnica usada para modificar a escala ou distribuição de uma variável, tornando-a mais adequada para análise. Por exemplo, a aplicação do logaritmo a variáveis altamente assimétricas pode normalizar sua distribuição, permitindo a aplicação de testes estatísticos que assumem normalidade.

Classificação de Variáveis editar

As variáveis são classificadas em diferentes tipos, com base na natureza dos dados que representam e na maneira como esses dados podem ser manipulados e analisados. A correta classificação das variáveis é importante no delineamento de estudos, análise de dados e interpretação de resultados. Isso inclui escolher as técnicas estatísticas adequadas para análise e garantir a validade e precisão dos resultados. Por exemplo, a análise de variáveis quantitativas pode requerer métodos diferentes dos usados para variáveis qualitativas, como testes t e ANOVA para as primeiras, e testes de Qui-quadrado ou modelos logísticos para as segundas.

A compreensão dessas definições e classificações permite aos pesquisadores estruturar adequadamente seus estudos, escolher os testes estatísticos corretos e interpretar seus resultados precisamente.

Variáveis quantitativas editar

  • Discretas: representam informações que podem ser contadas em números inteiros. Exemplos incluem o número de filhos, o número de episódios de uma doença e o número de consultas médicas.
  • Contínuas: representam informações que podem assumir qualquer valor em um intervalo contínuo. Exemplos são a altura, o peso e a pressão arterial.
Algumas variáveis, embora tecnicamente discretas, são tratadas como contínuas devido à sua ampla gama de valores e à percepção de que elas ocupam um espectro contínuo. Por exemplo, a contagem de células sanguíneas em um grande intervalo pode ser tratada como uma variável contínua para certas análises estatísticas

Variáveis qualitativas (ou categóricas) editar

  • Nominais: representam categorias sem qualquer ordem ou hierarquia. Exemplos incluem tipo sanguíneo, gênero e raça.
Variáveis dicotômicas são um subtipo de variáveis categóricas que têm apenas dois possíveis valores, como "sim" ou "não", "presente" ou "ausente". São particularmente interessantes porque, embora categóricas, podem ser analisadas usando técnicas estatísticas tanto para dados categóricos quanto, em certos contextos, para dados quantitativos, aplicando códigos numéricos (0 e 1, por exemplo) para representá-las.
  • Ordinais: representam categorias com uma ordem ou hierarquia natural. Exemplos são estágios de uma doença (leve, moderada, grave), níveis de educação (fundamental, médio, superior) e escalas de avaliação de dor.
Em pesquisas, as respostas em escalas Likert, que são usadas para avaliar atitudes ou percepções, são tratadas como variáveis ordinais. No entanto, na prática, muitos pesquisadores as analisam como se fossem variáveis de intervalo (um subtipo de variável contínua), assumindo que a distância entre os pontos da escala é igual, o que gera debates metodológicos.

Em pesquisas na área da saúde, as variáveis podem desempenhar diferentes funções em um estudo:

Variável dependente editar

A variável dependente (ou de resposta) é a variável de interesse que é medida ou avaliada para determinar o efeito das variáveis independentes. Em outras palavras, é o resultado ou o efeito que o pesquisador deseja explicar. Por exemplo, em um estudo sobre os efeitos do tabagismo no desenvolvimento de doenças cardiovasculares, a incidência de doenças cardiovasculares seria a variável dependente.

Variável independente editar

A variável independente (ou preditivas) é a variável que é manipulada ou categorizada para avaliar seu efeito sobre a variável dependente. É o fator de risco, exposição ou intervenção que o pesquisador está interessado em investigar em relação ao seu impacto na variável dependente. No exemplo do estudo sobre tabagismo e doenças cardiovasculares, o status de tabagismo (fumante ou não fumante) seria a variável independente.

Variável confundidora editar

Uma variável confundidora é uma variável externa que pode afetar tanto a variável independente quanto a dependente, levando a uma associação aparente entre elas que pode ser enganosa. O confundidor pode distorcer ou mascarar o verdadeiro efeito da variável independente sobre a variável dependente. No exemplo anterior, a idade pode ser uma variável confundidora, pois a idade afeta tanto o risco de doenças cardiovasculares quanto a probabilidade de ser fumante. Para avaliar corretamente o efeito do tabagismo sobre as doenças cardiovasculares, é essencial ajustar por idade nos análises.

Apresentação de dados em tabelas editar

Ilustrações são formas eficientes de resumir informações, valorizar o texto e atrair a atenção do leitor. No meio científico as duas mais comuns são tabelas e figuras. Estas ilustrações podem apresentar grandes conjuntos de dados de forma concisa e organizada, facilitando a compreensão e a comparação de diferentes valores ou tendências. Regra essencial: as ilustrações devem ser claras, concisas e autoexplicativas. O uso de legendas e títulos informativos é importante para garantir que a mensagem seja transmitida de forma eficaz.

As tabelas são particularmente úteis na apresentação de dados numéricos de forma organizada, permitindo comparações e análises estatísticas.

Princípios da organização de dados em tabelas editar

Para que uma tabela seja eficiente e facilite a compreensão dos dados, alguns princípios básicos de organização devem ser seguidos:

  1. Clareza e simplicidade: Apresente os dados de forma clara e concisa, evitando informações redundantes ou desnecessárias. Utilize um layout simples e organizado, com espaçamento adequado entre linhas e colunas para facilitar a leitura.
  2. Títulos e legendas informativas: A tabela deve ter um título claro e conciso que indique o conteúdo dos dados. Cada coluna e linha deve ter um título ou legenda descritiva que explique o significado dos valores apresentados. Utilize unidades de medida padronizadas e indique-as claramente.
  3. Formatação consistente: Utilize formatação consistente para números, texto e símbolos. Alinhe os números de acordo com a casa decimal. Utilize fontes legíveis e de tamanho adequado.
  4. Organização lógica dos dados: Organize os dados de forma lógica e significativa, agrupando informações relacionadas. Utilize linhas e colunas para facilitar a comparação de dados. Se necessário, utilize cores ou sombreamento para destacar tendências ou diferenças.
  5. Notas de rodapé: Utilize notas de rodapé para explicar abreviações, símbolos ou informações adicionais que não se encaixam no corpo da tabela.
  6. Autoexplicativa: A tabela deve ser autoexplicativa, permitindo que o leitor compreenda os dados sem precisar consultar o texto principal.
  7. Evitar redundância: Evite repetir informações que já estão presentes em outras partes do texto.
  8. Considerar o público-alvo: Adapte a linguagem e o nível de detalhe da tabela ao público-alvo.

Tabelas de distribuição de frequência editar

As tabelas de distribuição de frequência são um tipo específico de tabela muito utilizada no meio científico para apresentar dados numéricos de forma organizada e concisa. Elas mostram a frequência com que cada valor ou intervalo de valores ocorre em um conjunto de dados.

Elementos de uma tabela de distribuição de frequência editar

  • Classes: São os intervalos de valores que dividem os dados.
  • Frequência absoluta: É o número de vezes que cada valor ou classe aparece no conjunto de dados.
  • Frequência relativa: É a proporção ou porcentagem de observações que se enquadram em cada classe.
  • Frequência acumulada: É o número total de observações até uma determinada classe.

Vantagens das tabelas de distribuição de frequência editar

  • Permitem visualizar rapidamente a distribuição dos dados e identificar padrões ou tendências.
  • Facilitam a comparação entre diferentes conjuntos de dados.
  • São úteis para calcular medidas estatísticas descritivas, como média, mediana e moda.

Regras para construir tabelas de distribuição de frequência editar

  • As classes devem ser mutuamente exclusivas e exaustivas, ou seja, cada valor deve pertencer a uma única classe e todas as classes juntas devem abranger todos os dados.
  • As classes devem ter a mesma amplitude, exceto quando a última classe for aberta (ex: "maior que 50").
  • A tabela deve ter um título claro e descritivo.
  • As colunas e linhas devem ser rotuladas de forma clara e concisa.
Exemplo fictício de uma tabela de distribuição de frequência
Número de faltas Frequência absoluta Frequência relativa (%) Frequência acumulada (%)
0 a 3 23 53,5 53,5
4 a 9 13 30,2 83,7
10 ou mais 7 16,3 100

Tabelas de Contingência editar

As tabelas de contingência são um tipo específico de tabela frequentemente utilizado no meio científico para apresentar dados categóricos. Elas permitem analisar a relação entre duas ou mais variáveis, mostrando a frequência com que cada combinação de categorias ocorre.

Características editar

  • Organizam dados em linhas e colunas, onde cada linha e coluna representa uma categoria de uma variável.
  • As células da tabela mostram a frequência (contagem) de observações que se enquadram em cada combinação de categorias.
  • Permitem calcular e visualizar facilmente as distribuições marginais de cada variável.
  • Facilitam a análise da relação entre as variáveis, ajudando a identificar padrões, tendências e associações.

Vantagens editar

  • Apresentação clara e concisa de dados categóricos.
  • Facilidade de interpretação e comparação de frequências.
  • Permitem identificar relações e padrões entre variáveis.

Limitações editar

  • Podem ser complexas de analisar quando há muitas categorias ou variáveis.
  • Não são adequadas para dados numéricos contínuos.

Dicas para tabelas de contingência eficazes editar

  • Usar títulos e legendas claros e informativos.
  • Organizar as categorias de forma lógica.
  • Incluir totais marginais para linhas e colunas.
  • Utilizar formatação consistente e legível.
Exemplo fictício de tabela de contingência
Parametro Hipertensão autorreferida
Sim (n, %) Não (n, %)
Sexo
Masculino 280 (17,2) 1.352 (82,8)
Feminino 379 (22,4) 1.312 (77,6)

Apresentação de dados em gráficos editar

A escolha do tipo de gráfico depende do tipo de dado que você deseja apresentar e da mensagem que você quer transmitir. É importante escolher o tipo de gráfico que melhor represente seus dados e que seja facilmente compreendido pelo público-alvo. Abaixo estão alguns tipos de gráficos comumente utilizados na pesquisa científica, juntamente com suas aplicações:

Gráficos de barras vertical editar

 
Gráfico de barras vertical
  • Apresentação: Exibem a frequência de diferentes categorias em um conjunto de dados.
  • Utilização: Comparar valores entre diferentes grupos ou categorias.
  • Exemplos: Distribuição de casos de uma doença por faixa etária, comparação de taxas de mortalidade entre diferentes regiões.

Gráficos de barras horizontal editar

 
Gráfico de barras horizontal
  • Apresentação: Similar ao gráfico de barras vertical, mas com as barras dispostas horizontalmente.
  • Utilização: Similar ao gráfico de barras vertical, mas pode ser mais adequado quando as etiquetas das categorias são longas.

Histogramas editar

 
Histograma
  • Apresentação: Exibem a distribuição de uma variável contínua, dividindo os dados em intervalos (classes) e mostrando a frequência em cada intervalo.
  • Utilização: Visualizar a forma da distribuição de dados, identificar outliers e tendências.
  • Exemplos: Distribuição de idade dos pacientes em um estudo, distribuição de pressão arterial em uma população.
Outliers são pontos de dados que se desviam significativamente dos demais dados em um conjunto. Eles podem ser causados por erros de medição, eventos raros ou simplesmente por variação natural. Para identificar outliers utiliza-se inspeção visual (gráficos), regras estatísticas (medidas de dispersão) e/ou testes estatísticos (Grubbs). Outliers podem ter um impacto importante na análise de dados, especialmente em estudos com amostras pequenas. A decisão de como lidar com outliers depende da causa dos outliers e dos objetivos da análise. Se os outliers forem considerados como parte da população em estudo, eles devem ser mantidos na análise. No entanto, é importante estar ciente de que os outliers podem ter um impacto significativo nos resultados. Se os outliers forem considerados como erros de medição ou eventos raros que não são representativos da população em estudo, eles podem ser removidos da análise. No entanto, é importante ter cuidado ao remover outliers, pois isso pode levar à perda de informações importantes. Em alguns casos, pode ser útil transformar os dados (por exemplo, usando logaritmos) para reduzir o impacto dos outliers. Existem métodos estatísticos robustos que são menos sensíveis à presença de outliers. Independente do cenário, é importante documentar cuidadosamente como os outliers foram tratados na análise de dados.

Gráficos de linha editar

 
Gráfico de linha
  • Apresentação: Exibem a variação de uma variável ao longo do tempo ou de outra variável ordinal.
  • Utilização: Mostrar tendências e padrões ao longo do tempo ou de outra variável ordinal.
  • Exemplos: Tendência da taxa de incidência de uma doença conforme a faixa-etária, evolução da mortalidade infantil em um país.

Gráficos de dispersão editar

 
Diagrama de dispersão
  • Apresentação: Mostram a relação entre duas variáveis contínuas.
  • Utilização: Investigar se existe uma associação entre duas variáveis.
  • Exemplos: Relação entre peso e altura, relação entre tabagismo e risco de câncer de pulmão.

Gráficos de pizza editar

 
Diagrama de setores (pizza)
  • Apresentação: Dividem um círculo em fatias proporcionais às frequências das diferentes categorias.
  • Utilização: Mostrar a composição de um todo.
  • Exemplos: Proporção de diferentes tipos de câncer em uma população, distribuição de gastos em saúde por setor.

Mapas editar

 
Mapas
  • Apresentação: Exibem a distribuição espacial de dados.
  • Utilização: Identificar áreas de risco para doenças, visualizar a distribuição de recursos de saúde.
  • Exemplos: Mapa da incidência de malária em uma região, mapa da localização de hospitais em uma cidade.

Boxplots editar

 
Boxplot (diagrama de caixas)
  • Apresentação: Exibem a distribuição de uma variável contínua, mostrando a mediana, os quartis e os valores discrepantes.
  • Utilização: Comparar a distribuição de uma variável entre diferentes grupos.
  • Exemplos: Comparar a distribuição de idade entre homens e mulheres, comparar a distribuição de níveis de colesterol entre diferentes grupos de tratamento.

Visualizar e interpretar dados editar

A visualização de dados permite que os pesquisadores identifiquem padrões, tendências e relações entre variáveis que podem não ser facilmente detectados apenas com a análise numérica. A interpretação de gráficos requer conhecimento da área de estudo e dos métodos estatísticos utilizados para gerar os dados. É importante ter cuidado ao interpretar gráficos e evitar tirar conclusões precipitadas.

Identificar padrões e tendências editar

Gráficos podem revelar padrões e tendências nos dados que não são facilmente aparentes em tabelas. Por exemplo, um gráfico de linha pode mostrar como a taxa de incidência de uma doença variou ao longo do tempo, ou um mapa pode mostrar a distribuição espacial de casos de uma doença.

Comparar grupos editar

Gráficos podem ser usados para comparar diferentes grupos em relação a uma determinada variável. Por exemplo, um gráfico de barras pode ser usado para comparar as taxas de mortalidade entre homens e mulheres, ou um boxplot pode ser usado para comparar a distribuição de idade entre diferentes grupos de tratamento.

Investigar relações entre variáveis editar

Gráficos de dispersão podem ser usados para investigar se existe uma associação entre duas variáveis. Por exemplo, um gráfico de dispersão pode ser usado para examinar a relação entre o índice de massa corporal e o risco de diabetes.

Comunicar resultados editar

Gráficos podem ser usados para comunicar os resultados de estudos de forma clara e concisa para diferentes públicos, incluindo outros pesquisadores, profissionais de saúde e o público em geral.

Dicas para a interpretação editar

  • Tipo de gráfico: diferentes tipos de gráficos são adequados para diferentes tipos de dados e perguntas de pesquisa. É importante escolher o tipo de gráfico que melhor represente os dados e que seja adequado para a mensagem que se deseja transmitir.
  • Eixos e legendas: os eixos do gráfico devem ser claramente rotulados com as variáveis que estão sendo representadas. A legenda deve explicar o significado dos diferentes símbolos e cores usados no gráfico.
  • Tendências e padrões: é importante identificar as tendências e padrões gerais nos dados, bem como quaisquer outliers ou pontos de dados incomuns.
  • Limitações dos dados: é importante ter em mente as limitações dos dados ao interpretar gráficos. Por exemplo, um gráfico pode ser baseado em uma amostra pequena ou enviesada, o que pode limitar a generalização dos resultados.