Bioestatística

Material de apoio do componente curricular "Demografia e bioestatística" da Universidade de Brasília. O conteúdo sobre demografia encontra-se neste link: Demografia para saúde coletiva

Introdução

A bioestatística é uma disciplina que combina métodos estatísticos com conhecimentos em biologia, saúde pública e outras ciências da saúde para planejar, conduzir, analisar e interpretar pesquisas. Ela desempenha um papel importante em muitos aspectos da saúde pública, como em estudos epidemiológicos, ensaios clínicos, estudos genéticos e na avaliação de políticas de saúde e programas de prevenção de doenças.


A palavra "estatística" vem do italiano "statista", que significa "estadista" ou "político". Originalmente, a estatística estava preocupada com a coleta de informações para o uso do estado, principalmente para fins de administração e planejamento militar. Isso reflete sua longa história ligada à governança e à tomada de decisões baseada em dados.

Métodos estatísticos

Referem-se a técnicas e procedimentos usados para coletar, organizar, analisar, interpretar e apresentar dados. Esses métodos são divididos em duas categorias principais: estatística descritiva e estatística inferencial.

Estatística descritiva

A estatística descritiva foca na descrição e síntese dos dados de uma maneira informativa e compreensível. Isso inclui o uso de:

Medidas de tendência central: como a média, mediana e moda, que resumem um conjunto de dados em um único valor representativo.
Medidas de dispersão: como o desvio padrão, variância e amplitude, que indicam o quão espalhados estão os dados.
Representações gráficas: Como histogramas, gráficos de barras e gráficos de dispersão, que fornecem uma visualização intuitiva dos dados.

Estatística Inferencial

A estatística inferencial utiliza os dados de uma amostra para fazer generalizações ou inferências sobre uma população maior. Isso é feito por meio de:

Estimação de parâmetros: estima o valor de um parâmetro da população, como a média ou proporção, a partir de uma amostra.
Testes de hipóteses: avalia afirmações ou suposições sobre os parâmetros da população com base na análise de amostras.
Modelos preditivos: utiliza os dados para prever ou estimar um fenômeno futuro.
Análise de regressão: estuda a relação entre variáveis dependentes e independentes para entender como a variação em uma ou mais variáveis independentes afeta a variável dependente.

Aplicações da Bioestatística

A bioestatística é essencial para avançar no conhecimento científico e na tomada de decisões baseadas em evidências no campo da saúde. Ela fornece as ferramentas necessárias para quantificar a incerteza, avaliar riscos e benefícios de intervenções de saúde, e estabelecer causas e efeitos em estudos de saúde. Os usos mais comuns incluem:

Desenho de estudos: a bioestatística ajuda na criação de estudos experimentais e observacionais, garantindo que sejam estruturados de maneira a produzir resultados confiáveis e válidos.
Análise de dados: aplica métodos estatísticos para analisar dados coletados em pesquisas, permitindo a identificação de padrões, associações e causalidades.
Interpretação de resultados: facilita a interpretação correta dos resultados estatísticos, incluindo a avaliação da significância estatística e a relevância clínica das descobertas.
Monitoramento e vigilância: utilizada no monitoramento de dados de saúde pública para detectar surtos de doenças, avaliar programas de saúde e identificar problemas de saúde emergentes na população.
Desenvolvimento de novos tratamentos e vacinas: desempenha um papel central nos ensaios clínicos, desde o desenho até a análise dos resultados, contribuindo para o desenvolvimento de novos medicamentos e vacinas.

História da bioestatística

A bioestatística é uma disciplina em constante evolução, adaptando-se às necessidades emergentes da pesquisa em saúde e aos avanços tecnológicos.

Origens e desenvolvimento inicial

Século XVII ao XIX: O surgimento da bioestatística está ligado ao desenvolvimento da estatística e da probabilidade. No século XVII (de 1601 a 1700), John Graunt realizou um dos primeiros estudos estatísticos ao analisar registros de mortalidade em Londres, o que pode ser considerado um marco inicial no uso de dados para entender questões de saúde pública.
Pierre Louis
Século XIX: No século XIX (de 1801 a 1900), Pierre Charles Alexandre Louis aplicou métodos numéricos ao estudo de doenças, estabelecendo princípios de comparação de grupos fundamentais para a pesquisa clínica contemporânea.

Consolidação no século XX

A bioestatística ganhou terreno no século XX (de 1901 a 2000) com o desenvolvimento de novas técnicas e a formalização de métodos estatísticos. Alguns nomes de destaque incluem:

Ronald Fisher
Ronald A. Fisher é frequentemente considerado o pai da bioestatística moderna. Suas contribuições ao desenvolvimento da análise de variância (ANOVA), delineamento experimental e máxima verossimilhança tiveram um impacto profundo no campo. Fisher também introduziu o conceito de significância estatística, uma pedra angular da inferência estatística.


Fisher também contribuiu significativamente para a genética. Ele foi um dos fundadores da genética de populações, integrando as leis mendelianas de hereditariedade com a teoria da seleção natural de Charles Darwin.

Karl Pearson
Karl Pearson é conhecido por seu trabalho pioneiro em estatística aplicada, que inclui o desenvolvimento do coeficiente de correlação de Pearson, um dos primeiros passos na quantificação de relações lineares entre variáveis. Ele fundou o primeiro departamento universitário de estatística no mundo, no University College London.
Florence Nightingale

Diagrama de área polar de Florence Nightingale
Embora mais conhecida por seu trabalho como enfermeira, Florence Nightingale também foi uma estatística inovadora. Ela utilizou métodos estatísticos para melhorar as práticas de saúde e higiene no exército britânico, tendo sido creditada com o desenvolvimento de formas iniciais de representação gráfica de dados estatísticos, como o diagrama de área polar, para persuadir os tomadores de decisão da época.
David Cox
David R. Cox foi um estatístico britânico renomado por seu trabalho em técnicas de regressão e design de experimentos. Ele é mais conhecido pelo modelo de riscos proporcionais de Cox, um método amplamente utilizado na análise de dados de sobrevivência, que revolucionou a pesquisa médica e epidemiológica.

Avanços recentes e desafios atuais

Fim do século XX e início do século XXI: O avanço da computação e do armazenamento de dados possibilitou o desenvolvimento de métodos estatísticos complexos, como modelos de riscos proporcionais de Cox, análise de sobrevivência, e bioinformática, fundamentais para a pesquisa genômica e epidemiológica.
Desafios atuais: A bioestatística continua a enfrentar desafios, incluindo o gerenciamento e análise de grandes volumes de dados biomédicos (big data), questões éticas relacionadas ao uso de dados de pacientes, e o desenvolvimento de métodos que possam lidar com a complexidade dos sistemas biológicos e de saúde.

Definição e classificação de variáveis

Variáveis são elementos estruturantes na pesquisa científica, servindo como unidades básicas de coleta e análise de dados. Elas podem ser definidas como características ou atributos que podem assumir diferentes valores entre indivíduos ou grupos em um estudo. A classificação de variáveis é usada na escolha de técnicas de análise estatística adequadas e para a interpretação correta dos resultados obtidos.

Definição de variáveis

Variável é qualquer característica, número ou quantidade que pode ser medida ou contada. As variáveis podem variar de indivíduo para indivíduo, tendo sido usadas para coletar dados, testar hipóteses e realizar inferências estatísticas. Elas podem representar conceitos simples, como idade ou peso, ou mais complexos, como nível de satisfação com a vida ou estado de saúde mental.


A transformação de variáveis é uma técnica usada para modificar a escala ou distribuição de uma variável, tornando-a mais adequada para análise. Por exemplo, a aplicação do logaritmo a variáveis altamente assimétricas pode normalizar sua distribuição, permitindo a aplicação de testes estatísticos que assumem normalidade.

Classificação de Variáveis

As variáveis são classificadas em diferentes tipos, com base na natureza dos dados que representam e na maneira como esses dados podem ser manipulados e analisados. A correta classificação das variáveis é importante no delineamento de estudos, análise de dados e interpretação de resultados. Isso inclui escolher as técnicas estatísticas adequadas para análise e garantir a validade e precisão dos resultados. Por exemplo, a análise de variáveis quantitativas pode requerer métodos diferentes dos usados para variáveis qualitativas, como testes t e ANOVA para as primeiras, e testes de Qui-quadrado ou modelos logísticos para as segundas.

A compreensão dessas definições e classificações permite aos pesquisadores estruturar adequadamente seus estudos, escolher os testes estatísticos corretos e interpretar seus resultados precisamente.

Variáveis quantitativas

Discretas: representam informações que podem ser contadas em números inteiros. Exemplos incluem o número de filhos, o número de episódios de uma doença e o número de consultas médicas.
Contínuas: representam informações que podem assumir qualquer valor em um intervalo contínuo. Exemplos são a altura, o peso e a pressão arterial.


Algumas variáveis, embora tecnicamente discretas, são tratadas como contínuas devido à sua ampla gama de valores e à percepção de que elas ocupam um espectro contínuo. Por exemplo, a contagem de células sanguíneas em um grande intervalo pode ser tratada como uma variável contínua para certas análises estatísticas

Variáveis qualitativas (ou categóricas)

Nominais: representam categorias sem qualquer ordem ou hierarquia. Exemplos incluem tipo sanguíneo, gênero e raça.


Variáveis dicotômicas são um subtipo de variáveis categóricas que têm apenas dois possíveis valores, como "sim" ou "não", "presente" ou "ausente". São particularmente interessantes porque, embora categóricas, podem ser analisadas usando técnicas estatísticas tanto para dados categóricos quanto, em certos contextos, para dados quantitativos, aplicando códigos numéricos (0 e 1, por exemplo) para representá-las.

Ordinais: representam categorias com uma ordem ou hierarquia natural. Exemplos são estágios de uma doença (leve, moderada, grave), níveis de educação (fundamental, médio, superior) e escalas de avaliação de dor.


Em pesquisas, as respostas em escalas Likert, que são usadas para avaliar atitudes ou percepções, são tratadas como variáveis ordinais. No entanto, na prática, muitos pesquisadores as analisam como se fossem variáveis de intervalo (um subtipo de variável contínua), assumindo que a distância entre os pontos da escala é igual, o que gera debates metodológicos.

Em pesquisas na área da saúde, as variáveis podem desempenhar diferentes funções em um estudo:

Variável dependente

A variável dependente (ou de resposta) é a variável de interesse que é medida ou avaliada para determinar o efeito das variáveis independentes. Em outras palavras, é o resultado ou o efeito que o pesquisador deseja explicar. Por exemplo, em um estudo sobre os efeitos do tabagismo no desenvolvimento de doenças cardiovasculares, a incidência de doenças cardiovasculares seria a variável dependente.

Variável independente

A variável independente (ou preditivas) é a variável que é manipulada ou categorizada para avaliar seu efeito sobre a variável dependente. É o fator de risco, exposição ou intervenção que o pesquisador está interessado em investigar em relação ao seu impacto na variável dependente. No exemplo do estudo sobre tabagismo e doenças cardiovasculares, o status de tabagismo (fumante ou não fumante) seria a variável independente.

Variável confundidora

Uma variável confundidora é uma variável externa que pode afetar tanto a variável independente quanto a dependente, levando a uma associação aparente entre elas que pode ser enganosa. O confundidor pode distorcer ou mascarar o verdadeiro efeito da variável independente sobre a variável dependente. No exemplo anterior, a idade pode ser uma variável confundidora, pois a idade afeta tanto o risco de doenças cardiovasculares quanto a probabilidade de ser fumante. Para avaliar corretamente o efeito do tabagismo sobre as doenças cardiovasculares, é essencial ajustar por idade nos análises.

Noções sobre amostragem

Em pesquisa, frequentemente lidamos com populações grandes, tornando inviável a coleta de dados de todos os indivíduos. A amostragem é ferramenta usada para obter informações sobre uma população a partir de um subconjunto representativo dela, chamado de amostra. A escolha adequada do método de amostragem é importante para garantir que a amostra reflita as características da população de interesse, permitindo generalizar as conclusões obtidas.

A escolha do tipo de amostragem depende de diversos fatores, como o objetivo da pesquisa, a natureza da população, os recursos disponíveis e a precisão desejada. Cada tipo de amostragem tem vantagens e desvantagens, e a decisão deve ser tomada com base nas necessidades específicas do estudo. Este tópico abordará os principais tipos e técnicas de amostragem, fornecendo uma visão geral de suas características, vantagens e desvantagens, além de exemplos práticos de aplicação em saúde.

Amostragem probabilística

A amostragem probabilística, também conhecida como aleatória, é o padrão-ouro em pesquisa. Nela, cada elemento da população tem uma chance conhecida e diferente de zero de ser selecionado para a amostra, o que garante a aleatoriedade e permite a aplicação de métodos estatísticos inferenciais para generalizar os resultados para a população.

Amostragem aleatória simples

A amostragem aleatória simples é a técnica mais básica, onde cada elemento da população tem a mesma probabilidade de ser selecionado. A seleção pode ser feita por sorteio, tabela de números aleatórios ou softwares estatísticos.

Vantagens:

Baixo viés: Método menos propenso a viés de seleção, pois cada membro da população tem a mesma chance de ser escolhido. Aumenta a probabilidade de uma amostra representativa.
Simplicidade: Fácil de entender e implementar, especialmente com ferramentas como geradores de números aleatórios.
Cálculos diretos: Estimativas de parâmetros populacionais (média, desvio padrão) e erros amostrais são fáceis de calcular.

Desvantagens:

Lista completa necessária: Exige uma lista completa da população, o que pode ser inviável ou impossível em alguns casos (populações muito grandes ou dispersas).
Ineficiente para subgrupos: Pode não ser a melhor opção quando é crucial representar adequadamente subgrupos específicos dentro da população.
Custo e tempo: Coletar dados de indivíduos aleatoriamente distribuídos geograficamente pode ser caro e demorado.

Exemplos:

Para um estudo sobre a prevalência de hipertensão em uma comunidade, sorteia-se aleatoriamente 100 pessoas a partir da lista telefônica da região.
Para investigar a prevalência de asma em crianças de 5 a 10 anos em uma cidade, um pesquisador obtém a lista de todas as crianças nessa faixa etária matriculadas nas escolas da cidade (população) e utiliza um software de geração de números aleatórios para sortear uma amostra de 1000 crianças.
Um estudo busca avaliar a efetividade de um novo medicamento para diabetes tipo 2. A partir de uma base de dados de pacientes diabéticos, 500 pacientes são selecionados aleatoriamente, sendo 250 designados para o grupo que receberá o novo medicamento e 250 para o grupo placebo
Para avaliar a satisfação com os serviços de saúde oferecidos em um determinado município, uma amostra aleatória de 500 números de telefone é selecionada a partir da lista telefônica da região e os moradores são contatados para responder a um questionário.

Amostragem sistemática

Na amostragem sistemática, seleciona-se cada k-ésimo indivíduo da população, após um ponto de partida aleatório. O intervalo de amostragem (k) é calculado dividindo o tamanho da população pelo tamanho da amostra desejado.

Vantagens:

Facilidade de implementação: Mais fácil de aplicar em campo do que a amostra aleatória simples, especialmente em populações ordenadas (ex: pacientes em fila, casas em uma rua).
Distribuição uniforme: Garante uma amostra uniformemente distribuída ao longo da população, o que pode ser útil em alguns casos.
Eficaz em populações cíclicas: Adequada quando a população possui uma organização cíclica ou periódica

Desvantagens:

Viés de periodicidade: Suscetível a viés se houver um padrão na população que coincida com o intervalo de amostragem.
Representatividade dependente da lista: A representatividade depende da ordem da lista. Se a lista tiver algum tipo de ordenação que influencie a variável de interesse, a amostra pode ser enviesada

Exemplos:

Para selecionar 10 pacientes de um hospital com 100 leitos, escolhe-se aleatoriamente um número de 1 a 10 (por exemplo, 3) e, em seguida, seleciona-se cada 10º paciente a partir do leito número 3 (3, 13, 23, 33, etc.).
Em um estudo sobre a prevalência de tabagismo em adultos, um pesquisador visita um centro de saúde e entrevista uma a cada 10 pessoas que procuram atendimento, a partir de um ponto de partida aleatório na lista de espera.
Em um estudo sobre a efetividade de uma nova vacina contra a gripe, os participantes que chegam a um posto de vacinação são convidados a participar da pesquisa e são selecionados a cada 3 pessoas, após um sorteio para definir o primeiro participante.
Para avaliar a qualidade da água em uma rede de abastecimento, uma amostra sistemática de 20 pontos de coleta é definida ao longo da rede, sendo a primeira localização escolhida aleatoriamente e as demais a cada 5 quilômetros da anterior.

Amostragem estratificada

Na amostragem estratificada, a população é dividida em subgrupos (estratos) homogêneos em relação a uma característica relevante para a pesquisa. Em seguida, seleciona-se uma amostra aleatória simples dentro de cada estrato.

Vantagens:

Representatividade de subgrupos: Garante a representação proporcional de subgrupos importantes, aumentando a precisão das estimativas para a população total e permitindo análises dentro de cada estrato.
Precisão aumentada: Reduz o erro amostral em comparação à AAS, especialmente quando há grande variabilidade entre os estratos.
Análise de subgrupos: Permite analisar as diferenças e similaridades entre os subgrupos

Desvantagens:

Conhecimento prévio necessário: Exige conhecimento prévio da população para criar estratos significativos.
Complexidade e custo: Mais complexa de planejar e implementar do que amostragem aleatória simples ou sistemática, o que pode aumentar o custo e tempo da pesquisa.
Definição de estratos: A escolha inadequada da variável de estratificação pode não gerar os benefícios esperados.

Exemplos:

Em um estudo sobre a opinião pública sobre um novo medicamento, divide-se a população em faixas etárias e seleciona-se aleatoriamente indivíduos dentro de cada faixa para garantir a representatividade das diferentes idades na amostra.
Em um estudo sobre os fatores de risco para doenças cardíacas, a população é dividida em estratos de acordo com a faixa etária (20-39 anos, 40-59 anos e 60 anos ou mais) e, dentro de cada estrato, uma amostra aleatória simples é selecionada, garantindo representatividade dos diferentes grupos etários na amostra final.
Para avaliar a efetividade de um novo tratamento para o câncer de pulmão, os pacientes são estratificados em grupos de acordo com o estágio da doença (inicial, intermediário, avançado) e, dentro de cada grupo, são aleatoriamente designados para receber o novo tratamento ou o tratamento padrão.
Para investigar a opinião da população sobre a implementação de um novo programa de saúde mental, a população é dividida em estratos de acordo com a renda familiar e a localização geográfica, garantindo que a amostra final represente diferentes grupos socioeconômicos e regiões do município.

Amostragem por conglomerados

Na amostragem por conglomerados, a população é dividida em grupos heterogêneos (conglomerados) que representam a população total. Em seguida, seleciona-se aleatoriamente alguns conglomerados e coleta-se dados de todos os indivíduos dentro deles.

Vantagens:

Redução de custo e tempo: Reduz significativamente o custo e o tempo de coleta de dados, especialmente quando a população é geograficamente dispersa.
Viabilidade em populações dispersas: Útil quando é difícil ou impossível criar uma lista completa da população, mas é possível dividi-la em conglomerados.

Desvantagens:

Menor precisão: As estimativas tendem a ser menos precisas em comparação a outros métodos probabilísticos, especialmente se houver grande variabilidade entre os conglomerados.
Risco de viés: A seleção inadequada dos conglomerados pode resultar em viés amostral e comprometer a representatividade.
Efeito de contexto: As características específicas de um conglomerado podem influenciar a variável de interesse, o que exige cautela na análise e interpretação dos dados.

Exemplos:

Em um estudo sobre a saúde de crianças em idade escolar, seleciona-se aleatoriamente algumas escolas (conglomerados) e coleta-se dados de todas as crianças dessas escolas.
Para investigar a prevalência de desnutrição infantil em um país, o estudo seleciona aleatoriamente 100 municípios (conglomerados) e, dentro de cada município, todas as crianças menores de 5 anos são avaliadas.
Para avaliar a efetividade de um programa de intervenção para reduzir a obesidade infantil em escolas, 20 escolas são selecionadas aleatoriamente e o programa é implementado em todas as turmas do ensino fundamental das escolas sorteadas.
Para avaliar a cobertura vacinal contra a poliomielite em uma cidade, os bairros são utilizados como conglomerados. Uma amostra aleatória de 30 bairros é selecionada e todos os domicílios com crianças menores de 5 anos nos bairros sorteados são visitados para verificar o cartão de vacinação.

Amostragem não probabilística

Na amostragem não probabilística, a seleção dos elementos da amostra não é aleatória, e a probabilidade de um elemento ser selecionado é desconhecida. Embora não permita generalizações estatísticas para a população, este tipo de amostragem pode ser útil em algumas situações, principalmente em estudos exploratórios ou quando a representatividade não é o objetivo principal.

Amostragem por conveniência

Na amostragem por conveniência, os elementos da amostra são selecionados com base na sua acessibilidade e disponibilidade.

Vantagens:

Baixo custo e rapidez: Extremamente fácil, rápida e barata de implementar, sendo útil para estudos piloto ou exploratórios.
Facilidade de acesso: Permite a coleta de dados em locais e momentos convenientes para o pesquisador.

Desvantagens:

Alto risco de viés: Extremamente vulnerável a viés de seleção, tornando difícil generalizar os resultados para a população.
Baixa representatividade: A amostra geralmente não é representativa da população, limitando a capacidade de inferência

Exemplos:

Abordar pacientes em uma sala de espera de um hospital para um estudo sobre a qualidade do atendimento.
Para um estudo inicial sobre os efeitos da COVID-19 em pacientes hospitalizados, são incluídos os primeiros 100 pacientes diagnosticados com a doença que deram entrada em um hospital específico.
Um pesquisador recruta participantes para um estudo sobre um novo tratamento para a artrite reumatoide por meio de anúncios em um ambulatório de reumatologia, incluindo todos os pacientes que se interessarem e se encaixarem nos critérios de elegibilidade.
Um questionário online sobre hábitos alimentares é disponibilizado em um portal de notícias e as respostas são analisadas.

Amostragem intencional

Na amostragem intencional, o pesquisador seleciona os elementos da amostra com base em seu conhecimento e julgamento sobre a população.

Vantagens:

Riqueza de informações: Útil para coletar dados detalhados e específicos de casos selecionados, fornecendo informações aprofundadas sobre o tema.
Estudo de casos atípicos: Permite estudar casos extremos ou outliers, que podem fornecer evidências importantes.

Desvantagens:

Generalização limitada: Os resultados não podem ser generalizados para a população, pois a amostra não é aleatória.
Subjetividade: A escolha dos participantes é subjetiva e depende do julgamento do pesquisador, o que pode gerar viés.

Exemplos:

Selecionar pacientes com um tipo específico e raro de câncer para um estudo de caso.
Para compreender a experiência de pacientes com uma doença rara, um pesquisador seleciona e entrevista 15 pacientes com diferentes históricos de tratamento e tempo de diagnóstico.
Um pesquisador está desenvolvendo um novo tratamento para a dependência de nicotina e convida para um estudo piloto um grupo de fumantes que se mostraram altamente motivados a parar de fumar em um estudo prévio, buscando maximizar as chances de sucesso do tratamento.
Para entender as barreiras para o acesso a serviços de saúde mental em uma comunidade rural, um pesquisador entrevista líderes comunitários, profissionais de saúde locais e moradores que já tentaram acessar esses serviços no passado.

Amostragem por cotas

Na amostragem por cotas, a população é dividida em subgrupos (como na amostragem estratificada), mas a seleção dentro de cada subgrupo é feita por conveniência até que se atinja o número desejado de participantes.

Vantagens:

Fácil e rápida: Relativamente simples e rápida de implementar, similar à amostragem por conveniência.
Representatividade aparente: Busca garantir a inclusão de um número mínimo de indivíduos de cada subgrupo, o que pode dar a falsa impressão de representatividade.

Desvantagens:

Viés de seleção: Alto risco de viés de seleção dentro de cada cota, pois a escolha dos participantes geralmente é não aleatória.
Generalização limitada: A generalização dos resultados para a população é limitada, pois a amostra não é probabilística

Exemplos:

Em uma pesquisa de opinião, definir cotas para diferentes sexos, faixas etárias e níveis de escolaridade.
Em uma pesquisa sobre a percepção da população em relação à vacinação infantil, define-se cotas de homens e mulheres, e diferentes faixas etárias, para garantir a representatividade desses grupos na amostra. Os participantes dentro de cada cota são recrutados por conveniência.
Um estudo busca avaliar a efetividade de um novo medicamento para enxaqueca em mulheres. São definidas cotas para diferentes faixas etárias e histórico familiar de enxaqueca. As participantes dentro de cada cota são recrutadas em clínicas de neurologia.
Para avaliar a opinião da população sobre a qualidade do sistema de transporte público, define-se cotas para diferentes zonas da cidade e níveis de renda. Os participantes são abordados em pontos de ônibus e estações de metrô.

Amostragem bola de neve

Na amostragem bola de neve, os participantes iniciais indicam outros indivíduos com características semelhantes que também podem participar da pesquisa.

Vantagens:

Útil para populações ocultas: A única opção viável para estudar populações difíceis de serem encontradas ou que evitam se identificar (ex: usuários de drogas ilegais, pessoas em situação de rua).
Custo-benefício: Pode ser mais barata e eficiente do que outros métodos para alcançar populações específicas

Desvantagens:

Alto risco de viés: Grande chance de viés de seleção, pois os participantes tendem a indicar pessoas semelhantes a si mesmos.
Generalização limitada: A capacidade de generalizar os resultados para a população geral é extremamente limitada.

Exemplos:

Em um estudo sobre os comportamentos de risco entre profissionais do sexo, pedir aos participantes iniciais para indicar outros profissionais do sexo que conheçam.
Um pesquisador busca entrevistar pessoas que se recuperaram de uma determinada doença infecciosa rara. Ele contata um grupo inicial de pacientes por meio de uma associação de pacientes e solicita que indiquem outros conhecidos que também tiveram a doença.
Um estudo busca recrutar pessoas transgênero para avaliar um novo protocolo de acompanhamento hormonal. O pesquisador contata um grupo inicial por meio de ONGs e grupos online e solicita que indiquem outras pessoas trans que poderiam se interessar em participar.
Para um estudo sobre os fatores de risco para HIV em profissionais do sexo, um grupo inicial de participantes é recrutado e, após a entrevista, é solicitado que indiquem outros profissionais do sexo que conhecem para participar da pesquisa.

Limitações da amostragem

A amostragem, apesar de ser uma ferramenta poderosa em pesquisa, tem limitações inerentes que podem afetar a qualidade e a confiabilidade dos resultados. A mera aplicação de um método de amostragem, mesmo que sofisticado, não garante uma representação perfeita da população.

Erro amostral

Definição: O erro amostral é a diferença entre os resultados obtidos na amostra e os valores reais da população. Ele é inerente ao processo de amostragem, pois estamos trabalhando com um subconjunto da população, e não com a totalidade.
Fontes de erro amostral:
- Sorteio: A aleatoriedade da seleção, mesmo em métodos probabilísticos, pode gerar amostras com características ligeiramente diferentes da população.
- Tamanho da amostra: Amostras pequenas são mais propensas a erros amostrais, pois um número reduzido de indivíduos pode não representar a diversidade da população.
Impacto do erro amostral: Um erro amostral grande diminui a precisão das estimativas e aumenta a incerteza dos resultados.
Minimizando o erro amostral:
- Aumento do tamanho da amostra: Quanto maior a amostra, menor a chance de erro amostral.
- Métodos de amostragem probabilísticos: Utilizar métodos que garantem a aleatoriedade na seleção.
- Estratificação: Dividir a população em subgrupos homogêneos e amostrar dentro deles pode reduzir o erro amostral.

Viés amostral

Definição: O viés amostral ocorre quando a amostra selecionada não é representativa da população de interesse, ou seja, quando alguns membros da população têm maior probabilidade de serem incluídos na amostra do que outros. Isso leva a resultados distorcidos, que não refletem a realidade da população.
Fontes de viés amostral:
- Métodos não probabilísticos: A amostragem por conveniência, por exemplo, é altamente suscetível a viés, pois os participantes são selecionados com base na acessibilidade, e não na representatividade.
- Não resposta: Quando uma parte dos selecionados para a amostra não responde à pesquisa, pode haver diferenças sistemáticas entre os respondentes e os não respondentes, enviesando os resultados.
- Questões mal formuladas: Perguntas tendenciosas ou confusas em um questionário podem influenciar as respostas e gerar viés.
Impacto do viés amostral: O viés amostral compromete a validade interna e externa da pesquisa, tornando os resultados questionáveis e limitando sua generalização.
Minimizando o viés amostral:
- Métodos probabilísticos: Priorizar métodos de amostragem que garantam a aleatoriedade na seleção.
- Taxa de resposta alta: Empregar estratégias para maximizar a taxa de resposta, como incentivos, contatos múltiplos e questionários concisos.
- Revisão crítica do instrumento: Revisar cuidadosamente o instrumento de coleta de dados (ex: questionário) para evitar perguntas enviesadas.

Representatividade

Definição: A representatividade se refere ao grau em que a amostra reflete as características relevantes da população em estudo. Uma amostra representativa possui a mesma distribuição das características importantes presentes na população.
Importância da representatividade: A representatividade é importante para generalizar as conclusões da amostra para a população. Se a amostra não for representativa, os resultados não podem ser extrapolados, limitando o impacto da pesquisa.
Fatores que afetam a representatividade:
- Método de amostragem: Métodos probabilísticos são mais eficazes para obter amostras representativas.
- Tamanho da amostra: Amostras maiores tendem a ser mais representativas, especialmente em populações heterogêneas.
- Taxa de resposta: Uma baixa taxa de resposta pode comprometer a representatividade, pois os não respondentes podem diferir dos respondentes em características importantes.

Limitações de tempo e recursos

Restrições orçamentárias: A implementação de métodos de amostragem complexos, como a amostragem estratificada multiestágio, pode ser cara e inviável em pesquisas com recursos limitados.
Tempo disponível: A coleta de dados de grandes amostras, especialmente em áreas geográficas extensas, pode ser um processo demorado, o que pode não ser viável em estudos com prazos curtos.

Tamanho da amostra

O tamanho da amostra influencia diretamente a precisão das estimativas e a confiabilidade dos resultados. Uma amostra suficientemente grande é necessária para que se obtenham estimativas que sejam representativas da população, minimizando o erro amostral e aumentando a acurácia dos parâmetros estimados, como médias e proporções. Amostras maiores tendem a proporcionar intervalos de confiança mais estreitos, o que melhora a precisão dos resultados. No entanto, o tamanho da amostra deve ser balanceado com os recursos disponíveis, como tempo e custo, já que amostras maiores exigem maior investimento em coleta e análise de dados. O tamanho adequado da amostra depende do objetivo do estudo, da variabilidade dos dados e do nível de confiança desejado. O melhor cenário é realizar cálculos prévios de tamanho amostral para garantir que a amostra seja suficiente para testar as hipóteses de interesse.

A relação entre o tamanho da amostra e o poder estatístico é direta: quanto maior o tamanho da amostra, maior tende a ser o poder estatístico de um estudo. O poder estatístico representa a probabilidade de detectar um efeito verdadeiro ou uma diferença significativa entre grupos, caso ela realmente exista na população. Amostras maiores proporcionam estimativas mais precisas dos parâmetros populacionais e reduzem a variabilidade dos resultados, tornando mais fácil identificar diferenças que sejam estatisticamente significativas. Em contrapartida, amostras pequenas são mais suscetíveis a erros tipo II (falha em rejeitar a hipótese nula quando ela é falsa), pois têm menor capacidade de detectar efeitos de menor magnitude. Portanto, ao aumentar o tamanho da amostra, os pesquisadores podem melhorar a sensibilidade do teste estatístico, garantindo que resultados verdadeiros sejam identificados com maior confiabilidade.

Em diferentes estudos, o tamanho da amostra pode ser ajustado conforme as necessidades da pesquisa. Por exemplo, em uma pesquisa epidemiológica que visa estimar a prevalência de hipertensão em uma cidade com 100 mil habitantes, pode-se determinar que uma amostra de 1.000 indivíduos seja suficiente para obter uma estimativa precisa com uma margem de erro de 3%. Já em um ensaio clínico que testa a eficácia de um novo medicamento para diabetes, uma amostra de 500 pacientes pode ser necessária para detectar uma diferença de 10% na redução da glicemia entre os grupos tratado e controle, com um poder estatístico de 80%. Em pesquisas qualitativas, como um estudo sobre as percepções de profissionais de saúde em relação a um novo protocolo de atendimento, o tamanho da amostra pode ser menor, sendo justificado pela profundidade das entrevistas, mesmo que a generalização dos resultados seja limitada. Em todos os casos, o tamanho da amostra é determinado por considerações sobre a precisão desejada, os recursos disponíveis e a variabilidade esperada dos dados, garantindo que os resultados sejam robustos e confiáveis.

Ferramentas para amostragem

As ferramentas certas podem facilitar e tornar mais eficiente o processo de seleção da amostra, desde a geração de números aleatórios até o recrutamento online de participantes. A escolha das ferramentas de amostragem mais adequadas depende do tipo de pesquisa, da população de interesse, dos recursos disponíveis e dos aspectos éticos envolvidos. É essencial utilizar essas ferramentas de forma responsável e ética, garantindo a integridade da pesquisa e a proteção dos participantes.

Softwares de geração de números aleatórios

Definição: Softwares que utilizam algoritmos para gerar sequências de números aleatórios, essenciais para a seleção da amostra em diversos métodos probabilísticos, como a amostragem aleatória simples, amostragem sistemática e estratificada.
Exemplos:
- Microsoft Excel: Possui a função =ALEATÓRIOENTRE para gerar números aleatórios em um intervalo definido.
- R: Linguagem de programação estatística com diversas funções para gerar números aleatórios (ex: sample(), runif()).
- SPSS: Software estatístico com ferramentas para gerar números aleatórios e selecionar amostras.
Vantagens:
- Aleatoriedade: Garantem a aleatoriedade na seleção da amostra, crucial para a validade da pesquisa.
- Eficiência: Agilizam o processo de seleção, especialmente em amostras grandes.
- Documentação: Permitem registrar o processo de amostragem de forma transparente.

Plataformas de pesquisa online

Definição: Ferramentas online que facilitam a criação, o envio e a análise de pesquisas, incluindo recursos para a seleção e o gerenciamento de amostras.
Exemplos:
- SurveyMonkey: Plataforma popular com interface amigável e recursos para criar questionários, enviar convites por email e analisar dados.
- Qualtrics: Plataforma robusta com opções avançadas de personalização, lógica de questionários e análise de dados.
- Google Forms: Ferramenta gratuita com interface intuitiva para criar pesquisas simples e coletar dados.
Vantagens:
- Recrutamento online: Facilitam o alcance a um grande número de participantes em diferentes locais.
- Coleta de dados eficiente: Agilizam a coleta de dados, automatizando o envio e o recebimento de respostas.
- Recursos para amostragem: Algumas plataformas oferecem recursos para criar painéis de respondentes, definir cotas e realizar amostragem aleatória.

Listas de acesso público

Definição: Listas contendo informações de contato (nome, telefone, endereço) ou características de indivíduos de uma determinada população, que podem ser utilizadas para fins de pesquisa.
Exemplos:
- Listas telefônicas: Embora em desuso, ainda podem ser úteis para algumas populações locais.
- Cadastros de associações: Associações de classe, ONGs e outras organizações podem fornecer listas de seus membros.
- Bases de dados governamentais: Dados públicos como censos demográficos, registros eleitorais e cadastros de saúde.
Vantagens:
- Cobertura da população: Podem fornecer uma cobertura abrangente de uma população específica.
- Informações adicionais: Além do contato, podem conter dados demográficos úteis para a estratificação da amostra.

Redes sociais:

Definição: Plataformas online que permitem a interação entre pessoas com interesses em comum, como Facebook, Instagram, Twitter e LinkedIn.
Aplicações em amostragem:
- Recrutamento de participantes: Compartilhamento de links para pesquisas online em grupos e páginas relevantes.
- Amostragem bola de neve: Solicitação aos participantes para compartilharem a pesquisa com seus contatos.
- Análise de redes sociais: Coleta de dados públicos para identificar influenciadores e líderes de opinião em um determinado tema.
Vantagens:
- Alcance e diversidade: Potencial para alcançar uma grande quantidade e diversidade de pessoas.
- Segmentação: Possibilidade de direcionar a pesquisa para grupos específicos com base em interesses, localização e outras características.

Ferramentas de mapeamento e geolocalização

Definição: Ferramentas que utilizam dados geográficos para visualizar e analisar informações em mapas, como Google Maps, ArcGIS e QGIS.
Aplicações em amostragem:
- Amostragem por área: Definição de áreas geográficas para a seleção da amostra (ex: bairros, quarteirões).
- Mapeamento da população: Visualização da distribuição espacial da população para otimizar a alocação amostral.
- Identificação de pontos de coleta: Planejamento da logística de coleta de dados em campo.

Considerações éticas

Privacidade e confidencialidade: Ao utilizar listas de acesso público, redes sociais ou outras ferramentas, é fundamental garantir a privacidade e a confidencialidade dos dados dos participantes.
Consentimento informado: Os participantes devem ser informados sobre o uso de seus dados para fins de pesquisa e fornecer seu consentimento livre e esclarecido.
Uso responsável de dados: As informações coletadas devem ser utilizadas apenas para os fins da pesquisa e descartadas de forma segura após a conclusão do estudo.

Apresentação de dados em tabelas

Ilustrações são formas eficientes de resumir informações, valorizar o texto e atrair a atenção do leitor. No meio científico as duas mais comuns são tabelas e figuras. Estas ilustrações podem apresentar grandes conjuntos de dados de forma concisa e organizada, facilitando a compreensão e a comparação de diferentes valores ou tendências. Regra essencial: as ilustrações devem ser claras, concisas e autoexplicativas. O uso de legendas e títulos informativos é importante para garantir que a mensagem seja transmitida de forma eficaz.

As tabelas são particularmente úteis na apresentação de dados numéricos de forma organizada, permitindo comparações e análises estatísticas.

Princípios da organização de dados em tabelas

Para que uma tabela seja eficiente e facilite a compreensão dos dados, alguns princípios básicos de organização devem ser seguidos:

Clareza e simplicidade: Apresente os dados de forma clara e concisa, evitando informações redundantes ou desnecessárias. Utilize um layout simples e organizado, com espaçamento adequado entre linhas e colunas para facilitar a leitura.
Títulos e legendas informativas: A tabela deve ter um título claro e conciso que indique o conteúdo dos dados. Cada coluna e linha deve ter um título ou legenda descritiva que explique o significado dos valores apresentados. Utilize unidades de medida padronizadas e indique-as claramente.
Formatação consistente: Utilize formatação consistente para números, texto e símbolos. Alinhe os números de acordo com a casa decimal. Utilize fontes legíveis e de tamanho adequado.
Organização lógica dos dados: Organize os dados de forma lógica e significativa, agrupando informações relacionadas. Utilize linhas e colunas para facilitar a comparação de dados. Se necessário, utilize cores ou sombreamento para destacar tendências ou diferenças.
Notas de rodapé: Utilize notas de rodapé para explicar abreviações, símbolos ou informações adicionais que não se encaixam no corpo da tabela.
Autoexplicativa: A tabela deve ser autoexplicativa, permitindo que o leitor compreenda os dados sem precisar consultar o texto principal.
Evitar redundância: Evite repetir informações que já estão presentes em outras partes do texto.
Considerar o público-alvo: Adapte a linguagem e o nível de detalhe da tabela ao público-alvo.

Tabelas de distribuição de frequência

As tabelas de distribuição de frequência são um tipo específico de tabela muito utilizada no meio científico para apresentar dados numéricos de forma organizada e concisa. Elas mostram a frequência com que cada valor ou intervalo de valores ocorre em um conjunto de dados.

Elementos de uma tabela de distribuição de frequência

Classes: São os intervalos de valores que dividem os dados.
Frequência absoluta: É o número de vezes que cada valor ou classe aparece no conjunto de dados.
Frequência relativa: É a proporção ou porcentagem de observações que se enquadram em cada classe.
Frequência acumulada: É o número total de observações até uma determinada classe.

Vantagens das tabelas de distribuição de frequência

Permitem visualizar rapidamente a distribuição dos dados e identificar padrões ou tendências.
Facilitam a comparação entre diferentes conjuntos de dados.
São úteis para calcular medidas estatísticas descritivas, como média, mediana e moda.

Regras para construir tabelas de distribuição de frequência

As classes devem ser mutuamente exclusivas e exaustivas, ou seja, cada valor deve pertencer a uma única classe e todas as classes juntas devem abranger todos os dados.
As classes devem ter a mesma amplitude, exceto quando a última classe for aberta (ex: "maior que 50").
A tabela deve ter um título claro e descritivo.
As colunas e linhas devem ser rotuladas de forma clara e concisa.

Exemplo fictício de uma tabela de distribuição de frequência
Número de faltas	Frequência absoluta	Frequência relativa (%)	Frequência acumulada (%)
0 a 3	23	53,5	53,5
4 a 9	13	30,2	83,7
10 ou mais	7	16,3	100

Tabelas de Contingência

As tabelas de contingência são um tipo específico de tabela frequentemente utilizado no meio científico para apresentar dados categóricos. Elas permitem analisar a relação entre duas ou mais variáveis, mostrando a frequência com que cada combinação de categorias ocorre.

Características

Organizam dados em linhas e colunas, onde cada linha e coluna representa uma categoria de uma variável.
As células da tabela mostram a frequência (contagem) de observações que se enquadram em cada combinação de categorias.
Permitem calcular e visualizar facilmente as distribuições marginais de cada variável.
Facilitam a análise da relação entre as variáveis, ajudando a identificar padrões, tendências e associações.

Vantagens

Apresentação clara e concisa de dados categóricos.
Facilidade de interpretação e comparação de frequências.
Permitem identificar relações e padrões entre variáveis.

Limitações

Podem ser complexas de analisar quando há muitas categorias ou variáveis.
Não são adequadas para dados numéricos contínuos.

Dicas para tabelas de contingência eficazes

Usar títulos e legendas claros e informativos.
Organizar as categorias de forma lógica.
Incluir totais marginais para linhas e colunas.
Utilizar formatação consistente e legível.

Exemplo fictício de tabela de contingência
Parametro		Hipertensão autorreferida
Parametro		Sim (n, %)	Não (n, %)
Sexo
	Masculino	280 (17,2)	1.352 (82,8)
	Feminino	379 (22,4)	1.312 (77,6)

Apresentação de dados em gráficos

A escolha do tipo de gráfico depende do tipo de dado que você deseja apresentar e da mensagem que você quer transmitir. É importante escolher o tipo de gráfico que melhor represente seus dados e que seja facilmente compreendido pelo público-alvo. Abaixo estão alguns tipos de gráficos comumente utilizados na pesquisa científica, juntamente com suas aplicações:

Gráficos de barras vertical

Gráfico de barras vertical

Apresentação: Exibem a frequência de diferentes categorias em um conjunto de dados.
Utilização: Comparar valores entre diferentes grupos ou categorias.
Exemplos: Distribuição de casos de uma doença por faixa etária, comparação de taxas de mortalidade entre diferentes regiões.

Gráficos de barras horizontal

Gráfico de barras horizontal

Apresentação: Similar ao gráfico de barras vertical, mas com as barras dispostas horizontalmente.
Utilização: Similar ao gráfico de barras vertical, mas pode ser mais adequado quando as etiquetas das categorias são longas.

Histogramas

Histograma

Apresentação: Exibem a distribuição de uma variável contínua, dividindo os dados em intervalos (classes) e mostrando a frequência em cada intervalo.
Utilização: Visualizar a forma da distribuição de dados, identificar outliers e tendências.
Exemplos: Distribuição de idade dos pacientes em um estudo, distribuição de pressão arterial em uma população.


Outliers são pontos de dados que se desviam significativamente dos demais dados em um conjunto. Eles podem ser causados por erros de medição, eventos raros ou simplesmente por variação natural. Para identificar outliers utiliza-se inspeção visual (gráficos), regras estatísticas (medidas de dispersão) e/ou testes estatísticos (Grubbs). Outliers podem ter um impacto importante na análise de dados, especialmente em estudos com amostras pequenas. A decisão de como lidar com outliers depende da causa dos outliers e dos objetivos da análise. Se os outliers forem considerados como parte da população em estudo, eles devem ser mantidos na análise. No entanto, é importante estar ciente de que os outliers podem ter um impacto significativo nos resultados. Se os outliers forem considerados como erros de medição ou eventos raros que não são representativos da população em estudo, eles podem ser removidos da análise. No entanto, é importante ter cuidado ao remover outliers, pois isso pode levar à perda de informações importantes. Em alguns casos, pode ser útil transformar os dados (por exemplo, usando logaritmos) para reduzir o impacto dos outliers. Existem métodos estatísticos robustos que são menos sensíveis à presença de outliers. Independente do cenário, é importante documentar cuidadosamente como os outliers foram tratados na análise de dados.

Gráficos de linha

Gráfico de linha

Apresentação: Exibem a variação de uma variável ao longo do tempo ou de outra variável ordinal.
Utilização: Mostrar tendências e padrões ao longo do tempo ou de outra variável ordinal.
Exemplos: Tendência da taxa de incidência de uma doença conforme a faixa-etária, evolução da mortalidade infantil em um país.

Gráficos de dispersão

Diagrama de dispersão

Apresentação: Mostram a relação entre duas variáveis contínuas.
Utilização: Investigar se existe uma associação entre duas variáveis.
Exemplos: Relação entre peso e altura, relação entre tabagismo e risco de câncer de pulmão.

Gráficos de pizza

Diagrama de setores (pizza)

Apresentação: Dividem um círculo em fatias proporcionais às frequências das diferentes categorias.
Utilização: Mostrar a composição de um todo.
Exemplos: Proporção de diferentes tipos de câncer em uma população, distribuição de gastos em saúde por setor.

Mapas

Apresentação: Exibem a distribuição espacial de dados.
Utilização: Identificar áreas de risco para doenças, visualizar a distribuição de recursos de saúde.
Exemplos: Mapa da incidência de malária em uma região, mapa da localização de hospitais em uma cidade.

Boxplots

Boxplot (diagrama de caixas)

Apresentação: Exibem a distribuição de uma variável contínua, mostrando a mediana, os quartis e os valores discrepantes.
Utilização: Comparar a distribuição de uma variável entre diferentes grupos.
Exemplos: Comparar a distribuição de idade entre homens e mulheres, comparar a distribuição de níveis de colesterol entre diferentes grupos de tratamento.

Visualizar e interpretar dados

A visualização de dados permite que os pesquisadores identifiquem padrões, tendências e relações entre variáveis que podem não ser facilmente detectados apenas com a análise numérica. A interpretação de gráficos requer conhecimento da área de estudo e dos métodos estatísticos utilizados para gerar os dados. É importante ter cuidado ao interpretar gráficos e evitar tirar conclusões precipitadas.

Identificar padrões e tendências

Gráficos podem revelar padrões e tendências nos dados que não são facilmente aparentes em tabelas. Por exemplo, um gráfico de linha pode mostrar como a taxa de incidência de uma doença variou ao longo do tempo, ou um mapa pode mostrar a distribuição espacial de casos de uma doença.

Comparar grupos

Gráficos podem ser usados para comparar diferentes grupos em relação a uma determinada variável. Por exemplo, um gráfico de barras pode ser usado para comparar as taxas de mortalidade entre homens e mulheres, ou um boxplot pode ser usado para comparar a distribuição de idade entre diferentes grupos de tratamento.

Investigar relações entre variáveis

Gráficos de dispersão podem ser usados para investigar se existe uma associação entre duas variáveis. Por exemplo, um gráfico de dispersão pode ser usado para examinar a relação entre o índice de massa corporal e o risco de diabetes.

Comunicar resultados

Gráficos podem ser usados para comunicar os resultados de estudos de forma clara e concisa para diferentes públicos, incluindo outros pesquisadores, profissionais de saúde e o público em geral.

Dicas para a interpretação

Tipo de gráfico: diferentes tipos de gráficos são adequados para diferentes tipos de dados e perguntas de pesquisa. É importante escolher o tipo de gráfico que melhor represente os dados e que seja adequado para a mensagem que se deseja transmitir.
Eixos e legendas: os eixos do gráfico devem ser claramente rotulados com as variáveis que estão sendo representadas. A legenda deve explicar o significado dos diferentes símbolos e cores usados no gráfico.
Tendências e padrões: é importante identificar as tendências e padrões gerais nos dados, bem como quaisquer outliers ou pontos de dados incomuns.
Limitações dos dados: é importante ter em mente as limitações dos dados ao interpretar gráficos. Por exemplo, um gráfico pode ser baseado em uma amostra pequena ou enviesada, o que pode limitar a generalização dos resultados.

Medidas de tendência central

As medidas de tendência central são ferramentas estatísticas que buscam resumir um conjunto de dados em um único valor, representando o centro da distribuição dos dados. Média, mediana e moda são as três medidas mais comuns. A escolha da medida de tendência central mais adequada depende do tipo de dado, da distribuição dos dados e do objetivo da análise.

Média

A média, também conhecida como média aritmética, é calculada somando-se todos os valores de um conjunto de dados e dividindo-se pelo número total de valores. É a medida de tendência central mais utilizada, mas pode ser influenciada por valores extremos (outliers).

Exemplo do cálculo da média aritmética:

Imagine que você quer saber a altura média dos alunos em sua sala de aula.

Dados: As alturas dos alunos, em centímetros, são: 150, 160, 165, 170, 175.

Cálculo da Média:

Somar todos os valores: 150 + 160 + 165 + 170 + 175 = 820 cm
Dividir a soma pelo número total de valores: 820 cm / 5 alunos = 164 cm

Resultado: A altura média dos alunos da sua sala é de 164 cm.

Interpretação: A média de 164 cm representa um valor que "equilibra" as alturas de todos os alunos. É como se todos os alunos tivessem a mesma altura, 164 cm, totalizando a mesma altura combinada do grupo original.

Mediana

A mediana é o valor que divide um conjunto de dados ordenado em duas partes iguais, ou seja, 50% dos dados ficam acima da mediana e 50% ficam abaixo. É uma medida menos sensível a valores extremos do que a média.

Exemplo da mediana e sua resistência a valores extremos

A mediana é uma medida mais robusta que a média quando se trata de conjuntos de dados com valores extremos (outliers). A mediana oferece uma representação mais precisa do "valor do meio" em uma distribuição, ignorando a influência de valores atípicos que poderiam distorcer a percepção da tendência central. Imagine que estamos analisando a renda anual de moradores de duas ruas, Rua A e Rua B:

Rua A:

Renda anual dos moradores (em milhares de reais): R$ 30, R$ 35, R$ 40, R$ 45, R$ 48

Calculando a Mediana:

Ordenamos os dados: R$ 30, R$ 35, R$ 40, R$ 45, R$ 48
O valor central é a mediana: R$ 40 mil

Interpretação: 50% dos moradores da Rua A ganham menos que R$ 40 mil por ano e 50% ganham mais.

Rua B:

Renda anual dos moradores (em milhares de reais): R$ 30, R$ 35, R$ 40, R$ 45, R$ 300

Calculando a Mediana:

Ordenamos os dados: R$ 30, R$ 35, R$ 40, R$ 45, R$ 300
O valor central é a mediana: R$ 40 mil

Interpretação: 50% dos moradores da Rua B ganham menos que R$ 40 mil por ano e 50% ganham mais.

Comparando as Ruas:

A média de renda na Rua B seria muito maior do que na Rua A devido ao morador com renda de R$ 300 mil.
A mediana, por outro lado, se mantém a mesma (R$ 40 mil) em ambas as ruas, pois não é afetada pelo valor extremo na Rua B.

Moda

A moda é o valor que mais se repete em um conjunto de dados. Um conjunto de dados pode ter uma moda (unimodal), duas modas (bimodal), várias modas (multimodal) ou nenhuma moda. É útil para descrever dados qualitativos ou quantitativos discretos.

Exemplos de moda em conjunto de dados

Unimodal:

Dados: Idades de alunos em uma sala de aula: 10, 11, 10, 12, 10, 11, 10.
Moda: 10 anos (aparece 4 vezes, mais do que qualquer outra idade).

Bimodal:

Dados: Tamanhos de calças mais vendidos em uma loja: 36, 38, 40, 40, 38, 36, 36, 40, 42, 42.
Moda: 36 e 40 (ambos aparecem 3 vezes).

Multimodal:

Dados: Notas em uma prova: 7, 8, 8, 9, 9, 10, 10, 7, 7, 8, 9, 10.
Moda: 7, 8, 9 e 10 (todos aparecem 3 vezes).

Sem Moda:

Dados: Salários de funcionários em uma pequena empresa: R$ 2.000, R$ 2.500, R$ 3.000, R$ 3.500, R$ 4.000.
Moda: Nenhuma (todos os valores aparecem apenas uma vez).

Dados qualitativos:

Cor favorita: Em uma pesquisa, a cor azul foi a resposta mais frequente, tornando-se a moda.
Profissão: Em uma sala de aula, a profissão "estudante" será a moda, pois se repete para todos os alunos.

Dados quantitativos discretos:

Número de filhos: Em uma comunidade, a moda é ter dois filhos, indicando que essa é a quantidade de filhos mais comum entre as famílias.
Quantidade de livros lidos: Em um grupo de leitura, a moda é ter lido quatro livros, significando que essa foi a quantidade mais frequente entre os membros.

Exemplos de aplicação

A escolha da medida mais adequada depende da natureza dos dados e do objetivo da análise, considerando a presença de outliers e a informação que se deseja extrair.

Exemplo 1: Idade dos alunos em uma turma de bioestatística:

Dados: 20, 22, 25, 21, 23, 24, 65
Média: 28,57 (Soma das idades / Número de alunos)
Mediana: 23 (Valor central quando as idades são ordenadas)
Moda: Não há (Todas as idades aparecem uma única vez)

Neste caso, a média é altamente influenciada pelo aluno atípico de 65 anos, tornando-a menos representativa da maioria dos alunos. A mediana, por outro lado, oferece uma representação mais precisa do centro da distribuição, mostrando que a idade típica dos alunos está em torno de 23 anos.

Exemplo 2: Número de artigos lidos por mês em um grupo de leitura:

Dados: 2, 4, 4, 3, 5, 4, 2, 4
Média: 3,5 artigos (Soma dos artigos lidos / Número de leitores)
Mediana: 3,5 artigos (Média entre o 4º e 5º valor na sequência ordenada)
Moda: 4 artigos (Valor que mais se repete)

Aqui, a moda é a medida mais informativa, revelando que a maioria dos membros do grupo lê 4 artigos por mês. A média e a mediana fornecem informações complementares sobre a distribuição dos dados.

Exemplo 3: Salário mensal em um hospital:

Dados: R$3.000, R$3.500, R$3.000, R$15.000, R$4.000
Média: R$5.700 (Soma dos salários / Número de funcionários)
Mediana: R$3.500 (Valor central quando os salários são ordenados)
Moda: R$3.000 (Valor que mais se repete)

Neste exemplo, a média é novamente afetada pelo outlier (R$15.000), tornando-a pouco representativa do salário típico do hospital. A mediana e a moda, por outro lado, indicam que o salário mais comum e o centro da distribuição se encontram em torno de R$3.000 a R$3.500.

Medidas de dispersão para uma amostra

As medidas de tendência central, como a média, mediana e moda, são úteis para descrever o centro de um conjunto de dados, mas não fornecem informações sobre a variabilidade ou dispersão dos dados em torno desse centro. Duas amostras podem ter a mesma média, mas distribuições muito diferentes. Para entender completamente um conjunto de dados, também precisamos saber o quão espalhados ou concentrados os dados estão. É aqui que entram as medidas de dispersão.

Variância e Desvio-Padrão

A variância e o desvio-padrão são as medidas de dispersão mais comuns. Elas medem o quão distantes os valores individuais estão da média da amostra.

Variância amostral (s²)

A variância amostral é calculada como a média dos quadrados das diferenças entre cada observação e a média da amostra.

Fórmula:

s² = Σ (xi - x̄)² / (n - 1)

Onde:

s² = Variância amostral
xi = Cada valor individual da amostra
x̄ = Média da amostra
n = Número de observações na amostra

Desvio-padrão amostral (s)

O desvio-padrão amostral é a raiz quadrada da variância amostral. É expresso na mesma unidade que os dados originais, o que torna sua interpretação mais intuitiva.

Fórmula:

s = √s²

Interpretação:

Um desvio-padrão alto indica que os dados estão mais dispersos, ou seja, mais afastados da média.
Um desvio-padrão baixo indica que os dados estão mais concentrados, ou seja, mais próximos da média.

Exemplo:

Imagine duas amostras de pacientes com diabetes, ambas com uma média de glicemia de 120 mg/dL:

Amostra A: Desvio-padrão de 10 mg/dL
Amostra B: Desvio-padrão de 30 mg/dL

Embora ambas as amostras tenham a mesma média, a amostra B tem um desvio-padrão maior, indicando maior variabilidade nos níveis de glicemia entre os pacientes. Isso significa que, na amostra B, os pacientes apresentam níveis de glicemia mais distantes da média, sugerindo um controle glicêmico menos homogêneo.

Intervalo Interquartil (IQR)

O intervalo interquartil (IQR) é uma medida de dispersão que descreve a dispersão dos 50% centrais dos dados. É calculado como a diferença entre o terceiro quartil (Q3) e o primeiro quartil (Q1).

Quantis:

Primeiro Quartil (Q1): Valor que divide os 25% menores valores da amostra dos 75% maiores.
Terceiro Quartil (Q3): Valor que divide os 75% menores valores da amostra dos 25% maiores.

Fórmula:

IQR = Q3 - Q1

Vantagens:

O IQR é uma medida robusta, menos sensível a valores extremos (outliers) do que a variância e o desvio-padrão.

Exemplo:

Considere os seguintes tempos de espera (em minutos) em um consultório médico:

10, 15, 15, 20, 22, 25, 30, 35, 60

Q1 = 15 minutos
Q3 = 35 minutos
IQR = 35 - 15 = 20 minutos

O IQR de 20 minutos indica que a diferença entre o tempo de espera para o paciente na posição 75% e o paciente na posição 25% é de 20 minutos.

Amplitude

A amplitude é a medida de dispersão mais simples, calculada como a diferença entre o maior valor (máximo) e o menor valor (mínimo) em um conjunto de dados.

Fórmula:

Amplitude = Valor Máximo - Valor Mínimo

Vantagem:

Fácil de calcular e entender.

Desvantagem:

Muito sensível a valores extremos, não representando bem a dispersão dos dados em casos de outliers.

Exemplo:

Usando os mesmos dados de tempo de espera no consultório médico:

Valor Máximo = 60 minutos
Valor Mínimo = 10 minutos
Amplitude = 60 - 10 = 50 minutos

A amplitude de 50 minutos nos diz que a diferença entre o maior e o menor tempo de espera é de 50 minutos. No entanto, essa medida é influenciada pelo valor extremo de 60 minutos.

Considerações Finais

A escolha da medida de dispersão mais apropriada depende do tipo de dado, da distribuição dos dados e do objetivo da análise.

Se os dados são simétricos e não há outliers, o desvio-padrão é uma boa medida de dispersão.
Se os dados são assimétricos ou há outliers, o IQR é uma medida mais robusta.
A amplitude é uma medida rápida e fácil de calcular, mas deve ser usada com cautela, pois é sensível a outliers.


Dados simétricos	Referem-se a uma distribuição em que os valores dos dados se distribuem de forma equilibrada e espelhada em torno do centro. Em outras palavras, os lados direito e esquerdo da distribuição são imagens espelhadas um do outro
Dados assimétricos	Descrevem uma distribuição em que os valores não se distribuem de forma equilibrada em torno do centro. Em outras palavras, a distribuição apresenta um "rabo" mais alongado para um dos lados, o que indica uma concentração maior de valores em uma determinada região.

Distribuição normal

Curvas de densidade

A curva de densidade é uma representação gráfica de uma distribuição de probabilidade para variáveis contínuas. Ela descreve como os valores possíveis de uma variável estão distribuídos e a probabilidade associada a cada intervalo de valores. A área total sob a curva é sempre igual a 1, refletindo a soma de todas as probabilidades possíveis. Essa curva é útil em estatística para modelar padrões de dados reais, facilitando a interpretação de fenômenos complexos.

Histograma com um curva de densidade para mostrar a forma geral da distribuição.

Uma das propriedades da curva de densidade é que ela nunca assume valores negativos, ou seja, permanece sempre acima ou sobre o eixo horizontal. Essa característica reflete que probabilidades não podem ser negativas. A curva também pode ter diferentes formas dependendo da distribuição que representa, como curvas simétricas, assimétricas, unimodais ou multimodais.

A posição e a forma da curva de densidade são definidas por parâmetros da distribuição. Em distribuições normais, por exemplo, a média determina o centro da curva, enquanto o desvio padrão define sua largura e o grau de dispersão dos dados. Em distribuições assimétricas, como a distribuição exponencial, a curva tem um formato distinto, com maior densidade concentrada em uma extremidade.

O conceito de área sob a curva de densidade ajuda a determinar probabilidades. A probabilidade de uma variável assumir valores dentro de um intervalo específico é representada pela área correspondente sob a curva entre os limites desse intervalo. Assim, curvas de densidade permitem calcular probabilidades de forma intuitiva e visual, mesmo para distribuições complexas.

Curvas de densidade também auxiliam na modelagem de fenômenos do mundo real. Por exemplo, distribuições normais são amplamente utilizadas em áreas como saúde, economia e ciências naturais, porque muitos fenômenos apresentam comportamentos próximos a esse padrão. A flexibilidade das curvas de densidade em descrever diferentes padrões as torna uma ferramenta poderosa em análises estatísticas.

Descrição das curvas de densidade

A curva de densidade reflete a distribuição de uma variável contínua e está intimamente relacionada a medidas centrais como a média, a mediana e a moda. Essas medidas descrevem a posição dos dados em relação à curva e ajudam a interpretar seu formato e comportamento.

Na curva de densidade de uma distribuição simétrica, como a distribuição normal, a média, a mediana e a moda coincidem no mesmo ponto. Esse ponto representa o valor central da curva, onde a densidade de probabilidade é máxima. A média é o valor médio dos dados, a mediana divide a área total da curva em duas partes iguais, e a moda é o valor mais frequente, ou o pico da curva.

Exemplo de uma curva simétrica. No ponto central do gráfico, a média, mediana e moda são iguais.

Quando a curva de densidade é assimétrica, como em uma distribuição assimétrica positiva (cauda longa à direita) ou negativa (cauda longa à esquerda), essas medidas diferem. A moda continua sendo o pico da curva, indicando o valor mais frequente. A mediana, que divide a área da curva em partes iguais, estará mais próxima da cauda longa, enquanto a média é deslocada ainda mais na direção da cauda devido à influência de valores extremos.

Em uma distribuição assimétrica positiva (cauda à direita), a maioria dos dados está concentrada em valores mais baixos, enquanto a cauda longa se estende para valores maiores. Nesse caso, a ordem típica é: moda < mediana < média.

Exemplo de distribuição assimétrica positiva

Em uma distribuição assimétrica negativa (cauda à esquerda), a maioria dos dados está concentrada em valores mais altos, enquanto a cauda longa se estende para valores menores. A ordem típica é: média < mediana < moda.

Exemplo de distribuição assimétrica negativa.

Essas relações refletem o impacto dos valores extremos (outliers) nas medidas de tendência central.

Distribuições normais

As distribuições normais são um tipo especial de curva de densidade, amplamente utilizado em estatística devido à sua relevância em fenômenos naturais, sociais e econômicos. Representada por uma curva em formato de sino (ou curva gaussiana), essa distribuição é simétrica em torno da média, com caudas que se aproximam do eixo horizontal sem nunca tocá-lo. Sua aplicação é baseada no fato de muitos eventos do mundo real seguirem aproximadamente esse padrão, como alturas, pesos, ou variações de processos industriais.

Carl Friedrich Gauss (1777–1855).


Carl Friedrich Gauss (1777–1855) foi um dos matemáticos e cientistas mais influentes da história, frequentemente referido como o "Príncipe dos Matemáticos". Nascido na Alemanha, contribuiu para várias áreas do conhecimento, incluindo álgebra, geometria, análise, estatística, astronomia, física e teoria dos números. Sua genialidade foi reconhecida desde cedo, demonstrando habilidades matemáticas excepcionais ainda na infância.

As distribuições normais são definidas por dois parâmetros principais: a média e o desvio padrão. A média indica o ponto central da distribuição, enquanto o desvio padrão mede a dispersão dos dados em torno da média. Um desvio padrão pequeno resulta em uma curva estreita e alta, indicando baixa variabilidade nos dados. Já um desvio padrão maior gera uma curva mais achatada e larga, refletindo maior dispersão.

As distribuições normais são usadas em estatística inferencial, servindo de base para diversos testes e métodos, como o teste t e intervalos de confiança. Além disso, pelo teorema central do limite, somas ou médias de variáveis independentes tendem a seguir uma distribuição normal, mesmo que as variáveis originais não sejam normais. Isso amplia ainda mais sua aplicabilidade em estudos científicos e análises de dados.


O teorema central do limite afirma que a soma ou a média de um número suficientemente grande de variáveis aleatórias independentes, com distribuição idêntica e finita variância, tende a se aproximar de uma distribuição normal, independentemente da distribuição original dessas variáveis. A principal implicação do teorema é a sua aplicabilidade a amostras retiradas de populações. Quando extraímos múltiplas amostras aleatórias de uma população e calculamos a média de cada amostra, a distribuição dessas médias tenderá a uma forma normal à medida que o tamanho das amostras aumenta. Isso ocorre mesmo que os dados originais da população sejam assimétricos ou apresentem outra forma de distribuição. Esse teorema é usada para construir intervalos de confiança e realizar testes de hipótese. A distribuição normal resultante facilita o cálculo de probabilidades e permite estimar parâmetros populacionais com base em amostras. O teorema central do limite também esclarece a relação entre o tamanho da amostra e a precisão das inferências. Em amostras pequenas, a distribuição das médias pode não se assemelhar à normal, especialmente se os dados originais forem muito distorcidos. Porém, com tamanhos de amostra maiores, a aproximação se torna mais precisa. Geralmente, considera-se que amostras com tamanho superior a 30 já produzem distribuições de médias próximas à normalidade, embora isso dependa da forma da distribuição original.

A regra 68-95-99,7

A regra 68-95-99,7 é uma propriedade das distribuições normais que descreve a proporção de dados que se encontra dentro de intervalos específicos ao redor da média. Essa regra estabelece que aproximadamente 68% dos valores estão dentro de 1 desvio padrão da média, 95% dentro de 2 desvios padrão e 99,7% dentro de 3 desvios padrão. Essa regularidade faz das distribuições normais ferramentas práticas para prever a dispersão dos dados em torno de um valor central.

No contexto da distribuição normal, a regra é visualizada pela curva em formato de sino. A maior concentração de dados ocorre próximo à média, com os extremos da distribuição (caudas) representando valores menos frequentes. Essa propriedade é útil para entender o comportamento de variáveis e para calcular probabilidades de eventos dentro de intervalos determinados, mesmo sem conhecer a totalidade dos dados.

Curva normal com destaque à regra 68-95-99,7

A regra 68-95-99,7 tem aplicações práticas em diversas áreas. Por exemplo, na qualidade de processos industriais, ela ajuda a identificar desvios de produção ao monitorar medidas dentro de certos limites. Em testes padronizados, como os de aptidão acadêmica, a regra permite avaliar quão raros são os escores extremos em relação à média populacional, auxiliando na classificação de desempenho.

Outra utilidade importante da regra é sua capacidade de identificar outliers. Valores fora do intervalo de 3 desvios padrão são raros, ocorrendo em apenas 0,3% dos casos. Essa característica ajuda a detectar dados atípicos que podem indicar erros, fenômenos excepcionais ou variáveis não contempladas no modelo inicial.


Outliers são valores que se destacam do padrão geral dos dados, localizando-se em extremos ou fora do intervalo esperado em uma distribuição. Esses pontos podem surgir por erros de medição, variações excepcionais ou fatores externos. Outliers podem distorcer estatísticas descritivas, como a média, e afetar a interpretação e os resultados de análises estatísticas. Identificar e tratar outliers corretamente ajuda a melhorar a qualidade dos dados e a confiabilidade das conclusões.

Compreender a regra 68-95-99,7 facilita a interpretação da variabilidade em distribuições normais. Ela oferece uma abordagem intuitiva e poderosa para quantificar a dispersão de dados e tomar decisões fundamentadas, mesmo em situações com informações incompletas ou quando se deseja simplificar a análise probabilística.

A distribuição normal padrão

A distribuição normal padrão é uma forma especial da distribuição normal, com média igual a 0 e desvio padrão igual a 1. Ela é utilizada como referência em estatística, permitindo a padronização de variáveis e a simplificação de cálculos de probabilidade. Sua curva em formato de sino é simétrica, com o pico central representando a maior concentração de valores, correspondente à média, mediana e moda.

A padronização de uma variável transforma seus valores originais em escores-z, que indicam quantos desvios padrão o valor está distante da média da distribuição original. A fórmula usada para essa transformação é:

escore-z = (valor original - média) / desvio-padrão


Suponha que a pontuação em um teste segue uma distribuição normal com média de 500 pontos e desvio padrão de 100 pontos. Se um estudante obtém 650 pontos, a padronização pode ajudar a determinar a posição relativa desse desempenho em comparação aos demais participantes. Substituindo os valores: escore-z = (650-500) / 100 = 1,5. Esse escore-z significa que o estudante está 1,5 desvios padrão acima da média. Como veremos a seguir, isso significa que 93,32% dos participantes tiveram pontuação inferior à 650 pontos.

Essa padronização facilita comparações entre variáveis com unidades e escalas diferentes, colocando todas na mesma base de referência. Testes de hipóteses e intervalos de confiança frequentemente dependem da normal padrão para modelar erros e variações amostrais. Como muitas distribuições amostrais se aproximam de uma normal padrão devido ao teorema central do limite, ela é amplamente aplicável em diferentes contextos práticos.

Determinação de proporções normais

A determinação de proporções normais consiste em calcular a probabilidade de que uma variável com distribuição normal assuma valores dentro de um intervalo específico. Essa probabilidade é representada pela área sob a curva da distribuição normal para o intervalo desejado. Esse cálculo é utilizado em estatística para entender a frequência relativa de eventos em dados que seguem esse padrão, como resultados de testes, medidas fisiológicas ou processos industriais.

Não há fórmulas para áreas sob uma curva normal. Para os cálculos, usam-se programas de calculam áreas ou uma tabela de áreas. A maioria das tabelas e programas calculam proporções acumuladas (probabilidade de valores menores ou iguais a um dado Z) ou complementares (probabilidade de valores acima de Z, obtida subtraindo a área acumulada de 1). Para intervalos entre dois valores, calcula-se a diferença entre as áreas acumuladas correspondentes a cada extremo do intervalo.

A partir do valor Z calculado, é possível estimar a proporção acumulada observada. A figura ilustra que 6,68% da amostra tem colesterol abaixo de 140. Consequentemente, 93,32% tem colesterol acima de 140.

Uso da tabela da normal padrão

A tabela da normal padrão é uma ferramenta para calcular probabilidades e proporções em distribuições normais. Ela fornece a área acumulada sob a curva da distribuição normal padrão até um determinado valor de interesse. Essa área acumulada representa a probabilidade de que uma variável padronizada assuma valores menores ou iguais ao valor especificado. O uso da tabela simplifica a análise de probabilidades sem necessidade de integrações complexas.

Abaixo está uma tabela da normal padrão simplificada, apresentando os valores acumulados para diferentes escores-z. Os valores de variam entre -3,0 e 3,0, com incrementos de 0,1.

z	Proporção acumulada
-3,0	0,0013
-2,9	0,0019
-2,8	0,0026
-2,7	0,0035
-2,6	0,0047
-2,5	0,0062
-2,4	0,0082
-2,3	0,0107
-2,2	0,0139
-2,1	0,0179
-2,0	0,0228
-1,9	0,0287
-1,8	0,0359
-1,7	0,0446
-1,6	0,0548
-1,5	0,0668
-1,4	0,0808
-1,3	0,0968
-1,2	0,1151
-1,1	0,1357
-1,0	0,1587
-0,9	0,1841
-0,8	0,2119
-0,7	0,2420
-0,6	0,2743
-0,5	0,3085
-0,4	0,3446
-0,3	0,3821
-0,2	0,4207
-0,1	0,4602
0,0	0,5000
0,1	0,5398
0,2	0,5793
0,3	0,6179
0,4	0,6554
0,5	0,6915
0,6	0,7257
0,7	0,7580
0,8	0,7881
0,9	0,8159
1,0	0,8413
1,1	0,8643
1,2	0,8849
1,3	0,9032
1,4	0,9192
1,5	0,9332
1,6	0,9452
1,7	0,9554
1,8	0,9641
1,9	0,9713
2,0	0,9772
2,1	0,9821
2,2	0,9861
2,3	0,9893
2,4	0,9918
2,5	0,9938
2,6	0,9953
2,7	0,9965
2,8	0,9974
2,9	0,9981
3,0	0,9987

Como utilizar:

Exemplo 1: Para z = 1,5, a proporção acumulada é 0,9332 ou 93,32%.
Exemplo 2: Para z = -2,0, a proporção acumulada é 0,0228 ou 2,28%.

Essa tabela simplificada cobre os valores mais utilizados. Para maior precisão, tabelas mais detalhadas ou software estatístico podem ser utilizados.

Determinação de um valor, dada uma proporção

A determinação de um valor, dada uma proporção, é um procedimento estatístico que busca identificar o valor correspondente a uma determinada probabilidade acumulada em uma distribuição normal. Esse processo é utilizado para definir limites de controle, calcular percentis ou determinar valores críticos em testes de hipóteses. Ele requer o uso da tabela da normal padrão ou ferramentas computacionais para localizar o escore-z associado à proporção desejada.

Para resolver esse problema, o primeiro passo é consultar a tabela da normal padrão e identificar o escore-z correspondente à proporção acumulada fornecida. Por exemplo, para uma proporção acumulada de 0,8413, a tabela indica z= 1,0, pois 84,13% dos valores estão abaixo de 1 desvio padrão acima da média. Esse escore-z serve como ponto de partida para determinar o valor original (x) em uma distribuição normal específica.

Depois de identificar o escore-z, utilizamos a fórmula de padronização de escore-z, rearranjada para calcular:

x = escore-z * desvio-padrão + média Essa fórmula reverte a padronização, traduzindo o escore-z para a escala da variável original.


Suponha que uma distribuição normal tenha média de 100 e desvio padrão de 15. Se desejamos encontrar o valor correspondente ao percentil 90 (proporção acumulada de 0,9000), consultamos a tabela da normal padrão para encontrar z = 1,28. Substituindo na fórmula: x = 1,28 * 15 + 100 = 119,2. Portanto, 90% dos valores estão abaixo de 119,2.

Intervalo de confiança

O intervalo de confiança é uma ferramenta estatística utilizada para expressar a incerteza em estimativas realizadas a partir de dados amostrais. Ele oferece uma maneira clara e sistemática de interpretar resultados, fornecendo uma faixa de valores dentro da qual o parâmetro populacional verdadeiro provavelmente está localizado. Esse conceito é utilizado em diversas áreas, como saúde, economia e ciências sociais, onde tomar decisões baseadas em dados confiáveis é essencial.

Neste capítulo, abordaremos os principais aspectos do intervalo de confiança, desde sua definição e componentes principais até o cálculo, interpretação e exemplos práticos. Também discutiremos fatores que afetam a precisão dos intervalos, considerações éticas, limitações e métodos visuais de apresentação.

O que é um intervalo de confiança?

O intervalo de confiança é uma faixa de valores que tem uma probabilidade definida de conter o verdadeiro valor de um parâmetro populacional. Ele é usado para expressar a incerteza associada a uma estimativa baseada em amostras. Por exemplo, ao calcular a média de peso de uma população, um intervalo de confiança de 95% poderia ser de 65 a 75 kg, indicando que há 95% de confiança de que o peso médio real está dentro desse intervalo.

Esse conceito é usado nas inferências estatísticas, pois permite tomar decisões baseadas em dados sem a necessidade de conhecer toda a população. Ele se baseia na ideia de que as amostras fornecem estimativas aproximadas do parâmetro populacional, mas sempre haverá alguma incerteza associada a essas estimativas. Essa incerteza é influenciada pelo tamanho da amostra e pela variabilidade dos dados.

Componentes principais

O ponto estimado é o valor central calculado a partir da amostra, como a média ou proporção. Ele serve como referência para construir o intervalo de confiança. A margem de erro representa a quantidade de variação possível devido ao erro amostral e é determinada pelo desvio-padrão e pelo tamanho da amostra.

O nível de confiança reflete a probabilidade de que o intervalo contenha o verdadeiro valor populacional. Níveis de confiança comuns incluem 90%, 95% e 99%. Quanto maior o nível de confiança, mais amplo será o intervalo. Esses componentes trabalham em conjunto para fornecer uma estimativa estatisticamente válida e compreensível da incerteza envolvida nos dados analisados e são usados na interpretação dos resultados. A escolha dos níveis de confiança definirá o escore-z que será usado nos cálculos. Os valores mais comuns são:

90% de confiança: 1,645
95% de confiança: 1,960
99% de confiança: 2,576

Cálculo do intervalo de confiança

O cálculo do intervalo de confiança varia conforme o tipo de dado e a distribuição amostral.

Para uma média populacional, utiliza-se a fórmula :

Intervalo de confiança = média ± escore-z * desvio-padrão / raiz(amostra)

Exemplo: A média de altura em uma amostra de 30 pessoas, com média 170 cm, desvio-padrão 10 cm e nível de confiança de 95%.

Para a média de altura:

Média = 170 cm
Desvio-padrão = 10 cm
Tamanho da amostra = 30
Nível de confiança = 95%, valor z = 1,96
Fórmula: Intervalo de confiança = média ± escore-z * desvio-padrão / raiz(amostra)
Cálculo: Intervalo de confiança = 170 ± 1,96 * 10 / raiz(30) = 170 ± 3,58
Intervalo de confiança: 166,42 cm a 173,58 cm.

Para uma proporção populacional, aplica-se:

Intervalo de confiança = proporção ± escore-z * raiz((proporção * (1-proporção)/amostra))

Exemplo: A proporção de pessoas que preferem um produto, em uma amostra de 200 pessoas, onde 120 indicaram preferência, com nível de confiança de 90%.

Para a proporção:

Proporção = 120/200 = 0,6 (ou 60%)
Tamanho da amostra = 200
Nível de confiança = 90%, valor z = 1,645
Fórmula: Intervalo de confiança = proporção ± escore-z * raiz((proporção * (1-proporção)/amostra))
Cálculo: Intervalo de confiança = 0,6 ± 1,645 * raiz((0,6 * (1-0,6)/200)) = 0,6 ± 0,06
Intervalo de confiança: 0,54 a 0,66 (ou 54 a 66%).

Interpretação

Um intervalo de confiança não garante que o verdadeiro parâmetro populacional esteja contido nele. Ele reflete que, se repetirmos o experimento muitas vezes, uma certa porcentagem dos intervalos gerados conterá o parâmetro. Por exemplo, um intervalo de confiança de 95% significa que, em 95 de cada 100 amostras, o verdadeiro valor estará dentro do intervalo calculado.

Em uma pesquisa eleitoral, pode-se afirmar que "o candidato A possui 45% das intenções de voto, com um intervalo de confiança de 95% entre 42% e 48%." Isso significa que há 95% de confiança de que o verdadeiro percentual de intenções de voto está dentro desse intervalo.

Em estudos clínicos, um exemplo seria: "A redução média de pressão arterial foi 10 mmHg, com um intervalo de confiança de 95% entre 8 e 12 mmHg."

Esses exemplos ilustram como intervalos de confiança são usados para comunicar a incerteza e a confiabilidade das estimativas. A interpretação depende de suposições como a representatividade da amostra e a ausência de viés. É importante lembrar que o intervalo de confiança é uma ferramenta de inferência e não deve ser usado isoladamente. Ele deve ser interpretado no contexto de outros dados e informações, como o tamanho da amostra e a variabilidade dos dados, para fornecer uma análise mais robusta.

Fatores que afetam o intervalo de confiança

O tamanho da amostra é um dos principais fatores que influenciam o intervalo de confiança. Amostras maiores tendem a produzir intervalos mais estreitos, pois aumentam a precisão da estimativa. A variabilidade dos dados também desempenha um papel importante: maior variabilidade resulta em intervalos mais amplos, refletindo maior incerteza.

O nível de confiança afeta diretamente a largura do intervalo; níveis mais altos, como 99%, geram intervalos mais largos do que níveis mais baixos, como 90%. Esses fatores devem ser considerados ao planejar estudos e interpretar resultados, para garantir que as conclusões sejam baseadas em estimativas confiáveis e adequadamente representativas da população.

Considerações éticas e limitações

A representatividade da amostra é essencial para a validade do intervalo de confiança. Amostras enviesadas ou não representativas podem levar a intervalos que não refletem adequadamente o parâmetro populacional. O erro de medição também pode comprometer a precisão do intervalo, destacando a importância de instrumentos e métodos confiáveis.

Evite a interpretação equivocada de que o parâmetro populacional "sempre" está no intervalo calculado. O intervalo de confiança é uma ferramenta probabilística e deve ser usado com cautela. Considerações éticas incluem a transparência na apresentação dos intervalos e o reconhecimento de limitações nos dados e métodos utilizados.

Resumo visual

Exemplo de uso com barras verticais

Um gráfico ou diagrama pode ilustrar a distribuição dos dados, o ponto estimado e os limites inferior e superior do intervalo. Essas representações visuais ajudam a comunicar os resultados de maneira clara e acessível, facilitando a interpretação por públicos diversos.

Exemplo de apresentação em um gráfico de linhas (área sombreada)

Exemplo de apresentação em gráfico de meta-análise

Diagramas de barras, gráficos de linha e representações geométricas são ferramentas comuns para esse propósito. A visualização é particularmente útil em contextos educacionais e profissionais, onde a clareza e a precisão na comunicação de resultados são importantes para a tomada de decisão.

Noções sobre correlação

Em bioestatística, frequentemente buscamos entender a relação entre diferentes variáveis. Será que a pressão arterial aumenta com a idade? O consumo de frutas e vegetais está relacionado a um menor risco de doenças cardíacas? Para responder a essas perguntas, precisamos de ferramentas que quantifiquem a força e a direção da relação entre duas variáveis. É aqui que entra o conceito de correlação.

Este tópico introduzirá os conceitos básicos de correlação, focando no coeficiente de correlação de Pearson, uma medida amplamente utilizada para descrever a relação linear entre duas variáveis quantitativas.

Definição de correlação

A correlação descreve a associação estatística entre duas variáveis. Quando duas variáveis são correlacionadas, significa que elas tendem a variar juntas de forma sistemática. É importante ressaltar que a correlação não implica causalidade, ou seja, o fato de duas variáveis serem correlacionadas não significa que uma cause a outra. A correlação apenas indica que existe uma relação entre as variáveis, que pode ser influenciada por outros fatores.

Coeficiente de correlação de Pearson (r)

O coeficiente de correlação de Pearson (r) é uma medida estatística que quantifica a força e a direção da relação linear entre duas variáveis quantitativas. O valor de r varia de -1 a +1, onde:

r = +1: Indica uma correlação positiva perfeita, ou seja, as duas variáveis aumentam ou diminuem juntas na mesma proporção.
r = -1: Indica uma correlação negativa perfeita, ou seja, quando uma variável aumenta, a outra diminui na mesma proporção.
r = 0: Indica que não há correlação linear entre as variáveis.

Valores de r entre -1 e +1 indicam diferentes graus de correlação, sendo que valores mais próximos de zero indicam uma correlação mais fraca.

Interpretação do valor de r:

0,00 a 0,19: correlação muito fraca.
0,20 a 0,39: correlação fraca.
0,40 a 0,59: correlação moderada.
0,60 a 0,79: correlação forte.
0,80 a 1,00: correlação muito forte.

Gráficos de dispersão

Os gráficos de dispersão são ferramentas visuais para explorar a relação entre duas variáveis quantitativas. Cada ponto no gráfico representa um par de valores correspondentes das duas variáveis. O padrão dos pontos no gráfico fornece uma indicação da força e da direção da correlação:

Correlação positiva: os pontos tendem a formar uma linha ascendente da esquerda para a direita.
Correlação negativa: os pontos tendem a formar uma linha descendente da esquerda para a direita.
Sem correlação: os pontos não apresentam um padrão claro.

Correlação positiva, negativa e nula

Correlação versus causalidade

Correlação não implica causalidade. O fato de duas variáveis serem correlacionadas não significa que uma cause a outra. A correlação apenas indica que existe uma relação entre as variáveis, que pode ser:

Causal: uma variável causa a outra (ex: tabagismo e câncer de pulmão).
Espúria: a relação é devida a um terceiro fator (ex: consumo de sorvete e afogamentos).
Coincidência: a relação é puramente casual.

Para estabelecer causalidade, são necessários estudos controlados que permitam isolar o efeito de uma variável sobre a outra.

Aplicações da correlação em saúde

A correlação é muito usada em diversas áreas da saúde, incluindo:

Epidemiologia: investigar a relação entre fatores de risco e doenças.
Saúde pública: identificar áreas de risco e desenvolver intervenções.
Ensaios clínicos: avaliar a eficácia de novos tratamentos.
Genética: investigar a relação entre genes e doenças.

Exemplos:

Correlação positiva: Idade e pressão arterial, consumo de gordura saturada e risco de doença cardíaca.
Correlação negativa: Nível de atividade física e risco de obesidade, consumo de frutas e vegetais e risco de acidente vascular cerebral.

Noções sobre regressão

Enquanto a correlação mede a força e a direção da associação linear entre duas variáveis quantitativas, a regressão vai um passo além. Ela nos permite modelar e descrever essa relação através de uma equação matemática, possibilitando a predição de uma variável (dependente) a partir de outra (independente).

Imagine, por exemplo, que queremos entender como o peso de uma pessoa influencia sua pressão arterial. A análise de correlação pode nos dizer se existe uma relação entre essas variáveis e qual sua força. No entanto, a análise de regressão nos permite ir além, criando um modelo que estima a pressão arterial de uma pessoa a partir do seu peso.

Este tópico explorará os conceitos básicos da análise de regressão linear simples, a técnica mais comum para modelar a relação linear entre uma variável independente e uma variável dependente. Ressalta-se que é essencial compreender suas limitações e interpretar os resultados com cautela, considerando o contexto da pesquisa e buscando outras evidências para confirmar as conclusões.

Modelo de regressão linear simples

A regressão linear simples assume que a relação entre a variável dependente (Y) e a variável independente (X) pode ser representada por uma linha reta. A equação da reta de regressão é dada por:

Y = aX + b

Onde:

Y: variável dependente (a variável que queremos predizer).
X: variável independente (a variável usada para fazer a predição).
a: coeficiente de Regressão (a inclinação da reta, que indica a mudança em Y para cada unidade de mudança em X).
b: intercepto (o valor de Y quando X é igual a zero).

Exemplo de gráfico contendo resultado da regressão linear. No Y (eixo vertical) colocamos a variável dependente e no X (eixo horizontal) a variável independente.

Estimação dos parâmetros

Para encontrar a "melhor" reta de regressão, ou seja, a reta que melhor se ajusta aos dados, utilizamos o método dos mínimos quadrados. Este método busca minimizar a soma dos quadrados das diferenças entre os valores observados de Y e os valores preditos pelo modelo.

Coeficiente de determinação (R²)

O coeficiente de determinação (R²) é uma medida que indica a proporção da variabilidade total em Y que é explicada pela variável X. Para calculá-lo, basta elevar ao quadrado o coeficiente de correlação de Pearson. Varia de 0 a 1, onde:

R² = 0: O modelo não explica nenhuma variabilidade em Y.
R² = 1: O modelo explica 100% da variabilidade em Y.

Um R² alto indica um bom ajuste do modelo aos dados.

Aplicações da regressão linear em saúde

A regressão linear tem diversas aplicações em saúde, incluindo:

Predizer o risco de doenças: modelar a relação entre fatores de risco (ex: tabagismo, obesidade) e a probabilidade de desenvolver doenças (ex: doenças cardíacas, diabetes).
Avaliar a eficácia de tratamentos: comparar a evolução de pacientes submetidos a diferentes tratamentos, ajustando para outras variáveis que podem influenciar o desfecho.
Investigar a relação entre biomarcadores e indicadores de saúde: entender como diferentes biomarcadores se relacionam com a progressão de doenças ou resposta a tratamentos.

Limitações da regressão linear simples

É importante lembrar que a regressão linear simples tem limitações:

Assume uma relação linear: Nem todas as relações entre variáveis são lineares.
Sensível a outliers: Valores extremos podem influenciar a reta de regressão.
Não implica causalidade: Assim como a correlação, a regressão não prova que uma variável causa a outra.

Teste de hipóteses

Neste tópico, mergulharemos no mundo dos testes de hipóteses, uma ferramenta da Bioestatística para tomar decisões embasadas em dados amostrais. Exploraremos o processo de formulação de hipóteses, os tipos de erros que podemos cometer, a importância do valor-p e como interpretar os resultados de um teste de hipóteses de forma crítica e rigorosa. Ao dominar os testes de hipóteses, você estará equipado para tomar decisões mais informadas e embasadas em evidências, contribuindo para uma prática profissional mais crítica e rigorosa na área da saúde.

Em pesquisa, frequentemente buscamos responder perguntas sobre a população a partir de dados amostrais. O teste de hipóteses nos permite decidir entre duas hipóteses concorrentes sobre um parâmetro populacional, como a média, a proporção ou a associação entre variáveis.

Hipótese nula (H0)

A hipótese nula representa a "hipótese de não efeito" ou "hipótese do status quo", aquela que estamos tentando refutar. Ela assume que não há diferença significativa, efeito ou associação na população.

Hipótese alternativa (H1)

A hipótese alternativa é a hipótese que queremos comprovar. Ela afirma que existe uma diferença significativa, efeito ou associação na população.

Nível de significância (α)

O nível de significância (α), geralmente definido como 0,05 (5%), representa a probabilidade máxima aceitável de rejeitar a hipótese nula quando ela é verdadeira (erro tipo I). Ele define o limiar para considerarmos um resultado estatisticamente significante.

Valor-p

O valor-p é a probabilidade de observarmos os dados amostrais, ou dados ainda mais extremos, assumindo que a hipótese nula é verdadeira. Ele quantifica a evidência contra a hipótese nula.

Rejeitar ou não rejeitar a H0?

Comparamos o valor-p ao nível de significância (α):

Se o valor-p for menor que α: Rejeitamos a hipótese nula, concluindo que há evidência suficiente para suportar a hipótese alternativa.
Se o valor-p for maior que α: Não rejeitamos a hipótese nula, indicando que não há evidência suficiente para suportar a hipótese alternativa.

Erros tipo I e tipo II

Ao tomar uma decisão em um teste de hipóteses, estamos sujeitos a dois tipos de erros:

Erro tipo I (falso positivo): Rejeitar a hipótese nula quando ela é verdadeira.
Erro tipo II (falso negativo): Não rejeitar a hipótese nula quando ela é falsa.

Poder do teste

O poder de um teste é a probabilidade de rejeitar a hipótese nula quando ela é falsa (acertar a decisão). Um alto poder do teste é desejável, pois aumenta a chance de detectar um efeito real.

Testes unilaterais e unilaterais

Teste unilateral: Usado quando a hipótese alternativa especifica a direção do efeito (maior, menor).
Teste bilateral: Usado quando a hipótese alternativa não especifica a direção do efeito (diferente).

Aplicações na saúde

Os testes de hipóteses são amplamente aplicados em pesquisas na área da saúde:

Comparar a eficácia de dois tratamentos: Testar se um novo medicamento é mais eficaz do que o tratamento padrão para reduzir a pressão arterial.
Investigar fatores de risco: Testar se o tabagismo está associado ao risco de desenvolver câncer de pulmão.
Avaliar a efetividade de um programa de saúde pública: Testar se um programa de intervenção para reduzir a obesidade infantil teve um impacto significativo na população.

Significância estatística vs. significância clínica

Interprete os resultados de um teste de hipóteses com cautela:

Significância estatística não implica significância clínica: Um resultado estatisticamente significante pode não ter relevância prática.
O valor-p não indica o tamanho do efeito: Um valor-p pequeno não significa necessariamente um grande efeito.
Correlação não implica causalidade: Um teste de hipóteses pode indicar uma associação entre variáveis, mas não prova que uma causa a outra.

Comparação de dados contínuos

Este capítulo abordará as ferramentas estatísticas utilizadas para comparar dados contínuos, com foco na comparação de médias entre dois ou mais grupos. Abordaremos os testes t de Student, a análise de variância (ANOVA) e seus pressupostos, além de discutir a escolha do teste adequado e a interpretação dos resultados.

Em pesquisa na área da saúde, frequentemente comparamos dados contínuos, como pressão arterial, peso, níveis de glicose, entre diferentes grupos. O objetivo é determinar se existem diferenças estatisticamente significativas entre as médias dos grupos, o que pode indicar a influência de um tratamento, fator de risco ou outra variável de interesse.

Teste t

O teste t é utilizado para comparar as médias de dois grupos. Ele avalia se a diferença observada entre as médias é estatisticamente significativa ou se pode ser atribuída ao acaso. Existem diferentes tipos de testes t, dependendo das características dos dados e dos objetivos da análise:

Teste t para amostras independentes: Utilizado quando os grupos são independentes, ou seja, quando os indivíduos em um grupo não estão relacionados aos indivíduos no outro grupo (ex: comparar a pressão arterial de fumantes e não fumantes).
Teste t para amostras pareadas: Utilizado quando os grupos são dependentes, ou seja, quando há uma relação entre os indivíduos nos dois grupos (ex: comparar a pressão arterial de pacientes antes e depois de um tratamento).

Pressupostos

Para que os resultados do teste t sejam válidos, alguns pressupostos devem ser satisfeitos:

Normalidade: Os dados devem seguir uma distribuição normal em cada grupo.
Homogeneidade de variâncias: As variâncias dos dois grupos devem ser iguais.

Análise de Variância (ANOVA)

A ANOVA é utilizada para comparar as médias de três ou mais grupos independentes. Ela avalia se existe uma diferença significativa entre pelo menos duas das médias dos grupos.

ANOVA de um fator: Utilizada quando há apenas uma variável independente categórica (fator) com três ou mais níveis (grupos).
ANOVA de dois fatores: Utilizada quando há duas variáveis independentes categóricas.

Pressupostos

Normalidade: Os dados devem seguir uma distribuição normal em cada grupo.
Homogeneidade de variâncias: As variâncias de todos os grupos devem ser iguais.
Independência: As observações dentro de cada grupo devem ser independentes.

Escolha do teste

A escolha entre o teste t e a ANOVA depende do número de grupos que estão sendo comparados:

Dois grupos: Teste t de Student.
Três ou mais grupos: ANOVA.

Interpretação

Os resultados dos testes t e ANOVA são geralmente apresentados com um valor-p. Se o valor-p for menor que o nível de significância (α), geralmente 0,05, rejeitamos a hipótese nula de que não há diferença entre as médias dos grupos. Isso indica que há evidência estatística de uma diferença significativa.

Exemplos

Comparar a eficácia de diferentes medicamentos para controlar a pressão arterial.
Avaliar o impacto de um programa de intervenção na redução do colesterol.
Investigar a associação entre diferentes tipos de dieta e o risco de desenvolver diabetes

Comparação de dados categóricos

Este tópico explorará as ferramentas estatísticas utilizadas para analisar e comparar dados categóricos, com foco em determinar se existe associação entre variáveis categóricas e em comparar proporções entre diferentes grupos. Abordaremos o teste Qui-quadrado, o teste exato de Fisher, o risco relativo e o odds ratio, além de discutir a escolha do teste adequado, a interpretação dos resultados e exemplos práticos na área da saúde.

Em pesquisa na área da saúde, frequentemente nos deparamos com dados categóricos, que representam características ou atributos que podem ser classificados em categorias distintas. Exemplos incluem sexo (masculino, feminino), tipo sanguíneo (A, B, AB, O), presença de uma doença (sim, não), e nível de gravidade de uma doença (leve, moderado, grave).

A análise de dados categóricos nos permite:

Investigar associações: Determinar se existe relação entre duas ou mais variáveis categóricas (ex: existe associação entre tabagismo e câncer de pulmão?).
Comparar proporções: Verificar se as proporções de uma característica diferem entre grupos (ex: a proporção de pacientes que respondem a um tratamento é maior em um grupo do que em outro?).

Teste Qui-quadrado (χ²)

O teste Qui-quadrado é amplamente utilizado para analisar a relação entre duas variáveis categóricas. Ele compara as frequências observadas em cada categoria com as frequências esperadas caso não houvesse associação entre as variáveis.

Teste de independência: Avalia se duas variáveis categóricas são independentes ou se existe associação entre elas.
Teste de homogeneidade: Verifica se a distribuição de uma variável categórica é a mesma em diferentes grupos.

Teste exato de Fisher

O teste exato de Fisher é uma alternativa ao teste Qui-quadrado quando o tamanho da amostra é pequeno ou quando as frequências esperadas em algumas células da tabela de contingência são baixas. Ele calcula a probabilidade exata de observar a tabela de contingência, assumindo que não há associação entre as variáveis.

Risco relativo (RR) e odds ratio (OR)

O risco relativo e o odds ratio são medidas de associação que quantificam a força da relação entre duas variáveis categóricas, geralmente em estudos observacionais.

Risco relativo (RR): Representa a razão entre a probabilidade de um evento ocorrer em um grupo exposto a um fator de risco em relação à probabilidade do evento ocorrer no grupo não exposto.
Odds ratio (OR): Representa a razão entre as chances (odds) de um evento ocorrer em um grupo exposto a um fator de risco em relação às chances do evento ocorrer no grupo não exposto.

Escolha do teste

A escolha do teste adequado depende do tipo de dados e dos objetivos da análise:

Associação entre duas variáveis categóricas: Teste Qui-quadrado ou teste exato de Fisher.
Comparar proporções em dois grupos independentes: Teste Qui-quadrado ou teste exato de Fisher.
Quantificar a força da associação: Risco Relativo (RR) ou Odds Ratio (OR).

Interpretação

O valor-p obtido nos testes Qui-quadrado e exato de Fisher indica se existe evidência estatística para rejeitar a hipótese nula de que não há associação entre as variáveis. Valores de RR ou OR maiores que 1 indicam um aumento do risco ou das chances do evento no grupo exposto, enquanto valores menores que 1 indicam uma redução do risco ou das chances.

Exemplos na saúde

Avaliar a associação entre o uso de um determinado medicamento e o desenvolvimento de um efeito colateral.
Comparar a proporção de pacientes com diabetes em diferentes grupos étnicos.
Investigar a relação entre a exposição a um fator ambiental e o risco de desenvolver uma doença crônica.