Observatório de dados/Diversidade

O conceito de diversidade ganhou força na Estatística com o seu uso e formalização em Ecologia de comunidades, e sua definição recebeu alguns índices estatísticos padronizados, conhecidos como "componentes da diversidade". Eles se complementam:

Componente Definição formal Descrição [referência]
Riqueza
(n ou r)
Número de pessoas com o prenome. Frequência de indivíduos daquela "espécie" na comunidade, ou seja, frequência do prenome. [ ref ]
Domínância
(s ou d)
Probabilidade de duas amostras aleatórias do conjunto de pessoas apresentarem mesmo prenome. Frequência de indivíduos daquela "espécie". [ ref ]
Equitatividade ìndice de Shanon normalizado,
com
e
Destaca o grau de uniformidade (ou homogeneidade) da distribuição de abundância de "espécies" em uma comunidade. [ ref ]

Exemplo qualitativo: imaginemos o conjunto das pessoas presentes numa festa, e subconjuntos dados pelos prenomes dessas pessoas. Numa primeira festa F1 foram distribuídos convites apenas para prenomes Pedro e Alice, e apareceram 40 Alices e 1000 Pedros:

  • Riqueza: n(F1Predro)=1000;  n(F1Alice)=40.
  • Dominância: mais de 90% de changes de duas amostras aleatórias consecutivas sobre F1 resultarem em Pedro.
  • Equitatividade: fraca, não é uma destribuição equitativa.

Numa outra festa F2 com convites para prenomes Mario e Marina apareceram 40 Marios and 42 Marinas:

  • Riqueza: n(F2Mario)=40;  n(F2Marina)=42.
  • Dominância: menos de 30% de changes de duas amostras aleatórias consecutivas sobre F2 num mesmo prenome.
  • Equitatividade: alta, é uma destribuição equitativa, está bem balanceada.


Além dos índices existem também convenções para se tabular e graficar a distribuição de frequências para fins de análise da diversidade (ver abundância relativa de espécies). A seguir com um exemplo numérico a organização dos dados de diversidade ficará mais evidente.


Exemplo numérico[1]: abstraindo um pouco e ao mesmo tempo tornando a análise numérica mais realista. Considere o seguinte multiconjunto C de de 27 indivíduos com respectivos prenome dados por letras:

C = [a, a, a, a, a, a, a, a, a, a, b, b, b, b, c, c, c, c, d, d, d, d, e, f, g, h, i]

Há, portanto, 27 indivíduos de 9 prenomes (de "a" até "i") na amostra. Tabulando isso em frequência (multiplicidade de cada prenome do multiconjunto C) temos:

prenome a b c d e f g h i
multiplicidade 10 4 4 4 1 1 1 1 1

indicando que o prenome "a" é a mais abundante, com 10 indivíduos, e os prenomes "e" até "i" são unárias (singletons). Dos diversos prenome ("a", "b", ..., até "i") a maior parte (5 num total de 9) é unária.

Podemos ainda aproveitar o resultado acima e tabular pela frequência da abundância:

multiplicidade de um prenome 1 2 3 4 5 6 7 8 9 10
quantidade de prenomes 5 0 0 3 0 0 0 0 0 1

Podemos chamar a "multiplicidade de um prenome" de abundância. O "quantidade de prenomes" é o número de letras com aquela mesma multiplicidade na tabela anterior. Por exemplo 3 prenomes aparecem com multiplicidade 4 e 5 prenomes com multiplicidade 1. Mais precisamente, na segunda linha, o 5 da primeira coluna significa que cinco prenomes, de "e" até "i" têm abundância 1. Os dois zeros seguintes nas colunas 2 e 3 significam que zero prenomes têm abundância 2 ou 3. O 3 na segunda linha da coluna 4 significam que três prenome, "b", "c" e "d", têm abundância quatro. O final 1 na coluna 10 significa que um prenome, "a", tem abundância 10.

Esse tipo de representação dos dados é típico nos estudos de diversidade.

  1. Extraído dos exemplos deste artigo