Observatório de dados/Partições

Partições
agrupamentos sistemáticos e classificações

Partição de A em A1, ... , A6

Validade Neste curso e alguns textos
Contexto: classif. estatística

Denominamos agrupamento sistemático dos elementos de um conjunto , ou partição de em k partes, ao processo de definir dois ou mais subconjuntos tais que esses subconjuntos formem um "mosaico" de k células (). Um mosaico, como nas ilustrações desta página, pode ser caracterizado por suas propriedades, e estas propriedades descritas em linguagem de conjuntos:

  1. nenhuma "célula" está vazia.
  2. A união das células reproduz o todo .
  3. As células não se sobrepõe, são disjuntas entre si.

Exemplo. Um conjunto de letras A={a,b,c,d,f} pode ser subdividido em e . Os subconjuntos possuem todas as características de um mosaico:

  1. ,   .     Nenhuma "célula" está vazia.
  2. .     A união das células reproduz o todo.
  3. .     As células não se sobrepõe, são disjuntas entre si.

Uma definição mais genérica é oferecida abaixo, assim como uma definição análoga para multiconjuntos. Os exemplos em seguida também ajudam a compreender melhor a definição.

Definição para conjuntos

editar

A partição de   em k partes é formada por subconjuntos  , com  , tais que:

  1.  .
  2.  
  3.   ;    ;    ;   .

Resumidamente, os subconjuntos   formam uma partição de C quando: são disjuntos entre si; a sua união reproduz C; e cada subconjunto tem pelo menos um elemento. Os exemplos abaixo ajudam a compreender melhor a definição.

Intuição e visualização

editar

Visualmente, se imaginarmos elementos como pontos no plano, os agrupamentos   formam um mosaico, cobrindo completamente a superfície original, sem buracos nem interseções.

 
Partição vista como mosaico.

Na ilustração a superfície original, que faz papel do conjunto   da definição, é um retângulo, e cada célula colorida do mosaico faz papel de classe  .

Podemos imaginar que cada polígono do mosaico possa ser novamente particionado em células menores, formando sub-mosaicos, ou seja, subclasses. A relação classe-subclasse forma uma hierarquia, como no mapa do Brasil (ilustrado mais abaixo) onde podemos ter primeiro uma divisão do território nacional em regiões, depois a subdivisão dessas regiões em estados.

Motivação

editar

... Vimos nas atividades ... e ... que os elementos de um conjunto podem ser bastante distintos, o que nos leva a dividir os mesmos em "tipos" agrupados por semelhança ... Por exemplo ao medir folhas vimos que não faz sentido usar o mesmo critério de medida para todas, nem comparar folhas com medidas obtidas de critérios diferentes...

... É bastante comum, nas mais diversas áreas da Ciência e Tecnologia, o problema de se reduzir a diversidade de tipos de elementos em um conjunto, resolvendo esse problema com o estabelecimento de regras de classificação...

... pelas aplicações e motivações entendemos melhor o porque da definição ... Não faz sentido por exemplo definir uma classificação com menos de duas classes... Não faz sentido ter mais classes do que elementos ... etc.

Características da classificação

editar

... outras características de uma classificação podem ser demandas ... definindo elas mais formalmente...

Domínio de uma classe

editar

... uma classificação   tem domínios   quando podemos dizer que   ... Necessariamente  , onde D é o domínio de C. No caso de multiconjuntos ...

Classificação de sequências e multiconjuntos

editar

Quando se tratando de multiconjunto, deve-se tomar certo cuidado ao estabelecer domínios, e então acrescentar uma quarta propriedade, de que os domínios das classes-multiconjunto também são distintos. ... similarmente numa sequência ...

Uniformidade das classes

editar

Conforme o tipo de elemento do conjunto   pode-se exigir mais uma importante propriedade das classes  , que é a uniformidade entre elas. O critério de uniformidade pode ser imposto aos elementos do domínio, ou diretamente aos elementos da classe:

  • classes uniformes: uma classificação   será dita "uniforme" quando todas elas satisfazem a propriedade de uniformização,  . Exemplo: obrigar que todas as classes tenham mesmo número de elementos,  .
  • classes com domínio uniforme: uma classificação   com domínios  , com todos os domínios satisfazendo uma mesma propriedade  . Exemplo: obrigar que todas os domínios das classes tenham mesmo número de elementos,  .
  • classes uniformes com domínios uniformes: duas propriedades, uma para uniformização do domínio e outra para uniformização dos elementos.  

Hieraraquia entre classes

editar

....

Classificação binária e múltipla

editar

... quando existem apenas duas classes K1 e K2, dizemos que a classificação é binária... Quando são mais, é múltipla (multiclasse)... Os mecanismos de classificação múltipla sempre podem ser definidos a partir da binária.

Ocupação das partições: princíṕiop do pombal

editar
 
A inspiração para o nome do princípio: pombos em suas caixas. Aqui n = 10 e k = 9. Como  , temos pelo menos uma caixa com 2 ou mais pombos.

Fazemos uso do princípio do pombal quando desejamos contabilizar o número máximo de elementos das partições, quando tentamos distribuir elementos de forma "o mais uniforme possível" entre elas.

Seja "n" o número de objetos distintos a serem guardados em "k" recipientes.
Pode-se afirmar com certeza que pelo menos um recipiente conterá   ou mais objetos,
onde   denota o menor inteiro igual ou superior a x (função teto).

Na notação utilizada para os agrupamentos podemos dizer que, havendo   amostras agrupadas em partições   de um conjunto C (com i=1..k), deve haver não menos que   amostras em pelo menos uma dessas partições  .

Uma das consequências é que devemos reduzir o valor de k (consequentemente aumentando   em média) até que seja satisfatória a aproximação  .
Por exemplo   é satisfatória, já os valores 4 e 5 não podem ser tão bem aproximados.

Nota: o termo "aproximação satisfatória" pode ser quantificado, ainda que de maneira arbitrária. Podemos supor que "10% ou menos de diferença" é satisfatório. 100 e 101 diferem em apenas 1%; 4 e 5 diferem em mais de 20%,
 .  .

Em partições realizadas para fins de classificação uniforme, tipicamente em dados estatísticos, quando k é alto (muitos grupos) criam-se falsos valores modais: a estatística requer agrupamentos sem "efeito pombal" na sua moda.

Exemplos

editar

População de uma escola

editar

Os exemplos a seguir são relativos à abstração de uma escola como sendo um conjunto de pessoas.

População do Brasil

editar
 
O território brasileiro é subdividido em regiões que são subdivididas em estados. Ver dataset completo.

Os exemplos a seguir são relativos à abstração do Brasil como sendo um conjunto de moradores, ou seja, usando o critério do Censo do IBGE, que estabelece as pessoas como "domiciliados". O IBGE também estabelece critérios para garantir que, mesmo em casos ambíguos, a mesma pessoa não seja contada duas vezes em cidades diferentes (ex. numa tem família e na outra tem trabalho certas épocas do ano).



Análise combinatória

editar

Para avaliar ou quantificar todas as possíveis maneiras de se particionar um conjunto, é preciso recorrer à Análise Combinatória e métodos mais sofisticados de descrição das "famílias de partições".

Definição para multiconjuntos

editar

Em um multiconjunto M, por analogia à partição de conjuntos, define-se que seus sub-multiconjuntos  .
Eles formam partição de M em k partes se, para   tivermos

1.                    2.                    3.    .

Só difere da partição de conjuntos, ligeiramente, na segunda propriedade, pois num contexto de dados, onde se visa a preservação da informação, é requerida a soma das multiplicidades.
Nota: em estatística os agrupamentos   são denominados classes e é requerido que sejam representativos de intervalos uniformes.

Exemplos de partições de multiconjuntos

editar

Sacola de palavras

editar

... ver w:en:Bag-of-words_model ... Modela-se um documento textual qualquer como multiconjunto de suas palavras. Neste caso o documento é um mosaico e cada célula tem um só elemento, a palavra...

Ver também

editar