Observatório dos Prenomes

No Brasil, de acordo com o Censo Demográfico 2010, existem cerca de 200 milhões de habitantes com mais de 130 mil nomes diferentes... E estamos falando só da diversidade de primeiros nomes das pessoas que habitam o território brasileiro, como Maria, Marco, Carlos ou Joana.

O IBGE é órgão do governo federal responsável pelo censo demográfico e pelo levantamento destes nomes, tendo também disponibilizado uma ótima interface de consulta aos dados estatísticos, https://censo2010.ibge.gov.br/nomes. Existem, além dos dados oficiais brasileiros, dados disponíveis na Wikidata, DBpedia e outras fontes, principalmente relativas à Antroponímia e a sua catalogação na Wikidata. O estudo de todas estas fontes está dentro dos objetivos do Observatório de Dados.

A proposta do Observatório dos Prenomes é auxiliar na análise dessa imensa base de dados, oferecendo outras análises que possam complementar as já realizadas. Os resultados são publicados como Relatórios de prenomes.

Dados brutos disponíveis

Os dados brutos, com contabilizações de frequência de nomes a cada censo, podem ser acessados em planilhas:

Amostragem de 1000 nomes mais frequentes;

Planilha CSV completa (para download), com todos os nomes (com frequência superior ou igual a 20).

repositório github.com/datasets-br/prenomes com estas e outras planilhas. ver edição coletiva aqui.

Conjuntos do nosso assunto

O Censo Demográfico 2010 contabilizou todos os domicílios do país nos primeiros meses do ano de 2010. O conjunto H de habitantes contabilizados pelo Censo pode ser definido com precisão, na tabela abaixo, conforme as convenções de núcleo semântico fixadas junto com as demais convenções do Observatório de Dados:

Conj.	Elemento típico	Definição formal
P	Pessoa (Q5) viva (Q18093573), ano de 2010	P = { ∀p ∈ InstancesOf(Pessoa) \| nascimento(p) ≤ 2010 ∧ morte(p) > 2010 }
TB	Ponto geográfico (Q2221906) do território brasileiro em 2010 (Q10278560).	TB = Brasil2010 ⊂ InstancesOf(PontoGeográfico)
H	Pessoa que residia no Brasil em 2010	$H=\{\forall h\in P~\|~pontoReside(h,2010)\in TB\}$

A afirmação popular relativa ao resultado daquele Censo, "200 milhões de habitantes",^[1] pode ser expressa como

n(H)=190.732.694=190,732694\times 10^{6}\approx 200\times 10^{6}

Cada brasileiro h do conjunto H tem um nome oficial registrado, de onde se pode extrair o respectivo prenome.

Cada um desses habitantes tem sua identificação precisa através de CPF ou RG, e portanto tem um nome oficial. Nos levantamentos realizados pelo IBGE em 2010 cada nome e respectivo ano de nascimento das pessoas do conjunto H foi registrado. Podemos imaginar uma função $prenome(p)$ aplicada aos elementos de H que retorna o prenome relativo ao nome oficial registrado. Lembrando que prenome é a parte inicial do nome oficial que antecede o nome de família.

Um nome completo, digamos José Silva, sempre pode ser desmembrado em prenome (José) e restante do nome (Silva). Se tem uma só palavra é prenome simples. A habitante Maria das Dores Chavier de Souza tem o prenome Maria das Dores, que é um exemplo típico de prenome composto.

Cada elemento h do conjunto H tem, dessa maneira, um esquema preciso para extração do prenome oficial. Suponhamos que exista, no banco de dados do IBGE, maneira de listar todos os prenomes. É esperado que, numa listagem destas, os prenomes se repitam; e queremos efetivamente preservar a informação relativa à multiplicidade de cada prenome. Devemos então representar o resultado dessa consulta de prenomes ao banco de dados, como um multiconjunto HPR. Formalizando temos:

	Elemento típico	Definição formal
conj. PR	Prenome (Q202444) qualquer existente. Prenome composto é um frasema.	PR = InstancesOf(Prenome) ⊂ InstancesOf(Frasema)
multiconj. *HPR*	Prenome da pessoa que residia no Brasil em 2010	$HPR=[~pr\in PR,~\forall h\in H~\|~pr=prenome(h)~]$

O multiconjunto HPR é o foco do Observatório dos Prenomes.
Nele pode-se analisar m(HPR,x), a multiplicidade do prenome x em HPR. Por exemplo m(HPR,Cláudia) ≈ 360 mil, e m(HPR,Cláudio) ≈ 352 mil.^[2]
Nota: em Estatística a multiplicidade é dita "frequência" (frequência de ocorrência), aqui manteremos o jargão dos multiconjuntos.

Como na prática os prenomes compostos (ex. João Bruno) podem ter partes confundidas com sobrenome (ex. Giordano Bruno), ficaria difícil realizar um algoritmo de extração automática dos prenomes — e seu resultado não seria muito confiável. Outra ambiguidade são as variantes de nome com e sem acento (ex. Débora e Debora), que podem ser erro de digitação,^[3] sendo portanto mais seguro agrupá-las.

O IBGE optou então por simplificar, extraindo apenas a primeira palavra do nome completo e removendo acentos. O multiconjunto de fato utilizado pelo IBGE, que batizaremos de HP1asc, é definido com precisão a partir de HPR e os procedimentos de simplificação:

	Elemento típico	Definição formal
conjunto W	Palavra (Q8171) existente.	W = InstancesOf(Palavra)
conjunto *Wasc*	Palavra de W originalmente sem acento ou "desacentuada", escrita só com caracteres ASCII.	$Wasc=\{w\in W,~\forall x\in W~\|~w=desacent(x)\}$
multiconjunto *HPR1*	Primeira palavra do prenome de HPR.	$HPR1=[~w\in W,~\forall p\in HPR~\|~w=primeiraPalavra(p)~]$ (somando multiplicidades repetidas)
multiconjunto *HPR1asc*	Palavra de HPR1 desacentuada.	$HPR1asc=[~w\in Wasc,~\forall x\in HPR1~\|~w=desacent(x)~]$ (somando multiplicidades repetidas)

O multiconjunto HPR1asc foi o foco do IBGE.
Nele pode-se analisar m(NPR1asc,x), a frequencia de x.

As funções são mecânicas, a função $primeiraPalavra(x)$ extrai a primeira palavra (transforma "Maria das Dores" em "Maria"), e a função $desacent(x)$ remove os acentos das letras (transliteração portuguesa das letras acentuadas para letras do ASCII), transforma por exemplo "José" em "JOSE". Convencionou-se que essa versão final será sempre apresentada em maiúsculas, para evitar confusão com prenomes originais como Pedro, que não sofrem mudança com a conversão.

O multiconjunto HPR1asc é o que teremos de fato à disposição como dado bruto para as principais análises estatísticas sobre prenomes.

Não existe função que garanta o mapeamento dos valores de multiplicidade de HPR1asc — ou seja o valor fornecido pelo IBGE de frequência de ocorrência de um prenome ASCII — de volta para para HPR.^[4] O que se pode fazer é verificar, através de outros meios (outras bases de dados confiáveis), a existência de elementos de HPR1, sem inferir sua multiplicidade. Para este fim acrescentaremos o prefixo C ao nome dos multiconjuntos, designando suas respectivas reduções a conjuntos:

CHPR=Distinct(HPR)

(hipotético)

CHPR1=Distinct(HPR1)

(passível de construção na prática)

CHPR1asc=Distinct(HPR1asc)

(disponibilizado pelo IBGE)

A seguir, como complemento à definição intensional acima, são apresentadas amostras extensivas de subconjuntos de HPR e HPW.

Amostras

Alguns exemplos de prenomes brasileiros de 2010. Foram homologados pelos curadores para dar inicio ao Obervatório, e serão utilizados em testes e ilustrações. As amostras são item obrigatório dentro do processo de definição de um núcleo semântico.

Amostras de elementos de CHPR, ou seja, prenomes simples ou compostos, com sua grafia correta (acentuada):

A_CHPR = {Ana, Ana Maria, Anna, Anita, Antônio, Antonini, Antônia, Antonieta, Carlos,

José, José Antônio, José Carlos, José Maria, Fernando, Fernando Henrique, Fábio, Fabrício,

Maria, Maria das Dores, Maria José, Marina, Mariana, Mário, Marlene, Paulo, Paulo Fernando,

Pedro, Pedro Henrique, Pedrohenrique, Pedrolina, Washington, Pedro Washington} ⊂ CHPR.

Amostras de elementos de CHPR1asc, obtidas da conversão dos mesmos nomes:

A_CHPR1asc = {ANA, ANNA, ANITA, ANTONIO, ANTONINI, ANTONIA, ANTONIETA, CARLOS,

JOSE, FERNANDO, FABIO, FABRICIO, MARIA, MARINA, MARIANA, MARIO, MARLENE,

PAULO, PEDRO, PEDROHENRIQUE, PEDROLINA, WASHINGTON} ⊂ CHPR1asc.

O processo de homologação, auditável e já realizado pelos curadores, é simples:

Confirma-se que um prenome pertence ao conjunto HPW verificando-se sua presença nos dados brutos do IBGE ou através da interface online. Por exemplo ANNA e ANTONIA existem.
Confirma-se que a variante não-acentuada é válida, caso contrário buscar formas acentuadas existentes. Por exemplo buscando no Google ou Wikidata, e confirmando pela Wikipédia. ANNA permanece sem alterações, o prenome ANTONIA é destacado como Antônia (acentuado); de onde se conclui que os elementos de NPR são Anna e Antônia.
Em caso de prenome composto, a verificação de existência pode ser realiza por outros meios, por exemplo José Carlos, Fernando Henrique, e Maria das Dores possuem representantes brasileiros na Wikipédia e estavam ainda vivos em 2010.

Subconjuntos analisados

Foram definidos mais formalmente alguns subconjuntos e sub-multiconjuntos dos definidos acima, para fins de análise e apresentação nos relatórios. Encontram-se detalhados como Prenomes/Variantes, podendo ser resumidos como se segue:

Variantes fonéticas: variações na escrita de um prenome que apresentam uma mesma pronúncia (prenomes homófonos) ou pronúncia similar.
Exemplos de homófonos: ANA e ANNA; DEBORA, DEBORAH, DHEBORA e DEBORHA; SIVIO e SYLVIO.
Foneticamente similares: DEBORA, DEDORA e BEBORA.

Variantes semânticas: são variações do prenome tidas como "similares semânticas", tendo como referência principal a propriedade said to be the same as na Wikidata.
Exemplos: PEDRO (Q15897419) e PETER; GENI (Q43996464) e JOANA.
- Variantes por gênero: em geral o canônico tem gênero bem definido. O seu "complemento por gênero", apesar de poder ser considerado uma variante semântica, é (como na Wikidata) destacado numa seção dedicada.
  Exemplos: MARIA e MARIO, PEDRO e PEDROLINA.

Variantes compostas: adotados em geral com prenomes mais populares.
Exemplos: variantes de ANA (Ana Augusta, Ana Maria); de MARIA (Maria das Graças, Maria Estela); de JOSE (José Henrique, José Antônio).

Relatórios de prenomes

Os relatórios são elaborados por colaboradores e quando finalizados são homologados pela curadoria. Na tabela abaixo os relatórios da listagem automática que se apresentam como 25% ou mais completos:

Prenome canônico	Variantes (exemplos)
Débora	Déborah, Deborha, Dedora, Deborar, ...
Camila	Camilla, Kamila, Kamyla, ...
Geni	Genni, Genny, Jeni, ...
Laura	Laurah, Laurane, ...
Mateus	Matheus, Mahteus, Mhateus, Mateuz, ...
Pedro	Pedroh, Pedrro, Pietro, ...
Regina	Regine, Reigina, Rejina, Rigina, ...
Rosângela	Rozangela, Rosanjela, Rosangila, ...

0%

25%

50%

75%

100%

Ver também

Notas e referências

↑ Por exemplo "Brasil: 200 milhões de habitantes", em ecodebate.com.br/2013/06/21.
↑ A multiplicidade de cada prenome simples pode ser consultada em https://censo2010.ibge.gov.br/nomes
↑ O erro de digitação se comprova pela taxa de ocorrência de desacentuados, ou seja, nomes tais como Cláudia, obrigatoriamente acentuados, mas ainda assim alguns registram sem acento.
↑ Eventualmente pode-se tirar vantagem de que o número de elementos de n(HPR1∩HPR1asc) é da ordem de grandeza de n(HPR1asc) e que muitos dos nomes acentuados como Cláudia não possuem variante sem acento (não se usa Claudia sem acento no Brasil).

[1] Por exemplo "Brasil: 200 milhões de habitantes", em ecodebate.com.br/2013/06/21.

[2] A multiplicidade de cada prenome simples pode ser consultada em https://censo2010.ibge.gov.br/nomes

[3] O erro de digitação se comprova pela taxa de ocorrência de desacentuados, ou seja, nomes tais como Cláudia, obrigatoriamente acentuados, mas ainda assim alguns registram sem acento.

[4] Eventualmente pode-se tirar vantagem de que o número de elementos de n(HPR1∩HPR1asc) é da ordem de grandeza de n(HPR1asc) e que muitos dos nomes acentuados como Cláudia não possuem variante sem acento (não se usa Claudia sem acento no Brasil).

[1]

[2]

[3]

[4]