Lei de Zipf

Lei de Zipf

Função de massa para N = 10 em um quadro log-log. O eixo horizontal é o índice k . (A função é discreta, as linhas coloridas não indicam continuidade.)
Função de distribuição

Definições	$s> 0 \,$ $N \ in \ {1,2,3 \ ldots \}$
Apoiar	$k \ in \ {1,2, \ ldots, N \}$
Função de massa	${\ frac {1} {H _ {{N, s}}}} {\ frac {1} {k ^ {s}}}$
Função de distribuição	${\ frac {H _ {{k, s}}} {H _ {{N, s}}}}$
Ter esperança	${\ frac {H _ {{N, s-1}}} {H _ {{N, s}}}}$
Moda	$1 \,$
Entropia	${\ frac {s} {H _ {{N, s}}}} \ sum _ {{k = 1}} ^ {N} {\ frac {\ ln (k)} {k ^ {s}}} + \ ln (H _ {{N, s}})$
Função geradora de momento	${\ frac {1} {H _ {{N, s}}}} \ sum _ {{n = 1}} ^ {N} {\ frac {e ^ {{nt}}} {n ^ {s} }}$
Função característica	${\ frac {1} {H _ {{N, s}}}} \ sum _ {{n = 1}} ^ {N} {\ frac {e ^ {{int}}} {n ^ {s} }}$

A lei de Zipf é uma observação empírica sobre a frequência das palavras em um texto. Levou o nome de seu autor, George Kingsley Zipf (1902-1950). Esta lei foi formulada pela primeira vez por Jean-Baptiste Estoup e posteriormente demonstrada a partir das fórmulas de Shannon por Benoît Mandelbrot . Às vezes é usado fora deste contexto, por exemplo, sobre o tamanho e o número de cidades em cada país, quando essa lei parece responder melhor aos números do que a distribuição de Pareto .

Gênese

Zipf se propôs a analisar uma obra monumental de James Joyce , Ulysses , contar as palavras distintas e apresentá-las em ordem decrescente do número de ocorrências. A lenda diz que:

a palavra mais comum apareceu 8.000 vezes;
a décima palavra 800 vezes;
o centésimo, 80 vezes;
e o milésimo, 8 vezes.

Esses resultados parecem, à luz de outros estudos que se podem fazer em poucos minutos em seu computador, um pouco precisos demais para serem perfeitamente exatos - a décima palavra em um estudo desse tipo deveria aparecer cerca de 1000 vezes, devido a um efeito joelho observado neste tipo de distribuição. Resta que a lei de Zipf estabelece que, em um determinado texto, a frequência de ocorrência f ( n ) de uma palavra está ligada à sua classificação n na ordem das frequências por uma lei da forma em que K é uma constante. $f (n) = {\ frac {K} {n}}$

Ponto de vista teórico

Matematicamente, é impossível para a versão clássica da lei de Zipf afirmar exatamente que existe uma infinidade de palavras em uma língua, uma vez que para qualquer constante de proporcionalidade c > 0, a soma de todas as frequências relativas é proporcional à série harmônica e devemos ser

\ sum_ {n = 1} ^ {+ \ infty} \ frac {c} {n} = + \ infty \ neq 1.

Observações citado por Léon Brillouin em seu livro Informação Ciência e Teoria sugeriu que em Inglês as frequências entre as 1000 palavras mais utilizadas foram aproximadamente proporcional com s apenas ligeiramente maior do que 1. No entanto, sabemos que o número de palavras em um idioma é limitado. O vocabulário (passivo) de uma criança de 10 anos é de cerca de 5.000 palavras, o de um adulto moderadamente cultivado 20.000, e os dicionários de vários volumes podem conter de 130.000 a 200.000 palavras. ${\ frac {1} {n ^ {s}}} \,$

Definição matemática

Denote os parâmetros da lei de Zipf por N ∈ N * para o número de elementos (de palavras), k ∈ N * sua classificação e o parâmetro s > 0. A função de massa da lei de Zipf é dada por:

f \ colon k \ mapsto \ frac {1} {H_ {N, s}} \ frac {1} {k ^ s},

onde representa a N th generalizada número harmónico . Esta lei é bem definida para qualquer N inteiro finito. $H _ {{N, s}} = \ sum _ {{n = 1}} ^ {N} {\ frac {1} {n ^ {s}}}$

A lei de Zipf, onde o parâmetro N é infinito ( lei zeta ), é definida apenas para s > 1. Na verdade, a soma dos valores da função de massa é então igual à função zeta de Riemann :

\ sum_ {n = 1} ^ {+ \ infty} \ frac {1} {n ^ s} = \ zeta (s) <+ \ infty \ Longleftrightarrow s> 1.

Um caso particular de uma lei geral

Benoit Mandelbrot demonstrou na década de 1950 que uma classe de leis incluindo o Zipf é um caso especial que poderia ser deduzido de duas considerações relacionadas à teoria da informação de Claude Shannon .

Lei Estática de Shannon

De acordo com a lei estática, o custo de representar informações aumenta conforme o logaritmo do número de informações a serem consideradas.

Por exemplo, 5 bits são necessários para representar inteiros de 0 a 31, mas 16 para inteiros de 0 a 65.535. Da mesma forma, 17.576 acrônimos de 3 letras podem ser formados, mas 456.976 acrônimos de 4 letras e assim por diante.

Lei dinâmica de Shannon

A lei dinâmica indica como maximizar a utilidade de um canal, maximizando a entropia , usando principalmente os símbolos mais baratos para transmitir. Assim, em código Morse, o e , letra frequente, é codificado por um único ponto ( . ) Enquanto o x , uma letra mais rara, é representado por uma linha ponto ponto ponto ( -..- ). A codificação de Huffman implementa essa lei dinâmica.

A síntese de Mandelbrot

Mandelbrot ousadamente levanta a hipótese de que o custo de uso é diretamente proporcional ao custo de armazenamento, que ele considera ser verdadeiro em todos os dispositivos que viu, desde a entrada de diário até os computadores.

Portanto, elimina o custo entre as duas equações e termina com uma família de equações que necessariamente liga a frequência de uma palavra à sua classificação, se o canal for usado de forma otimizada. É a lei de Mandelbrot, da qual a de Zipf representa apenas um caso particular, e que é dada pela lei:

{\ displaystyle f (n) \ times (a + bn) ^ {c} = K}

, onde K é uma constante

a lei sendo reduzida à de Zipf no caso particular em que a seria igual a 0, b e c ambos 1, um caso que não é encontrado na prática. Na maioria das línguas existentes, c é cerca de 1,1 ou 1,2, e perto de 1,6 na língua infantil.

As leis de Zipf e Mandelbrot assumem um aspecto espetacular se as representarmos de acordo com um sistema de coordenadas log-log: a lei de Zipf então corresponde a uma linha bonita, e a de Mandelbrot à mesma coisa com uma curva característica. Essa cotovelada é encontrada justamente nos textos literários disponíveis na web , que podem ser analisados em poucos minutos em um computador pessoal . A curva fornecida aqui representa o logaritmo decimal do número de ocorrências de termos em um fórum da Internet plotado como uma função do logaritmo decimal da classificação dessas palavras.

Notamos que a palavra mais frequente aparece lá pouco mais de 100.000 vezes (10 5 ).
O tamanho do vocabulário realmente utilizado (seria mais correto falar do tamanho do conjunto de formas flexionadas) é da ordem de 60.000 (10 4,7 ).
O aspecto linear de Zipf aparece claramente lá, embora a curva característica explicada por Mandelbrot seja apenas pequena. A inclinação não é exatamente -1 como a lei de Zipf exigiria.
A interseção projetada dessa curva com o eixo x forneceria, a partir de um texto de tamanho limitado (algumas páginas A4 digitadas), uma estimativa da extensão do vocabulário de um escritor.

Semelhanças

A relação entre as leis de Zipf e Mandelbrot, por um lado, e entre as leis de Mariotte e van der Waals, por outro lado é semelhante: nos primeiros casos, temos uma lei do tipo hiperbólica, no segundo uma ligeira correção explicando a lacuna entre o que era esperado e o que se observa, e propondo uma justificativa. Em ambos os casos, um elemento de correção é a introdução de uma constante manifestando algo "incompressível" (em Mandelbrot, o termo " a " da lei).

Podemos notar também uma semelhança com a lei de Benford que se relaciona com o primeiro dígito de cada número de um conjunto de dados estatísticos, e que também é demonstrada, desta vez por considerações de invariância de acordo com o sistema de unidades usado.

A distribuição de velocidades em um gás também atende a um requisito de invariância por rotação de coordenadas. Este campo de leis estáveis foi amplamente estudado pelo matemático Paul Lévy , que Mandelbrot teve precisamente na Polytechnique como professor.

Uma lei a ser usada com cautela

É tentador acreditar que as informações em ordem decrescente seguem a lei de Zipf, mas nem sempre. Tome por exemplo 100 inteiros aleatórios entre 1 e 10 de acordo com uma lei uniforme discreta , que agrupamos e classificamos o número de ocorrências de cada um, obtemos a curva oposta.

Se estivermos contando apenas com a primeira impressão visual, esta curva aparece “Zipfian”, ao passo que é um modelo que gerou a série de dados. Mas não é possível fazer convenientemente um Khi 2 da lei de Zipf, separação de valores de um obstáculo ao uso de um modelo de probabilidade clássico (na verdade, a distribuição das ocorrências não é a de probabilidade de ocorrências; isso pode levar a muita reversão na classificação).

A família de distribuições Mandelbrot é certamente demonstrada formalmente adequada para uma linguagem humana sob suas suposições iniciais sobre o custo de armazenamento e o custo de uso, as quais decorrem da teoria da informação. Por outro lado, não está provado que usar a lei de Zipf como modelo de distribuição das populações das aglomerações de um país seja relevante - embora também não se prove o contrário.

Em qualquer caso, também não devemos nos surpreender que uma lei que prevê uma diminuição seja verificada em dados que nós mesmos classificamos previamente em ordem decrescente.

Além disso, a estimativa dos parâmetros de Mandelbrot a partir de uma série de dados também representa um problema e ainda é objeto de debate em 1989. Não poderia haver dúvida, por exemplo, de usar um método de mínimos quadrados em uma curva log-log, além disso, o peso dos respectivos pontos está longe de ser comparável. Aparentemente, Mandelbrot não voltou a se comunicar sobre o assunto depois do final dos anos 1960.

Na distribuição de um texto, como a de uma tradução francesa do Alcorão (164.869 unidades lexicais, 1.477 formas flexionadas distintas), o "cotovelo" da distribuição de Mandelbrot aparece francamente (ver ao lado), e as respectivas inclinações de duas linhas os segmentos podem ser estimados visualmente. Textos desse tipo podem, portanto, ser comparados pelos únicos termos a e c das distribuições ( b sendo deduzido disso).

Notas e referências

Notas

Dois detalhes são apontados pelo físico Léon Brillouin em sua obra Ciência e teoria da informação :
- já fazemos subjetivamente a mesma avaliação lendo algumas páginas de um escritor que não conhecemos, e é isso que nos permite, ao folhear uma obra, estimar se a extensão de seu vocabulário está em conformidade com o nosso;
- a repetição de palavras que querem ser aprendidas de forma extemporânea ou hierática não criará ilusão, pois é a própria repetição que constitui o índice de pobreza do vocabulário e não as palavras utilizadas, quaisquer que sejam.
Uma espécie de N palavras corresponde à escolha de uma permutação entre N! ( fatorial N), que corresponde a log 2 (N!) bits, quantidade de informação adicionada pela escolha arbitrária desta permutação em vez de outra. (N!) É facilmente estimado pela fórmula de Stirling .
Que significado pode ser atribuído ao quadrado de um logaritmo?

Referências

Micheline Petruszewycz , " A história da lei de Estoup-Zipf: documentos " [ arquivo de5 de junho de 2011] [PDF] ,1973(acessado em 20 de junho de 2013 ) ,p. 41-56.
Benoît Mandelbrot , Lógica, teoria da linguagem e da informação , Paris, Presses Universitaires de France ,1957( leia online [PDF] ) , “Estudo da lei de Estoup e Zipf: frequências das palavras na fala”, p. 22-53.
"Quão extenso é o nosso vocabulário?" » , C2P (carnets2psycho), agosto de 2014.
"Algumas palavras sobre as palavras de uma língua" [PDF] , EOLE (Educação e abertura às línguas na escola), 2003.
Léon Brillouin, Ciência e a teoria da informação , 1959, republicado em 1988, tradução Inglês republicado em 2004
Marc Barbut , “ Nota sobre o ajuste das distribuições Zipf-Mandelbrot nas estatísticas textuais ”, Histoire & Mesure , vol. 4, n osso 1-2,1989, p. 107-119 ( DOI 10.3406 / hism.1989.879 , leia online ).

Apêndices

Bibliografia

(pt) H. Guiter e MV Arapov, Studies on Zipf's Law , Bochum, Brockmeyer,1982( ISBN 3-88339-244-8 )