Lei de Zipf | |
Função de massa para N = 10 em um quadro log-log. O eixo horizontal é o índice k . (A função é discreta, as linhas coloridas não indicam continuidade.) | |
Função de distribuição | |
Definições |
|
---|---|
Apoiar | |
Função de massa | |
Função de distribuição | |
Ter esperança | |
Moda | |
Entropia | |
Função geradora de momento | |
Função característica | |
A lei de Zipf é uma observação empírica sobre a frequência das palavras em um texto. Levou o nome de seu autor, George Kingsley Zipf (1902-1950). Esta lei foi formulada pela primeira vez por Jean-Baptiste Estoup e posteriormente demonstrada a partir das fórmulas de Shannon por Benoît Mandelbrot . Às vezes é usado fora deste contexto, por exemplo, sobre o tamanho e o número de cidades em cada país, quando essa lei parece responder melhor aos números do que a distribuição de Pareto .
Zipf se propôs a analisar uma obra monumental de James Joyce , Ulysses , contar as palavras distintas e apresentá-las em ordem decrescente do número de ocorrências. A lenda diz que:
Esses resultados parecem, à luz de outros estudos que se podem fazer em poucos minutos em seu computador, um pouco precisos demais para serem perfeitamente exatos - a décima palavra em um estudo desse tipo deveria aparecer cerca de 1000 vezes, devido a um efeito joelho observado neste tipo de distribuição. Resta que a lei de Zipf estabelece que, em um determinado texto, a frequência de ocorrência f ( n ) de uma palavra está ligada à sua classificação n na ordem das frequências por uma lei da forma em que K é uma constante.
Matematicamente, é impossível para a versão clássica da lei de Zipf afirmar exatamente que existe uma infinidade de palavras em uma língua, uma vez que para qualquer constante de proporcionalidade c > 0, a soma de todas as frequências relativas é proporcional à série harmônica e devemos ser
Observações citado por Léon Brillouin em seu livro Informação Ciência e Teoria sugeriu que em Inglês as frequências entre as 1000 palavras mais utilizadas foram aproximadamente proporcional com s apenas ligeiramente maior do que 1. No entanto, sabemos que o número de palavras em um idioma é limitado. O vocabulário (passivo) de uma criança de 10 anos é de cerca de 5.000 palavras, o de um adulto moderadamente cultivado 20.000, e os dicionários de vários volumes podem conter de 130.000 a 200.000 palavras.
Denote os parâmetros da lei de Zipf por N ∈ N * para o número de elementos (de palavras), k ∈ N * sua classificação e o parâmetro s > 0. A função de massa da lei de Zipf é dada por:
onde representa a N th generalizada número harmónico . Esta lei é bem definida para qualquer N inteiro finito.
A lei de Zipf, onde o parâmetro N é infinito ( lei zeta ), é definida apenas para s > 1. Na verdade, a soma dos valores da função de massa é então igual à função zeta de Riemann :
Benoit Mandelbrot demonstrou na década de 1950 que uma classe de leis incluindo o Zipf é um caso especial que poderia ser deduzido de duas considerações relacionadas à teoria da informação de Claude Shannon .
De acordo com a lei estática, o custo de representar informações aumenta conforme o logaritmo do número de informações a serem consideradas.
Por exemplo, 5 bits são necessários para representar inteiros de 0 a 31, mas 16 para inteiros de 0 a 65.535. Da mesma forma, 17.576 acrônimos de 3 letras podem ser formados, mas 456.976 acrônimos de 4 letras e assim por diante.
A lei dinâmica indica como maximizar a utilidade de um canal, maximizando a entropia , usando principalmente os símbolos mais baratos para transmitir. Assim, em código Morse, o e , letra frequente, é codificado por um único ponto ( . ) Enquanto o x , uma letra mais rara, é representado por uma linha ponto ponto ponto ( -..- ). A codificação de Huffman implementa essa lei dinâmica.
Mandelbrot ousadamente levanta a hipótese de que o custo de uso é diretamente proporcional ao custo de armazenamento, que ele considera ser verdadeiro em todos os dispositivos que viu, desde a entrada de diário até os computadores.
Portanto, elimina o custo entre as duas equações e termina com uma família de equações que necessariamente liga a frequência de uma palavra à sua classificação, se o canal for usado de forma otimizada. É a lei de Mandelbrot, da qual a de Zipf representa apenas um caso particular, e que é dada pela lei:
, onde K é uma constantea lei sendo reduzida à de Zipf no caso particular em que a seria igual a 0, b e c ambos 1, um caso que não é encontrado na prática. Na maioria das línguas existentes, c é cerca de 1,1 ou 1,2, e perto de 1,6 na língua infantil.
As leis de Zipf e Mandelbrot assumem um aspecto espetacular se as representarmos de acordo com um sistema de coordenadas log-log: a lei de Zipf então corresponde a uma linha bonita, e a de Mandelbrot à mesma coisa com uma curva característica. Essa cotovelada é encontrada justamente nos textos literários disponíveis na web , que podem ser analisados em poucos minutos em um computador pessoal . A curva fornecida aqui representa o logaritmo decimal do número de ocorrências de termos em um fórum da Internet plotado como uma função do logaritmo decimal da classificação dessas palavras.
A relação entre as leis de Zipf e Mandelbrot, por um lado, e entre as leis de Mariotte e van der Waals, por outro lado é semelhante: nos primeiros casos, temos uma lei do tipo hiperbólica, no segundo uma ligeira correção explicando a lacuna entre o que era esperado e o que se observa, e propondo uma justificativa. Em ambos os casos, um elemento de correção é a introdução de uma constante manifestando algo "incompressível" (em Mandelbrot, o termo " a " da lei).
Podemos notar também uma semelhança com a lei de Benford que se relaciona com o primeiro dígito de cada número de um conjunto de dados estatísticos, e que também é demonstrada, desta vez por considerações de invariância de acordo com o sistema de unidades usado.
A distribuição de velocidades em um gás também atende a um requisito de invariância por rotação de coordenadas. Este campo de leis estáveis foi amplamente estudado pelo matemático Paul Lévy , que Mandelbrot teve precisamente na Polytechnique como professor.
É tentador acreditar que as informações em ordem decrescente seguem a lei de Zipf, mas nem sempre. Tome por exemplo 100 inteiros aleatórios entre 1 e 10 de acordo com uma lei uniforme discreta , que agrupamos e classificamos o número de ocorrências de cada um, obtemos a curva oposta.
Se estivermos contando apenas com a primeira impressão visual, esta curva aparece “Zipfian”, ao passo que é um modelo que gerou a série de dados. Mas não é possível fazer convenientemente um Khi 2 da lei de Zipf, separação de valores de um obstáculo ao uso de um modelo de probabilidade clássico (na verdade, a distribuição das ocorrências não é a de probabilidade de ocorrências; isso pode levar a muita reversão na classificação).
A família de distribuições Mandelbrot é certamente demonstrada formalmente adequada para uma linguagem humana sob suas suposições iniciais sobre o custo de armazenamento e o custo de uso, as quais decorrem da teoria da informação. Por outro lado, não está provado que usar a lei de Zipf como modelo de distribuição das populações das aglomerações de um país seja relevante - embora também não se prove o contrário.
Em qualquer caso, também não devemos nos surpreender que uma lei que prevê uma diminuição seja verificada em dados que nós mesmos classificamos previamente em ordem decrescente.
Além disso, a estimativa dos parâmetros de Mandelbrot a partir de uma série de dados também representa um problema e ainda é objeto de debate em 1989. Não poderia haver dúvida, por exemplo, de usar um método de mínimos quadrados em uma curva log-log, além disso, o peso dos respectivos pontos está longe de ser comparável. Aparentemente, Mandelbrot não voltou a se comunicar sobre o assunto depois do final dos anos 1960.
Na distribuição de um texto, como a de uma tradução francesa do Alcorão (164.869 unidades lexicais, 1.477 formas flexionadas distintas), o "cotovelo" da distribuição de Mandelbrot aparece francamente (ver ao lado), e as respectivas inclinações de duas linhas os segmentos podem ser estimados visualmente. Textos desse tipo podem, portanto, ser comparados pelos únicos termos a e c das distribuições ( b sendo deduzido disso).