Llei de Zipf-Mandelbrot
Tipus | llei potencial |
---|---|
Epònim | George Kingsley Zipf, Benoît Mandelbrot i Vilfredo Pareto |
Paràmetres | (enter) (real) (real) |
Suport | |
fpm | |
FD | |
Esperança matemàtica | |
Moda | |
Entropia |
En teoria de probabilitat i estadística, la llei de Zipf-Mandelbrot és una distribució de probabilitat discreta. També coneguda com la llei de Pareto-Zipf, és una distribució de llei potencial a les dades classificades, anomenada així pel lingüista George Kingsley Zipf qui va suggerir una distribució més senzilla anomenada llei de Zipf i el matemàtic Benoit Mandelbrot, que posteriorment la va generalitzar.
La funció de massa de probabilitat ve donada per:
on és donat per:
que es pot considerar com una generalització d'un nombre harmònic. A la fórmula, és el rang de les dades i són paràmetres de la distribució. En el límit de quan s'acosta a l'infinit, es converteix en la funció zeta de Hurwitz . Per a finit i la llei de Zipf-Mandelbrot es converteix en la llei de Zipf. Per a infinit i es converteix en la distribució Zeta.
Aplicacions
[modifica]La distribució de paraules classificades per la seva freqüència en un corpus lingüístic aleatori s'aproxima per una distribució de llei potencial, coneguda com a llei de Zipf.
Si es dibuixa el rang de freqüència de les paraules contingudes en un corpus de dades de text de mida moderada vers el nombre d'ocurrències o freqüències reals, s'obté una distribució de llei potencial, amb exponent proper a 1 (però vegeu Powers, 1998 i Gelbukh i Sidorov, 2001). La llei de Zipf assumeix implícitament una mida de vocabulari fixa, però la sèrie harmònica amb s=1 no convergeix, mentre que la generalització de la llei Zipf-Mandelbrot amb s>1 ho fa. A més, hi ha proves que la classe tancada de paraules funcionals que defineixen un idioma obeeix a una distribució Zipf-Mandelbrot amb diferents paràmetres de les classes obertes de paraules amb contingut que varien per tema, camp i registre.[1]
En estudis del camp ecològic, la distribució d'abundància relativa (és a dir, el gràfic del nombre d'espècies observades en funció de la seva abundància) es troba sovint conforme a la llei de Zipf-Mandelbrot.[2]
Dins de la música, moltes mètriques de la música «agradable» s'ajusten a les distribucions Zipf-Mandelbrot.
Referències
[modifica]- ↑ Powers, David M W «Applications and explanations of Zipf's law» (en anglès). Association for Computational Linguistics, 1998, pàg. 151–160.
- ↑ Mouillot, D; Lepretre, A «Introduction of relative abundance distribution (RAD) indices, estimated from the rank-frequency diagrams (RFD), to assess changes in community diversity» (en anglès). Environmental Monitoring and Assessment. Springer, 63(2), 2000, pàg. 279–295. DOI: 10.1023/A:1006297211561.
Bibliografia
[modifica]- Mandelbrot, Benoît. «Information Theory and Psycholinguistics». A: Language (en anglès). R.C. Oldfield and J.C. Marchall, 1968.
- Powers, David M W «Applications and explanations of Zipf's law» (en anglès). Association for Computational Linguistics, 1998, pàg. 151–160.
- Zipf, George Kingsley. Selected Studies of the Principle of Relative Frequency in Language (en anglès). Cambridge, MA: Harvard University Press, 1932.
- Van Droogenbroeck, F.J. «An essential rephrasing of the Zipf-Mandelbrot law to solve authorship attribution applications by Gaussian statistics» (en anglès). Academia, 2019.