Es va donar a conèixer el misteri de Zipf

Anonim

El 1935, el lingüista nord-americà George Kingsley Zipf va observar un curiós patró de freqüència de paraula. En qualsevol text, la paraula més freqüent apareix el doble que la segona més freqüent i n'hi ha encara més: la tercera freqüència de paraules més freqüent apareix un terç del temps respecte a la primera, la quarta i la quarta, etc.

La llei de Zipf no només és vàlida per a l’anglès, sinó també per a l’italià i totes les altres llengües, fins i tot aquelles tan antigues que encara no han estat desxifrades. Per molt que s’hagi confirmat l’esquema, mai ningú no ho ha pogut explicar.

llibres, idiomes, lingüística, estadístiques, freqüència de paraula, zipf, llei zipf Les paraules més freqüents a Pinotxo: la tendència segueix gairebé exactament la línia de Zipfiana. Per a més informació: Parole e frequenze, de Alessandro Lenci (PDF). | Alessandro Lenci, Universitat de Pisa

Ara, però, Sander Lestrade, lingüista de la Universitat Radboud (Països Baixos), ofereix una explicació: la llei de Zipf es pot explicar per la interacció en un text entre l’estructura de les oracions (sintaxi) i el significat de les paraules (semàntica).

Utilitzant simulacions d’ordinador, Lestrade va poder demostrar que ni la sintaxi ni la semàntica sols poden induir una distribució zipfiana, però la seva combinació té èxit.

"Com que els articles s'utilitzen abans de gairebé tots els noms, els articles individuals apareixen més sovint que els noms." Però no n'hi ha prou: "En el camp dels noms també hi ha grans diferències: la paraula" cosa ", per exemple, és molt més habitual que" submarí "i es pot utilitzar amb més freqüència. Però per ser eficaçment freqüent, la paraula no ha de ser massa general ».

Orígens italians. Per la seva llei, Zipf es va inspirar en el Principi Pareto . El 1896 l’economista italià Vilfredo Pareto es va adonar que el 80% de la terra era propietat del 20% de la població. Però, una vegada més, no s’havia acabat: observant les plantes de pèsols del seu jardí es va adonar que el 20% de les beines contenia el 80% dels pèsols.

Per raons imprevisibles, aquestes proporcions es troben arreu del món, naturals i no: el 1989, el 20% de la població tenia el 82, 7% de la riquesa; als Estats Units, el 20% dels pacients utilitzen el 80% dels recursos mèdics, etc.

Fins i tot la llei de Zipf es reflecteix en les estadístiques d’esdeveniments no relacionats amb les paraules. Des de la magnitud dels terratrèmols fins a l'obertura es mou en els escacs, des del diàmetre dels cràters de la Lluna al trànsit de llocs d'Internet: en tots aquests casos (i molts altres), l'escala de freqüències és sempre zipfiana.