miércoles, 17 de junio de 2009

Aprenda castellano en una tarde

En los años setenta un equipo de lexicógrafos mexicanos recopiló textos escritos y orales pertenecientes a diversos registros representativos del español de México de la época. En total sumaron dos millones de ocurrencias de palabras. Los ingresaron pacientemente en una gran computadora y como resultado obtuvieron interesantes datos de estadística lexical. Supongo que fue uno de los primeros trabajos de ese tipo en nuestro idioma. Yo poseo casi desde aquel entonces un ejemplar del libro que publicaron*. Siempre me pareció un proyecto fascinante y faraónico (¡Pensar que hoy, con los textos online y el software que corre en nuestras laptops podemos replicar el experimento en unas horas!).

Entre los resultados más sorprendentes que arrojó ese estudio (los estudios similares llevados a cabo posteriormente llegan a conclusiones muy parecidas), citaré éste: las 74 palabras más frecuentes constituyen el 50% de todo lo que decimos y escribimos.

Es decir que si alguien necesita un curso acelerado de español, con estudiar tan sólo 74 palabras estará en condiciones de entender la mitad de todo lo que escuchará o leerá en nuestro idioma (es de suponer que otros idiomas pasa algo similar).

Tal vez igualmente sorprendente es que de ese 50 %, la mitad (el 25% del corpus original) consiste en la repetición de las mismas ¡nueve palabras!

¡Queridos amigos hurgapalabras! ¡Detengámonos un momento a pensar en lo que esto significa! Del aluvión de palabras que la humanidad proferiere y escribe, de los miles y millones de textos que aparecen en internet, que se emiten en radio y televisión, que quedan archivados en libros y cintas magnéticas, o que se supiran al oído en una noche estrellada, un cuarto consiste en la repetición de tan sólo nueve palabras.

Dejo a cargo de ustedes las reflexiones del caso. Me limitaré a transcribir la lista de las cien palabras estrellas de nuestro idioma.

Las primeras nueve palabras (25 % del corpus)

la
el
de
y
que
en
a
se
no


Las cien primeras:

la
el
de
y
que
en
a
se
no
ser
un
por
con
su
una
haber
para
al
estar
como
tener
le
hacer
ya
o
pero
decir
que
lo
me
más
poder
este
ir
lo

ver
dar
cuando
muy
yo
porque
el
mi
pues
la
así
ésta
todo
también
vez
nos
año
saber
sin
hasta
querer
deber
todo
aquí
uno
día
eso
qué
ella
sobre
bien
llegar
mas
donde
entre
ni
otra
entonces
esa
llevar
poner
parte
te
tiempo
dos
después
dejar
desde
hombre
ese
cada
venir
quedar
ahora
esto
pasar
nada
siempre
vida
casa
sólo
tomar
forma
trabajo

Para llegar al 75% del corpus debemos incluir 1130 palabras. Y el 100% contiene unas 63.000.

* Lara, Luis Fernando, et al. Investigaciones lingüísticas en lexicografía, México D.F., El Colegio de México, 1979

3 comentarios:

  1. Esto es un caso particular de la llamda "Ley de Zipf", según un lingüista estadounidense que la enunció basandose en la teoría del mínimo esfuerzo. La ley dice que con respecto a la palabra más frecuente, la segunda palabra más frecuente aparece la mitad de veces; la tercera un tercio; etc. O sea, si "la" aparece x veces, "el" aparece x/2 veces, "de" x/3 veces, etc.
    Si bien recuerdo, la explicación es basicamente la adaptación de una idea de la teoría de la información a la evolución: poder decir la mayor cantidad de cosas con el mínimo de información (menos esfuerzo).

    ResponderEliminar
  2. Sin ser lingüista (apenas intento ser aficionado), creo que en otros lenguajes NO pasará lo mismo. O tal vez, en algunos sí pero en otros no.
    Y eso es porque el concepto de "palabra" como conjunto de letras entre dos espacios es muy poco representativo de las características de un lenguaje.
    A ver si me explico: en un texto en castellano encontramos "máquina de escribir". Muy bien, tres palabras: agregamos una más a la cuenta de "de", una de las más repetidas.
    Pero en el mismo texto en inglés, aparecería "typewriter". Una sola palabra, que sólo volverá a aparecer cuando se describa una máquina de escribir o se hable de alguien que usa una máquina de escribir.
    Pero en el mismo texto en alemán, ruso o latin, con sus declinaciones, la palabra que designa a la máquina de escribir será distinta según en qué parte de la oración aparezca.
    Y ni que hablar del finlandés, que aglutina sustantivos con preposiciones, pronombres y lo que se tercie. Ahí sí que debe ser difícil encontrar repeticiones.

    ResponderEliminar
  3. Sin contar, Epaminondas, que el castellano abunda en artículos (lo más repetido) cosa que no sucede en otros idiomas.
    Me ha tocado ver gente tratando de adaptarse al castellano poniendo el/la en cualquier sitio; pensando que lo que abunda no daña. Supongo.
    Sin embargo, lo que dice Bungo es coherente con el hecho de que los chicos tienen un vocabulario muy escaso y por lo general les alcanza.
    Al ir creciendo/leyendo van incorporando más palabras, cosa que enriquece su manera de estar en el mundo, pero ya adultos, para el habla cotidiana no necesitan más que su vocabulario infatil (infantil escolarizado, claro) y el específico del trabajo que desempeñen.

    Saludos
    Gaeren

    ResponderEliminar