domingo, diciembre 19, 2010

Frecuencia de uso de las palabras y conclusiones sociales

ACTUALIZACIÓN 10/01/2010 - Gracias  a los comentarios de polikillas, me he dado cuenta de que muchas de las cifras que he dado estaban mal. El texto ha sido corregido en consonancia y ahora espero que sean correctas.

Después de leer que Google acaba de sacar una herramienta que busca la frecuencia con que una palabra aparece en millones de libros en función del año que los libros fueron publicados, me he estado entreteniendo con algunos ejemplos y he hecho alguna comparación entre el inglés y el español. Seguro que se pueden sacar algunas conclusiones importantes y de hecho, hay un trabajo sobre el tema que será publicado en Science.

Comparemos CIENCIA Y RELIGIÓN


La palabra religión llegó a aparecer en 3 de cada 10.000 palabras en los libros ingleses coincidiendo con la época Victoriana (1832) y desde entonces se ha desplomado hasta aparecer tan solo en 8 de cada 100.000 palabras. En los libros en español, nunca ha aparecido más que la palabra ciencia, pero ha ido aumentando su frecuencia a un ritmo más o menos constante, pasando de menos de 1 por 100.000 a algo más de 4 por 100.000 en el año 2000.
Al contrario, la frecuencia con la que aparece la palabra ciencia ha ido creciendo constantemente en los libros de idioma inglés pasando de citarse 4 de cada 100.000 palabras en el año 1800 hasta algo más de 1 vez por cada 10.000 palabras en el año 2000, superando así a la palabra religión al rededor de 1930 (¿Tuvo algo que ver La Gran Crisis de 29?). En los libros de habla española la palabra ciencia ha seguido apareciendo más o menos con la misma frecuencia y salvo en la década de 1860 que se citaba 1 de cada 10.000 palabras, ha permanecido entre un 6 y un 7 de cada 100.000 palabras.

AHORA SABIDURÍA E IGNORANCIA


Sobre este tema sólo haré la siguiente reflexión: ¿Por qué hasta hace muy poco se mencionaba más de la palabra ignorancia que de la palabra sabiduría en los libros de habla hispana?
Notar también la curiosa coincidencia en la frecuencia de uso de ambas palabras que ocurre en lengua española entre los años 1800 y 1840.

SALUD, DINERO y AMOR

 Esta gráfica es también, cuanto menos, curiosa. La preponderancia de la palabra amor en los textos ingleses del siglo XIX es evidente (llegaba a utilizarse con una frecuencia de 3 de cada 10.000 palabras) en buena concordancia con el periodo romántico. La palabra dinero se caracteriza por una frecuencia de uso casi constante, mostrando tan solo un pequeño retroceso de usarse en 18 de cada 100.000 en el año 1800 a unas 13 de cada 100.000 en el año 2000. Interesante el caso de la palabra salud, la menos utilizada de las tres con diferencia (frecuencia constante en 8 de cada 100.000 palabras) hasta ¿la revolución del 68? (Declarado Año Internacional de los Derechos Humanos por la ONU). Desde entonces es evidente la importancia que ha tomado en la sociedad de habla inglesa, siendo en la actualidad la más usada de las tres palabras con una frecuencia en textos escritos de un 16 por 100.000.


También es interesante ver la evolución de estas tres palabras en los textos de lengua española. Es muy llamativo el comportamiento oscilante de la palabra amor, que alcanzó su máximo al rededor del año 1820 ( 3 de cada 10.000 palabras) y ha ido teniendo altos (década 1860, periodo 1920-1960) y bajos (1845, 1900, finales de la década de 1980) desde entonces. En el año 2000 seguía apareciendo cada 18-19 palabras de cada 100.000. La palabra dinero, como en el caso inglés, tiene un uso más o menos constante, con una frecuencia en el use de 12 de cada 100.000 palabras, pero curiosamente inferior al inglés. La palabra salud, tiene un comportamiento similar a la inglesa salvo por dos excepciones. En el año 1800 llegó a aparecer en 14 de cada 100.000 para rápidamente descender por debajo de 1 de cada 10.000 palabras (entre 1860 y 1970 es casi constante 6 de cada 100.000). La recuperación de su uso fue más tarde que en caso anglosajón. No fue hasta 1980 que se ve remontar claramente hasta llegar a valores de 15 de cada 100.000 en el año 2000.

Hay otras búsquedas y comparaciones curiosas: paz-guerra (la segunda mucho más usada que la primera, llegando en español a emplearse en 4 de cada 10.000 palabras), día-noche, Dios-Rey(ojo! que el buscador es sensible a mayúsculas/minúsculas)...
Estoy deseando ver qué publican en Science y ver qué resultados sociológicos han sacado de estos análisis que ha llevado a los autores a acuñar el nombre de una nueva área de la ciencia: Culturomics.

3 comentarios:

  1. Uso y modas, dije playstation pero quería decir paz interior.

    ResponderEliminar
  2. Un error que se repite: ¿0,0300% es igual a 3 de cada 100 palabras?

    ResponderEliminar
  3. Gracias polkillas.
    Me comí el % en todos los valores. Así que todas las repeticiones se producen 100 veces menos que las inicialmente indicadas. Ahora ya corregido, espero que no se me haya ido ningún valor.
    Gracias de nuevo.

    ResponderEliminar