jueves, junio 02, 2016

Herramientas para operar con texto


A raíz de los más de 2300 tuits generados estos días bajo el hashtag #Soyfísico y que he guardado en Google Spread Sheets con la herramienta gratuita Twitter Archiver, me he vuelto a encontrar con el problema de que no tengo la experiencia ni conozco las herramientas para trabajar con texto. Mientras que puedo hacer casi todas las operaciones y estudios matemáticos que se me puedan ocurrir con números, en el mundo del análisis de palabras soy un ignorante. Alguna incursión he tenido que hacer en el pasado para hacer algún análisis semántico en inglés con Wolfram Language o editar y extraer pequeños fragmentos de texto de ficheros de entrada/salida para alguna simulación con AWK o algún pequeño flirteo con web crawlers/scrapers para buscar información pero estoy muy lejos de ser eficaz con ninguno de ellos.



Así, hay montones de tareas con textos que se me resisten o que requieren de semanas de trabajo para que pueda llevarlas adelante.
Por ejemplo, un simple Word Cloud con las palabras más frecuentes de un texto me supone un reto. No sé cómo extraer palabras y calalogarlas según algún tesauro (por ejemplo: extraer palabras que estén relacionadas con oficios o separarlas entre masculinas o femeninas). No sé cómo extraer frases que empiecen por un carácter determinado y guardarlas en una base de datos (por ejemplo, coger los pdfs de los exámenes de PAU y hacer una base de datos en el que cada entrada sea una pregunta de examen). No sé cómo generar un fichero con preguntas aleatorias de una base de preguntas ya creada. No sé cómo crear un documento en el que vaya intercalando imáganes de una carpeta con un texto con el título de cada imagen extraído de los metadatos. No sé cómo obtener cierta información de una página web  o cómo lanzar queries en distintos buscadores de forma automática. Así un sin fin de situaciones en las que me siento indefenso antes un texto.

Me diréis que todo esto es arremangarse y programarlo en Python o otro lenguaje de programación y razón no os falta. Pero, al igual que ya no tengo que programar la transformada de Fourier para hacer el análisis de una función, tengo la esperanza de que todo esto ya esté implementado en una plataforma fácil de usar.

Así que pido ayuda a los expertos. Cada vez veo más necesario aprender a moverme entre información textual y quiero dejar de sentirme un analfabeto texto-digital.