awk es el demonio!
Y que lo digas... me va ha costar muchas horas controlarlo "un poco"
sort -u es vital para no perder el tiempo con palabras repetidas.
jejeje... esto ya lo había aprendido de "usted" en un hilo de otro foro.
tambien muy util tr para funciones puntuales como "trimear" los conjuntos de mas de un espacio contiguo, en solo un espacio, o para quitar dos letras repetidas juntas en general.
Esta bien saber esto. En esto caso no es lo que quería hacer pero en otra ocasión puede que me resulte muy útil. Apuntado.
El tr lo he usado para eliminar el retorno de carro de listas sacadas con windows.
Bueno, y ya que estamos, ¿que recolector de datos, crawler o araña me aconsejáis? Lo que quiero hacer es extraer el texto plano de webs y guardarlo en un txt. Que sea completico, que analice listados de webs, los hipervinculos,... y esas cosas.
Yo antes usaba uno en windows que ahora mismo no recuerdo ni como se llamaba y no era gran cosa. He estado buscando pero la mayoría se dedican a encontrar correos electrónicos y links.