Foro de elhacker.net

Programación => Java => Mensaje iniciado por: kinos en 18 Abril 2010, 20:21 pm



Título: html parser que extraiga enlaces de etiquetas u otra información
Publicado por: kinos en 18 Abril 2010, 20:21 pm
Hola:

Necesito un parser de html que me extraiga enlaces de las etiquetas <a href="...
debe servir también para enlaces relativos (que generé la ruta correcta en función de la pagina actual)-> ./directorio ../directorio //directorio etc...

La página de la cual habría que extraer la información digamos que ya está capturada, entonces con pasarla mediante un string u otra estructura al parser ya está.

Intenté utilizar algunas clases del proyecto nutch http://lucene.apache.org/nutch/ (http://lucene.apache.org/nutch/) pero no se cuales me podrían servir ni cómo podría utilizarlas.

También he mirado codigo de heritrix http://crawler.archive.org/ (http://crawler.archive.org/) y de otros pero nose por donde tirar. Ayudaaa  :huh:


Título: Re: html parser que extraiga enlaces de etiquetas u otra información
Publicado por: Cuantico en 23 Abril 2010, 02:32 am
Apoyate de tu siempres amigas expresiones regulares. Nunca fallan. Tienes funciones multiples, que te traen en tu arreglo, todas las sentencias que matcheen con tu regex...
bullshit usa un html parser!


Título: Re: html parser que extraiga enlaces de etiquetas u otra información
Publicado por: Chuidiang en 23 Abril 2010, 06:24 am
Hola:

Echale un ojo al método getEnlaces de la clase http://code.google.com/p/chuidiang-descargador/source/browse/trunk/src/main/java/com/chuidiang/descargador/Descargador.java

A este método le pasas el texto html en un String y te devuelve todas los href que encuentra (de etiquetas <a>, <img>, etc)

No pretende ser un ejemplo completo y totalmente probado que funcione el 100% de las veces, pero te puede servir de base para lo que necesitas.

Se bueno.


Título: Re: html parser que extraiga enlaces de etiquetas u otra información
Publicado por: kinos en 26 Abril 2010, 23:19 pm
Muchas gracias a los dos. El método getEnlaces me va ha venir de perlas  ;-) . Hice lo mismo pero como un autómata gramatical pero cada vez que quieres modificar algo ahi... te mueres

Por cierto Chuidiang tu página esta muy bien, muchas veces busco alguna cosa y me sale tu página la primera  ;D