Hola:
Necesito un parser de html que me extraiga enlaces de las etiquetas <a href="...
debe servir también para enlaces relativos (que generé la ruta correcta en función de la pagina actual)-> ./directorio ../directorio //directorio etc...
La página de la cual habría que extraer la información digamos que ya está capturada, entonces con pasarla mediante un string u otra estructura al parser ya está.
Intenté utilizar algunas clases del proyecto nutch http://lucene.apache.org/nutch/ pero no se cuales me podrían servir ni cómo podría utilizarlas.
También he mirado codigo de heritrix http://crawler.archive.org/ y de otros pero nose por donde tirar. Ayudaaa