elhacker.net cabecera Bienvenido(a), Visitante. Por favor Ingresar o Registrarse
¿Perdiste tu email de activación?.

 

 


Tema destacado: Usando Git para manipular el directorio de trabajo, el índice y commits (segunda parte)


+  Foro de elhacker.net
|-+  Programación
| |-+  Programación General
| | |-+  Java
| | | |-+  html parser que extraiga enlaces de etiquetas u otra información
0 Usuarios y 1 Visitante están viendo este tema.
Páginas: [1] Ir Abajo Respuesta Imprimir
Autor Tema: html parser que extraiga enlaces de etiquetas u otra información  (Leído 5,069 veces)
kinos

Desconectado Desconectado

Mensajes: 104



Ver Perfil
html parser que extraiga enlaces de etiquetas u otra información
« en: 18 Abril 2010, 20:21 pm »

Hola:

Necesito un parser de html que me extraiga enlaces de las etiquetas <a href="...
debe servir también para enlaces relativos (que generé la ruta correcta en función de la pagina actual)-> ./directorio ../directorio //directorio etc...

La página de la cual habría que extraer la información digamos que ya está capturada, entonces con pasarla mediante un string u otra estructura al parser ya está.

Intenté utilizar algunas clases del proyecto nutch http://lucene.apache.org/nutch/ pero no se cuales me podrían servir ni cómo podría utilizarlas.

También he mirado codigo de heritrix http://crawler.archive.org/ y de otros pero nose por donde tirar. Ayudaaa  :huh:


En línea

Cuantico
qantic.net
Colaborador
***
Desconectado Desconectado

Mensajes: 1.830


no paiN? no gAIn! !.


Ver Perfil WWW
Re: html parser que extraiga enlaces de etiquetas u otra información
« Respuesta #1 en: 23 Abril 2010, 02:32 am »

Apoyate de tu siempres amigas expresiones regulares. Nunca fallan. Tienes funciones multiples, que te traen en tu arreglo, todas las sentencias que matcheen con tu regex...
bullshit usa un html parser!


« Última modificación: 5 Febrero 2019, 16:19 pm por Cuantico » En línea

:)
Chuidiang

Desconectado Desconectado

Mensajes: 161



Ver Perfil WWW
Re: html parser que extraiga enlaces de etiquetas u otra información
« Respuesta #2 en: 23 Abril 2010, 06:24 am »

Hola:

Echale un ojo al método getEnlaces de la clase http://code.google.com/p/chuidiang-descargador/source/browse/trunk/src/main/java/com/chuidiang/descargador/Descargador.java

A este método le pasas el texto html en un String y te devuelve todas los href que encuentra (de etiquetas <a>, <img>, etc)

No pretende ser un ejemplo completo y totalmente probado que funcione el 100% de las veces, pero te puede servir de base para lo que necesitas.

Se bueno.
« Última modificación: 23 Abril 2010, 06:26 am por Chuidiang » En línea

kinos

Desconectado Desconectado

Mensajes: 104



Ver Perfil
Re: html parser que extraiga enlaces de etiquetas u otra información
« Respuesta #3 en: 26 Abril 2010, 23:19 pm »

Muchas gracias a los dos. El método getEnlaces me va ha venir de perlas  ;-) . Hice lo mismo pero como un autómata gramatical pero cada vez que quieres modificar algo ahi... te mueres

Por cierto Chuidiang tu página esta muy bien, muchas veces busco alguna cosa y me sale tu página la primera  ;D
En línea

Páginas: [1] Ir Arriba Respuesta Imprimir 

Ir a:  

Mensajes similares
Asunto Iniciado por Respuestas Vistas Último mensaje
HTML Parser [SRC]
Programación Visual Basic
cobein 1 2,526 Último mensaje 6 Diciembre 2009, 22:54 pm
por BlackZeroX
Parsear HTML con PHP – Simple HTML DOM Parser
PHP
madpitbull_99 3 15,151 Último mensaje 1 Abril 2014, 09:54 am
por BlackM4ster
Duda básica en enlaces HTML
Desarrollo Web
Kefren 2 2,234 Último mensaje 25 Marzo 2012, 16:46 pm
por Kefren
bbcode, etiquetas html
Desarrollo Web
Pirat3net 1 1,654 Último mensaje 18 Marzo 2013, 11:39 am
por #!drvy
[ayuda]como arreglar estas etiquetas div una al lado de otra
Desarrollo Web
adamsst 1 2,020 Último mensaje 18 Julio 2013, 08:35 am
por engel lex
WAP2 - Aviso Legal - Powered by SMF 1.1.21 | SMF © 2006-2008, Simple Machines