html parser que extraiga enlaces de etiquetas u otra información

Foro de elhacker.net

Programación

Programación General

Java

html parser que extraiga enlaces de etiquetas u otra información

0 Usuarios y 1 Visitante están viendo este tema.

Páginas: [1]

Autor

Tema: html parser que extraiga enlaces de etiquetas u otra información (Leído 5,068 veces)

kinos

Desconectado

Mensajes: 104

html parser que extraiga enlaces de etiquetas u otra información

« en: 18 Abril 2010, 20:21 pm »

Hola:

Necesito un parser de html que me extraiga enlaces de las etiquetas <a href="...
debe servir también para enlaces relativos (que generé la ruta correcta en función de la pagina actual)-> ./directorio ../directorio //directorio etc...

La página de la cual habría que extraer la información digamos que ya está capturada, entonces con pasarla mediante un string u otra estructura al parser ya está.

Intenté utilizar algunas clases del proyecto nutch http://lucene.apache.org/nutch/ pero no se cuales me podrían servir ni cómo podría utilizarlas.

También he mirado codigo de heritrix http://crawler.archive.org/ y de otros pero nose por donde tirar. Ayudaaa :huh:


	En línea

Cuantico

qantic.net
Colaborador

Desconectado

Mensajes: 1.830

no paiN? no gAIn! !.

Re: html parser que extraiga enlaces de etiquetas u otra información

« Respuesta #1 en: 23 Abril 2010, 02:32 am »

~~Apoyate de tu siempres amigas expresiones regulares. Nunca fallan. Tienes funciones multiples, que te traen en tu arreglo, todas las sentencias que matcheen con tu regex...~~
bullshit usa un html parser!


« Última modificación: 5 Febrero 2019, 16:19 pm por Cuantico »	En línea

Chuidiang

Desconectado

Mensajes: 161

Re: html parser que extraiga enlaces de etiquetas u otra información

« Respuesta #2 en: 23 Abril 2010, 06:24 am »

Hola:

Echale un ojo al método getEnlaces de la clase http://code.google.com/p/chuidiang-descargador/source/browse/trunk/src/main/java/com/chuidiang/descargador/Descargador.java

A este método le pasas el texto html en un String y te devuelve todas los href que encuentra (de etiquetas <a>, <img>, etc)

No pretende ser un ejemplo completo y totalmente probado que funcione el 100% de las veces, pero te puede servir de base para lo que necesitas.

Se bueno.


« Última modificación: 23 Abril 2010, 06:26 am por Chuidiang »	En línea

Wiki de Programación Java, C++, Groovy, Python, ...

kinos

Desconectado

Mensajes: 104

Re: html parser que extraiga enlaces de etiquetas u otra información

« Respuesta #3 en: 26 Abril 2010, 23:19 pm »

Muchas gracias a los dos. El método getEnlaces me va ha venir de perlas ;-)

. Hice lo mismo pero como un autómata gramatical pero cada vez que quieres modificar algo ahi... te mueres

Por cierto Chuidiang tu página esta muy bien, muchas veces busco alguna cosa y me sale tu página la primera


	En línea

Páginas: [1]

Ir a:

Mensajes similares
	Asunto	Iniciado por	Respuestas	Vistas	Último mensaje
	HTML Parser [SRC] Programación Visual Basic	cobein	1	2,526	6 Diciembre 2009, 22:54 pm por BlackZeroX
	Parsear HTML con PHP – Simple HTML DOM Parser PHP	madpitbull_99	3	15,150	1 Abril 2014, 09:54 am por BlackM4ster
	Duda básica en enlaces HTML Desarrollo Web	Kefren	2	2,234	25 Marzo 2012, 16:46 pm por Kefren
	bbcode, etiquetas html Desarrollo Web	Pirat3net	1	1,654	18 Marzo 2013, 11:39 am por #!drvy
	[ayuda]como arreglar estas etiquetas div una al lado de otra Desarrollo Web	adamsst	1	2,020	18 Julio 2013, 08:35 am por engel lex