elhacker.net cabecera Bienvenido(a), Visitante. Por favor Ingresar o Registrarse
¿Perdiste tu email de activación?.

 

 


Tema destacado: Recuerda que debes registrarte en el foro para poder participar (preguntar y responder)


+  Foro de elhacker.net
|-+  Programación
| |-+  Programación General
| | |-+  Java
| | | |-+  Parsear html, ¿algo sencillo?
0 Usuarios y 1 Visitante están viendo este tema.
Páginas: [1] Ir Abajo Respuesta Imprimir
Autor Tema: Parsear html, ¿algo sencillo?  (Leído 8,718 veces)
Ragnarok
Colaborador
***
Desconectado Desconectado

Mensajes: 4.588


Shrödingerificado


Ver Perfil
Parsear html, ¿algo sencillo?
« en: 23 Mayo 2007, 19:05 pm »

Estoy intentando parsear un fichero en html usando java, ahora mismo estoy intentando usar el parser que hay en javax.swing.text.html.parser, pero estoy abierto a cualquier sugerencia de librerías o lo que sea.

El fichero en html que quiero parsear es bastante largo y tiene etiquetas bastante complejas, como cualquier html generado desde un documento .doc de microsoft office. También estoy abierto a sugerencias sobre como parsear un .doc, pasarlo a html me ha parecido la mejor.

Lo que hago es que creo un DocumentParser y llamo al método parse con un objeto de la clase MyCallback que creo para eso, esta clase es subclase de Callback y sólo he redefinido el método "handleSimpleTag" porque es lo único que me interesa hacer.

El problema es que ese método redefinido no se llama nunca, no sé porqué. Así que estoy bastante perdido.

Muchas gracias.


En línea

No olvidéis leer las normas generales, además de las específicas de cada tablón.sgae, ladrones
coolfrog


Desconectado Desconectado

Mensajes: 324


Ver Perfil WWW
Re: Parsear html, ¿algo sencillo?
« Respuesta #1 en: 24 Mayo 2007, 00:26 am »

bajate un parser ;D ;D ;D

Open Source HTML Parsers in Java


En línea

Ragnarok
Colaborador
***
Desconectado Desconectado

Mensajes: 4.588


Shrödingerificado


Ver Perfil
Re: Parsear html, ¿algo sencillo?
« Respuesta #2 en: 24 Mayo 2007, 00:50 am »

Si, esa página la he estado mirando, pero al final he llegado a la conclusión de que lo más sencillo es utilizar el que viene con el propio java, no sólo porque no tienes problemas de librerías, classpath, etc (que es lo de menos) sino porque parecía ser el más claro.

De estos algunos no sirven para lo que quiero hacer, como JTidy que hace muy pocas cosas, y otros parecen aún más complicados que el que estaba usando. Quería hacer un programa sencillo y rápido, pero me temo que no va a ser posible, más que nada porque ya le he dedicado más tiempo de lo que le correspondería a un programa sencillo y rápido.

He probado a usar el depurador y al invocar el método DocumentParser.parse(in, callback, ignoreCharSet) directamente he comprobado que no hace nada, el depurador pasa por encima exactamente igual que si pusiera "null;", una cosa un poco rara...
En línea

No olvidéis leer las normas generales, además de las específicas de cada tablón.sgae, ladrones
alvk4r

Desconectado Desconectado

Mensajes: 93


Casi...


Ver Perfil WWW
Re: Parsear html, ¿algo sencillo?
« Respuesta #3 en: 5 Junio 2007, 18:20 pm »

Aunque no es el remedio divino a todo... Yo siempre busco en
http://sourceforge.net
En línea

El poder corrompe, el poder absoluto corrompe absolutamente.
Páginas: [1] Ir Arriba Respuesta Imprimir 

Ir a:  

Mensajes similares
Asunto Iniciado por Respuestas Vistas Último mensaje
Parsear HTML con PHP – Simple HTML DOM Parser
PHP
madpitbull_99 3 14,167 Último mensaje 1 Abril 2014, 09:54 am
por BlackM4ster
Parsear con PHP Simple HTML DOM
PHP
multi-media asdfg 5 5,516 Último mensaje 16 Julio 2011, 01:20 am
por multi-media asdfg
Parsear html desde en java
Java
soyderiver2007 5 4,322 Último mensaje 29 Septiembre 2011, 09:04 am
por athlit
Parsear HTML
.NET (C#, VB.NET, ASP)
spiritdead 2 2,037 Último mensaje 26 Diciembre 2012, 23:55 pm
por spiritdead
Parsear código HTML en Vb.net
.NET (C#, VB.NET, ASP)
#Aitor 2 3,152 Último mensaje 28 Junio 2014, 04:02 am
por Eleкtro
WAP2 - Aviso Legal - Powered by SMF 1.1.21 | SMF © 2006-2008, Simple Machines