Ingenuo_666
Desconectado
Mensajes: 1
|
Descubrir o identificar formularios en paginas web con java
Saludos a todos!!!
Soy nuevo en este foro asi que soy novato, bueno, tengo una consulta a ustedes.
Estoy desarrollando un Crawler, el cual, ya corre sobre la Web superficial recuperando enlaces, sin embargo, lo fuerte de mi proyecto es la búsqueda de formularios, llevo una semana y no he encontrado una manera adecuada para encontrarlos en una pagina web.
Explicare detalladamente lo que quiero hacer.
1.- Encontrar paginas de búsqueda avanzada ( ya lo hago, lo busco con expresiones regulares sobre las URL , con la clase Pattern de Java).
2.- Una vez que tengo identificada la pagina, la leo, utilizo el paquete URL de java, ya me desplega todo el codigo de la pagina HTML.
3.- Identificar el formulario que se encuentre en la pagina HTML, la etiqueta y la caja de texto/ checkbox/ combobox, Después de haber hecho eso lo almacenaría en una tabla o arreglo para poder enviar datos.
La parte 3 es la que todavía no realizo, deben haber algoritmos, de hecho existe un plugin pero es comercial, es el lenguaje NSEQL que trabaja como si fuera humano, rellena formularios y simula clics en los menús de las paginas, pero lo que busco es un algoritmo o plugin ( gratuito ) que pueda usar para realizar el objetivo, Muchas gracias.
Nota: reconocer los formularios serán sobre paginas externas, no alguna que yo desarrolle, las paginas deben ser reales, como la de búsqueda avanzada de amazon.
|