Foro de elhacker.net

Programación => Scripting => Mensaje iniciado por: Hekaly en 8 Julio 2016, 17:49 pm



Título: [Bash] Obtener código fuente de pagina web
Publicado por: Hekaly en 8 Julio 2016, 17:49 pm
Buenas.

Estoy haciendo un trabajo de libros y nesesito  algunos datos (ISBN y el precio) que por ahora solo he encontrado en la web del ministerio.

La página principal es esta:

Código:
http://www.mcu.es/webISBN/tituloSimpleFilter.do?cache=init&prev_layout=busquedaisbn&layout=busquedaisbn&language=es

Y una url de un libro concreto:

Código:
http://www.mcu.es/webISBN/tituloDetalle.do?sidTitul=1998167&action=busquedaInicial&noValidating=true&POS=0&MAX=50&TOTAL=0&prev_layout=busquedaisbn&layout=busquedaisbn&language=es

El caso es que necesito sacar el codigo fuente y no encuentro la manera de hacerlo.

Estoy probando mayormente con curl, wget y lynx.

1) Con curl -I me redirecciona.

Código
  1. curl -I "http://www.mcu.es/webISBN/tituloDetalle.do?sidTitul=1998167&action=busquedaInicial&noValidating=true&POS=0&MAX=50&TOTAL=0&prev_layout=busquedaisbn&layout=busquedaisbn&language=es"
  2. HTTP/1.1 302 Movido tempor�lmente
  3. Date: Fri, 08 Jul 2016 15:45:34 GMT
  4. Server: Apache
  5. X-Powered-By: Servlet 2.4; JBoss-4.2.1.GA (build: SVNTag=JBoss_4_2_1_GA date=200707131605)/Tomcat-5.5
  6. Location: http://www.mcu.es/paginaError.html
  7. Vary: Accept-Encoding,User-Agent
  8. Content-Type: text/plain; charset=ISO-8859-1
  9.  

Cosa que arreglo (aparezca un 200) con:

Código
  1. curl -Lkg "http://www.mcu.es/webISBN/tituloDetalle.do?sidTitul=1998167&action=busquedaInicial&noValidating=true&POS=0&MAX=50&TOTAL=0&prev_layout=busquedaisbn&layout=busquedaisbn&language=es"

Pero el codigo fuente que aparece es el de la pagina de error.

Tanto con lynx -source como con wget puedo como mucho obtener el mismo codigo (el de la pagina de error).

Investigando he visto que esta pagina usa las cookies, tokens y sesiones, pero probando opciones para aceptar las cookies, o bien usar un useragent con curl -A, y nada, no hay manera.

Sabriais algún modo para obtener el cofigo de esta web.

Muchas gracias.


Título: Re: [Bash] Obtener código fuente de pagina web
Publicado por: dopr en 9 Agosto 2016, 15:57 pm
Hace tiempo hice un script en python que hacia cuatro tonterías, échale un ojo a ver si te sirve
https://github.com/Svaazz/escaner-web