Estoy haciendo un trabajo de libros y nesesito algunos datos (ISBN y el precio) que por ahora solo he encontrado en la web del ministerio.
La página principal es esta:
Código:
http://www.mcu.es/webISBN/tituloSimpleFilter.do?cache=init&prev_layout=busquedaisbn&layout=busquedaisbn&language=es
Y una url de un libro concreto:
Código:
http://www.mcu.es/webISBN/tituloDetalle.do?sidTitul=1998167&action=busquedaInicial&noValidating=true&POS=0&MAX=50&TOTAL=0&prev_layout=busquedaisbn&layout=busquedaisbn&language=es
El caso es que necesito sacar el codigo fuente y no encuentro la manera de hacerlo.
Estoy probando mayormente con curl, wget y lynx.
1) Con curl -I me redirecciona.
Código
curl -I "http://www.mcu.es/webISBN/tituloDetalle.do?sidTitul=1998167&action=busquedaInicial&noValidating=true&POS=0&MAX=50&TOTAL=0&prev_layout=busquedaisbn&layout=busquedaisbn&language=es" HTTP/1.1 302 Movido tempor�lmente Date: Fri, 08 Jul 2016 15:45:34 GMT Server: Apache X-Powered-By: Servlet 2.4; JBoss-4.2.1.GA (build: SVNTag=JBoss_4_2_1_GA date=200707131605)/Tomcat-5.5 Location: http://www.mcu.es/paginaError.html Vary: Accept-Encoding,User-Agent Content-Type: text/plain; charset=ISO-8859-1
Cosa que arreglo (aparezca un 200) con:
Código
curl -Lkg "http://www.mcu.es/webISBN/tituloDetalle.do?sidTitul=1998167&action=busquedaInicial&noValidating=true&POS=0&MAX=50&TOTAL=0&prev_layout=busquedaisbn&layout=busquedaisbn&language=es"
Pero el codigo fuente que aparece es el de la pagina de error.
Tanto con lynx -source como con wget puedo como mucho obtener el mismo codigo (el de la pagina de error).
Investigando he visto que esta pagina usa las cookies, tokens y sesiones, pero probando opciones para aceptar las cookies, o bien usar un useragent con curl -A, y nada, no hay manera.
Sabriais algún modo para obtener el cofigo de esta web.
Muchas gracias.