Título: [Bash] Obtener código fuente de pagina web Publicado por: Hekaly en 8 Julio 2016, 17:49 pm Buenas.
Estoy haciendo un trabajo de libros y nesesito algunos datos (ISBN y el precio) que por ahora solo he encontrado en la web del ministerio. La página principal es esta: Código: http://www.mcu.es/webISBN/tituloSimpleFilter.do?cache=init&prev_layout=busquedaisbn&layout=busquedaisbn&language=es Y una url de un libro concreto: Código: http://www.mcu.es/webISBN/tituloDetalle.do?sidTitul=1998167&action=busquedaInicial&noValidating=true&POS=0&MAX=50&TOTAL=0&prev_layout=busquedaisbn&layout=busquedaisbn&language=es El caso es que necesito sacar el codigo fuente y no encuentro la manera de hacerlo. Estoy probando mayormente con curl, wget y lynx. 1) Con curl -I me redirecciona. Código
Cosa que arreglo (aparezca un 200) con: Código
Pero el codigo fuente que aparece es el de la pagina de error. Tanto con lynx -source como con wget puedo como mucho obtener el mismo codigo (el de la pagina de error). Investigando he visto que esta pagina usa las cookies, tokens y sesiones, pero probando opciones para aceptar las cookies, o bien usar un useragent con curl -A, y nada, no hay manera. Sabriais algún modo para obtener el cofigo de esta web. Muchas gracias. Título: Re: [Bash] Obtener código fuente de pagina web Publicado por: dopr en 9 Agosto 2016, 15:57 pm Hace tiempo hice un script en python que hacia cuatro tonterías, échale un ojo a ver si te sirve
https://github.com/Svaazz/escaner-web |