elhacker.net cabecera Bienvenido(a), Visitante. Por favor Ingresar o Registrarse
¿Perdiste tu email de activación?.

 

 


Tema destacado: Usando Git para manipular el directorio de trabajo, el índice y commits (segunda parte)


+  Foro de elhacker.net
|-+  Programación
| |-+  Scripting
| | |-+  [Bash] Obtener código fuente de pagina web
0 Usuarios y 1 Visitante están viendo este tema.
Páginas: [1] Ir Abajo Respuesta Imprimir
Autor Tema: [Bash] Obtener código fuente de pagina web  (Leído 3,167 veces)
Hekaly

Desconectado Desconectado

Mensajes: 85



Ver Perfil WWW
[Bash] Obtener código fuente de pagina web
« en: 8 Julio 2016, 17:49 pm »

Buenas.

Estoy haciendo un trabajo de libros y nesesito  algunos datos (ISBN y el precio) que por ahora solo he encontrado en la web del ministerio.

La página principal es esta:

Código:
http://www.mcu.es/webISBN/tituloSimpleFilter.do?cache=init&prev_layout=busquedaisbn&layout=busquedaisbn&language=es

Y una url de un libro concreto:

Código:
http://www.mcu.es/webISBN/tituloDetalle.do?sidTitul=1998167&action=busquedaInicial&noValidating=true&POS=0&MAX=50&TOTAL=0&prev_layout=busquedaisbn&layout=busquedaisbn&language=es

El caso es que necesito sacar el codigo fuente y no encuentro la manera de hacerlo.

Estoy probando mayormente con curl, wget y lynx.

1) Con curl -I me redirecciona.

Código
  1. curl -I "http://www.mcu.es/webISBN/tituloDetalle.do?sidTitul=1998167&action=busquedaInicial&noValidating=true&POS=0&MAX=50&TOTAL=0&prev_layout=busquedaisbn&layout=busquedaisbn&language=es"
  2. HTTP/1.1 302 Movido tempor�lmente
  3. Date: Fri, 08 Jul 2016 15:45:34 GMT
  4. Server: Apache
  5. X-Powered-By: Servlet 2.4; JBoss-4.2.1.GA (build: SVNTag=JBoss_4_2_1_GA date=200707131605)/Tomcat-5.5
  6. Location: http://www.mcu.es/paginaError.html
  7. Vary: Accept-Encoding,User-Agent
  8. Content-Type: text/plain; charset=ISO-8859-1
  9.  

Cosa que arreglo (aparezca un 200) con:

Código
  1. curl -Lkg "http://www.mcu.es/webISBN/tituloDetalle.do?sidTitul=1998167&action=busquedaInicial&noValidating=true&POS=0&MAX=50&TOTAL=0&prev_layout=busquedaisbn&layout=busquedaisbn&language=es"

Pero el codigo fuente que aparece es el de la pagina de error.

Tanto con lynx -source como con wget puedo como mucho obtener el mismo codigo (el de la pagina de error).

Investigando he visto que esta pagina usa las cookies, tokens y sesiones, pero probando opciones para aceptar las cookies, o bien usar un useragent con curl -A, y nada, no hay manera.

Sabriais algún modo para obtener el cofigo de esta web.

Muchas gracias.


En línea

dopr

Desconectado Desconectado

Mensajes: 42



Ver Perfil
Re: [Bash] Obtener código fuente de pagina web
« Respuesta #1 en: 9 Agosto 2016, 15:57 pm »

Hace tiempo hice un script en python que hacia cuatro tonterías, échale un ojo a ver si te sirve
https://github.com/Svaazz/escaner-web


En línea

High Hopes.
Páginas: [1] Ir Arriba Respuesta Imprimir 

Ir a:  

Mensajes similares
Asunto Iniciado por Respuestas Vistas Último mensaje
Como obtener código fuente de una página con vb.NET? « 1 2 »
.NET (C#, VB.NET, ASP)
jdc 10 15,904 Último mensaje 24 Agosto 2010, 04:15 am
por jdc
Obtener código fuente
Ingeniería Inversa
Azdesarel 1 2,604 Último mensaje 27 Septiembre 2012, 17:32 pm
por apuromafo CLS
Obtener codigo fuente de pagina que requiere Usuario y Contraseña
.NET (C#, VB.NET, ASP)
Rapsodia 2 4,592 Último mensaje 29 Octubre 2012, 17:28 pm
por Rapsodia
[BASH] Ver codigo fuente de pagina con login.
Scripting
Hekaly 3 2,905 Último mensaje 15 Marzo 2016, 10:53 am
por Hekaly
[JS] obtener codigo fuente de otra pagina
Desarrollo Web
marcos raketsky 2 4,291 Último mensaje 7 Enero 2017, 20:59 pm
por WHK
WAP2 - Aviso Legal - Powered by SMF 1.1.21 | SMF © 2006-2008, Simple Machines