elhacker.net cabecera Bienvenido(a), Visitante. Por favor Ingresar o Registrarse
¿Perdiste tu email de activación?.

 

 


Tema destacado: Curso de javascript por TickTack


+  Foro de elhacker.net
|-+  Programación
| |-+  Desarrollo Web (Moderador: #!drvy)
| | |-+  Guardar página WEB
0 Usuarios y 1 Visitante están viendo este tema.
Páginas: [1] Ir Abajo Respuesta Imprimir
Autor Tema: Guardar página WEB  (Leído 6,160 veces)
dor25852

Desconectado Desconectado

Mensajes: 8


Ver Perfil
Guardar página WEB
« en: 23 Mayo 2012, 18:44 pm »

Hola a todos,

Necesito guardar archivos en formato pdf que hay en una página web.

La pagina en cuestión es http://www.congresoenfermeria.com

La idea es no tener que ir pinchando en cada uno de los enlaces y hacerlo de forma más automática.

He intentado con vario programas y varios complementos de Firefox, Flash get, DTA... pero nada.

He visto que los los pdf cuando se abren siguen siempre un mismo patrón:

http://www.congresoenfermeria.com/posters/***************.pdf

Os dejo varios ejemplos para que lo veáis:

http://www.congresoenfermeria.com/posters/poster_1334840799361.pdf
http://www.congresoenfermeria.com/posters/posterfinal_1335425570695.pdf
http://www.congresoenfermeria.com/posters/postercongresovirtual2012.eduardosanchezsanchez_1335443077449.pdf

La cosa es que para acceder al congreso mediante http://www.congresoenfermeria.com hace falta loguearse, pero para acceder directamente a los posters no.

Si es necesario, puedo enviar el código fuente de la página donde aparecen los enlaces.

Espero vuestra ayuda.

Muchas gracias.


En línea

Graphixx


Desconectado Desconectado

Mensajes: 1.336


Full Stack Developer


Ver Perfil WWW
Re: Guardar página WEB
« Respuesta #1 en: 24 Mayo 2012, 08:52 am »


yo no le veo el patron por ningun lado, efectivamente si parecen tener un codigo arbitrario despues del _ pero aparte de eso lo que precede al _ podria ser cualquier cadena, con lo que detectar la publicacion automaticamente se vuelve un lio.


En línea

Nada tiene fin solo hay pequeñas pausas, pausas que determinan el comienzo de otros. Graphixx Rōninnovation
adastra
Endless Learner
Ex-Staff
*
Desconectado Desconectado

Mensajes: 885


http://thehackerway.com/


Ver Perfil WWW
Re: Guardar página WEB
« Respuesta #2 en: 24 Mayo 2012, 10:19 am »

Por lo que he podido entender de tu mensaje, lo que necesitas es un crawler....
HTTrack es una buena opción:
www.httrack.com/
En línea

apuromafo CLS


Desconectado Desconectado

Mensajes: 1.441



Ver Perfil WWW
Re: Guardar página WEB
« Respuesta #3 en: 24 Mayo 2012, 11:47 am »

si no me olvido el plugin de firefox "dowload them all ayudaria en caso que es descargar en cierto lugar"
https://addons.mozilla.org/en-US/firefox/addon/downthemall/

en caso que de 1 lugar esten los 20 o 30 pdf
si estan entre varios lugares   , si no tienes que buscar los crawler como comenta @adastra


si es de alguno de pago te sugiero webdumper:
www.maxprog.com/WebDumper.html
esta es la version 3.3.3
para registrar de no tener capital de pago existen un keygen del team BRD
que puedes usar para testear el programa:
http://loadcrack.com/87710002577e1da8bd44cc100be36c075705/download/crack/Apps/Maxprog.Web.Dumper.v3.3.Multilingual.WinALL.Incl.Keygen-BRD.zip.download
o bien lo buscas desde Crackdb.org como Web Dumper

saludos Apuromafo
pd:

+---ec.europa.eu
|   +---health
|   |   \---alcohol
|   |       \---docs
|   |               alcohol_rand_2012.pdf
|   |               
|   \---health-eu
|       \---doc
|               whitepaper_de.pdf
|               whitepaper_en.pdf
|               whitepaper_fr.pdf
|               
+---www.congresoenfermeria.com
|   +---page_file
|   |       comitecientificocurriculumiiicongreso_1323944594048.pdf
|   |       comitecientificocurriculumiiicongreso_1328617624635.pdf
|   |       
|   \---pdf
|           ayuda_poster.pdf
|           cartel.pdf
|           programa.pdf
|           
+---www.msc.es
|   \---organizacion
|       \---sns
|           \---planCalidadSNS
|               +---docs
|               |       InformePlanCalidad_ESP.pdf
|               |       
|               \---pdf
|                   \---transparencia
|                           Ley_14_86_GRAL_SANIDAD_1.pdf
|                           
\---www.msps.es
    \---organizacion
        \---sns
            \---planCalidadSNS
                \---docs
                        InformePlanCalidad_ENG.pdf
                       

En línea

Apuromafo
Graphixx


Desconectado Desconectado

Mensajes: 1.336


Full Stack Developer


Ver Perfil WWW
Re: Guardar página WEB
« Respuesta #4 en: 24 Mayo 2012, 18:04 pm »

Compañeros estoy probando el WinHTtrack, pero no trae la funcion que necesito... conocen algun software que si yo le pongo un dominio me liste cuantos subdirectorios hay creados en el?

por ejemplo que si le pongo:
www.paginaweb.com

genere que existen:
www.paginaweb.com/main
/main/productos
/main/galeria
/foro
/intranet
/enero_documentos
/abril_documentos , etc...

___________________________
Alguien que haya trabajado ya con el WinHTtrack , alguna forma de que si la url principal que uno indica contiene una redireccion hacia otra pagina el obvie esa redireccion, y recorra en efecto el dominio principal?

___________________________________
Encontre una libreria php que parece que lista los subdirectorios de una web y baja todo su contenido:
http://phpcrawl.cuab.de/quickstart.html

Tanto WinHTtrack, como Webdumper, fallan cuando en el sitio hay un .htaccess del tipo:
RewriteCond %{HTTP_HOST} ^paginaweb.com$ [OR]
RewriteCond %{HTTP_HOST} ^www.paginaweb.com$
RewriteRule ^/?$ "http\:\/\/www\.otrapaginaweb\.com\/" [R=301,L]

en vez de copiar la web en la que lo ubico: paginaweb, coje el redireccionamiento y empieza a copiar es la otra web: otrapaginaweb.com
« Última modificación: 24 Mayo 2012, 18:45 pm por Graphixx » En línea

Nada tiene fin solo hay pequeñas pausas, pausas que determinan el comienzo de otros. Graphixx Rōninnovation
el-brujo
ehn
***
Desconectado Desconectado

Mensajes: 21.637


La libertad no se suplica, se conquista


Ver Perfil WWW
Re: Guardar página WEB
« Respuesta #5 en: 25 Mayo 2012, 17:49 pm »

La idea es ir mirando nombres de ficheros si el servidor web devuelve 404 es que no existe, si devuelve 200 es que existe.

Cómo no sabes el nombre del fichero, pues o lo miras de un diccionario o lo haces aleatorio.

Si al menos sabes la carpeta, ya tienes parte de la ruta, ya tienes algo.

*- [!] Apache Files Finder
http://foro.elhacker.net/hacking_avanzado/apache_files_finder-t307464.0.html

encontrar ficheros en un servidor
http://foro.elhacker.net/dudas_generales/encontrar_ficheros_en_un_servidor-t310966.0.html
En línea

Graphixx


Desconectado Desconectado

Mensajes: 1.336


Full Stack Developer


Ver Perfil WWW
Re: Guardar página WEB
« Respuesta #6 en: 25 Mayo 2012, 20:24 pm »

Hey Jefe, pregunto ya que aca en el foro se ha hablado tanto del tema si yo no quiero saber los archivos si no nada mas los directorios que existen dentro de una web, esos tampoco se dejan jalar automaticamente ?
En línea

Nada tiene fin solo hay pequeñas pausas, pausas que determinan el comienzo de otros. Graphixx Rōninnovation
Páginas: [1] Ir Arriba Respuesta Imprimir 

Ir a:  

Mensajes similares
Asunto Iniciado por Respuestas Vistas Último mensaje
¿Cómo guardar pagina web de forma silenciosa ?
Programación Visual Basic
Vampersy 2 1,837 Último mensaje 29 Enero 2009, 15:31 pm
por Karcrack
Pagina para guardar los links??? « 1 2 »
PHP
turion 10 6,547 Último mensaje 5 Noviembre 2009, 09:14 am
por turion
guardar conversaciones del messenger en una pagina web?
Foro Libre
forestalega 1 1,997 Último mensaje 26 Junio 2010, 20:16 pm
por SpuTniK.
Guardar pagina web desde vb6 ???
Programación Visual Basic
VanX 4 3,223 Último mensaje 21 Agosto 2011, 23:24 pm
por BlackZeroX
WAP2 - Aviso Legal - Powered by SMF 1.1.21 | SMF © 2006-2008, Simple Machines