Foro de elhacker.net

Programación => Scripting => Mensaje iniciado por: criskapunk en 11 Junio 2012, 03:40 am



Título: [Python] Consulta - Creación CRAWLER
Publicado por: criskapunk en 11 Junio 2012, 03:40 am
Buenas chicos,

Hay una página web con una estructura más o menos como la siguiente:

- Una lista desplegable con varias opciones.
- Dentro de cada una, varias opciones más (enlaces).
- En cada uno de los enlaces, varios links que redirigen a una página para visualizar o descargar un .pdf.



Mi idea es crear un programa que pueda ir abriendo automáticamente cada uno de los enlaces y descargando los archivos, por eso la pregunta:

Que librerías debería usar?
Para poder entrar mecánicamente a los diferentes enlaces, tendría que analizar el código fuente, no? Esto supongo que se podrá realizar mediante expresiones regulares.

Un saludo y muchas gracias.



Título: Re: [Python] Consulta - Creación CRAWLER
Publicado por: overxfl0w13 en 11 Junio 2012, 14:38 pm
Utiliza urllib y urllib2 con bucles puedes sacar todas las páginas del site :)


Título: Re: [Python] Consulta - Creación CRAWLER
Publicado por: snhd6 en 11 Junio 2012, 14:52 pm
O Mechanize. Se puede usar regex para analizar el fuente y está BeautifulSoup que es un parseador de HTML. Yo la verdad tiro más de Perl.


Título: Re: [Python] Consulta - Creación CRAWLER
Publicado por: 0x5d en 14 Junio 2012, 02:26 am
Hola, buen día.
Hace un tiempo publiqué un código que encontré en la red, sobre un Website Crawler Python, espero
te sirva de apoyo en tu trabajo : http://rootcodes.com/pythonweb-site-crawler/

Saludos, Javier.


Título: Re: [Python] Consulta - Creación CRAWLER
Publicado por: adastra en 14 Junio 2012, 09:57 am
Lo mejor para lo que quieres hacer, es utilizar Scrapy Framework:
http://scrapy.org/