Título: [Python] Consulta - Creación CRAWLER Publicado por: criskapunk en 11 Junio 2012, 03:40 am Buenas chicos,
Hay una página web con una estructura más o menos como la siguiente: - Una lista desplegable con varias opciones. - Dentro de cada una, varias opciones más (enlaces). - En cada uno de los enlaces, varios links que redirigen a una página para visualizar o descargar un .pdf. Mi idea es crear un programa que pueda ir abriendo automáticamente cada uno de los enlaces y descargando los archivos, por eso la pregunta: Que librerías debería usar? Para poder entrar mecánicamente a los diferentes enlaces, tendría que analizar el código fuente, no? Esto supongo que se podrá realizar mediante expresiones regulares. Un saludo y muchas gracias. Título: Re: [Python] Consulta - Creación CRAWLER Publicado por: overxfl0w13 en 11 Junio 2012, 14:38 pm Utiliza urllib y urllib2 con bucles puedes sacar todas las páginas del site :)
Título: Re: [Python] Consulta - Creación CRAWLER Publicado por: snhd6 en 11 Junio 2012, 14:52 pm O Mechanize. Se puede usar regex para analizar el fuente y está BeautifulSoup que es un parseador de HTML. Yo la verdad tiro más de Perl.
Título: Re: [Python] Consulta - Creación CRAWLER Publicado por: 0x5d en 14 Junio 2012, 02:26 am Hola, buen día.
Hace un tiempo publiqué un código que encontré en la red, sobre un Website Crawler Python, espero te sirva de apoyo en tu trabajo : http://rootcodes.com/pythonweb-site-crawler/ Saludos, Javier. Título: Re: [Python] Consulta - Creación CRAWLER Publicado por: adastra en 14 Junio 2012, 09:57 am Lo mejor para lo que quieres hacer, es utilizar Scrapy Framework:
http://scrapy.org/ |