Título: [APORTE]Web-crawler Python Publicado por: Señor X en 20 Noviembre 2014, 17:53 pm hola a todos!! ante todo disculpas por el título porque no se si en si mismo el aporte es un web-crawler :silbar:. Se trata de una función en la que utilizo la libreria urllib2 que viene perfecta para sacar contenido de una url. He buscado el nombre de la libreria y no aparecia nada en el foro así que he pensado que a alguien le puede interesar el extraer la información de una página html. Debo decir que los servidores bloquean a la misma ip en cuanto te pasas ejecutandolo y también debo decir que no me hago responsable de la modificacion para cuestiones ilicitas, y espero que postearlo tampoco lo sea :-X
Código: import urllib2 Primero importo la libreria y lee la url que suministramos y despues busca el patrón que le suministramos a un array que es splitted_page (en este caso busca la tabla con clase x). Luego lo meto todo en otro archivo html creando un nuevo documento html formateado diferente. Agradezco sugerencias. Un saludo a todos! |