elhacker.net cabecera Bienvenido(a), Visitante. Por favor Ingresar o Registrarse
¿Perdiste tu email de activación?.

 

 


Tema destacado: Usando Git para manipular el directorio de trabajo, el índice y commits (segunda parte)


+  Foro de elhacker.net
|-+  Programación
| |-+  Scripting
| | |-+  [APORTE]Web-crawler Python
0 Usuarios y 1 Visitante están viendo este tema.
Páginas: [1] Ir Abajo Respuesta Imprimir
Autor Tema: [APORTE]Web-crawler Python  (Leído 4,432 veces)
Señor X

Desconectado Desconectado

Mensajes: 39


Sr. X


Ver Perfil
[APORTE]Web-crawler Python
« en: 20 Noviembre 2014, 17:53 pm »

hola a todos!! ante todo disculpas por el título porque no se si en si mismo el aporte es un web-crawler  :silbar:. Se trata de una función en la que utilizo la libreria urllib2 que viene perfecta para sacar contenido de una url. He buscado el nombre de la libreria y no aparecia nada en el foro así que he pensado que a alguien le puede interesar el extraer la información de una página html. Debo decir que los servidores bloquean a la misma ip en cuanto te pasas ejecutandolo y también debo decir que no me hago responsable de la modificacion para cuestiones ilicitas, y espero que postearlo tampoco lo sea  :-X

Código:
import urllib2
def funcion():
    url = "http://www..html"
    request = urllib2.Request(url)
    handle = urllib2.urlopen(request)
    content = handle.read()
    splitted_page = content.split("<table width=\"95%\" cellspacing=\"0\" cellpadding=\"0\" border=\"0\" class=\"x\">", 1);
    splitted_page = splitted_page[1].split("<td colspan=\"1\" align=\"right\" bgcolor=\"#FFFFCC\" class=\"x\">")
    escribe = open('x.html', 'w')
    escribe.write('<html><head><meta http-equiv="Content-type" content="text/html;charset=ISO-8859-1" /><link rel="stylesheet" href="estilos.css" type="text/css" media="all"></head><body><div id="contenido"><table>')
    escribe.close()
    f = open("x.html", "a")
    f.write(splitted_page[0])
    f.close()
    f = open("x.html", "a")
    f.write('</table></div></body></html>')
    f.close()
función()

Primero importo la libreria y lee la url que suministramos y despues busca el patrón que le suministramos a un array que es splitted_page (en este caso busca la tabla con clase x). Luego lo meto todo en otro archivo html creando un nuevo documento html formateado diferente. Agradezco sugerencias. Un saludo a todos!


En línea

No hay camino hacia la libertad, la libertad es el camino
Páginas: [1] Ir Arriba Respuesta Imprimir 

Ir a:  

Mensajes similares
Asunto Iniciado por Respuestas Vistas Último mensaje
[python] crawler http
Python
lnvisible 3 4,183 Último mensaje 23 Abril 2011, 05:55 am
por lnvisible
Crawler Put Analizer , Primera BETA!! [PYTHON]
Nivel Web
afdlkglfgfdgfhgf 1 3,326 Último mensaje 11 Enero 2012, 18:42 pm
por afdlkglfgfdgfhgf
[Python] Consulta - Creación CRAWLER
Python
criskapunk 4 15,807 Último mensaje 14 Junio 2012, 09:57 am
por adastra
[python]aporte comodines ip
Scripting
daryo 0 2,205 Último mensaje 2 Mayo 2013, 02:34 am
por daryo
[Aporte] Aprende a programar juegos Python
Scripting
Yidu 5 6,010 Último mensaje 5 Septiembre 2015, 15:00 pm
por DeMoNcRaZy
WAP2 - Aviso Legal - Powered by SMF 1.1.21 | SMF © 2006-2008, Simple Machines