últimos mensajes de: Poyoncio

Se seguramente no te interese pero hace un tiempo hice algo parecido, igual te sirve porque esta bastante simplificado:

Esta parte del codigo se encargaria de extraer las urls de las paginas web de un fichero. En la carpeta del script tienes que tener un documento llamado url1.txt con almenos 1 url o sino haces un raw_input y que automaticamente se escriba en el fichero

Código

import urllib 
from bs4 import BeautifulSoup
while 0:
 
 
 
    escritura=open("url1.txt","a")
    lectura=open("url1.txt","r")
 
 
    lines=archivo.readline() #Coge la siguiente url por defecto tienes que tener 1 url
    [font=Verdana]Numero_url[/font]=lines
    response=urllib.urlopen(Numero_url)   	
    link=urllib.urlopen(Numero_url).read() #Obtiene contenido html
 
    bs=BeautifulSoup(link,"lxml")
    for link in bs.find_all('a', href=True): #Busca etiquetas href que no sean de css o javascript
        urlsss=link['href']
        if urlsss.startswith("http" or "www."): #Filtra css o javascript
            print urlsss
            escritura.write(urlsss) #Lo escribe en el fichero
            escritura.writelines("\n")

Luego, esta parte se encarga de leer un dominio de url1.txt y convertirlo en una ipv4, ahi tienes que tu anteriormente haber filtrado el http://www o https://www haces un .replace('http://www' or 'https//www', '') y ya estaria filtrado:

Código

import dns.resolver 
#La variable dominio la obtienes de el fichero de arriba 
conversor_ipv4 = dns.resolver.query(dominio, 'A') #Dominio tienes que haber obtenido antes 
for conversor_ipv4 in ans:
    print ans #Aqui te imprimiria las ipv4 creas un fichero aparte para que lo escriba y ya lo tendrias

Ademas puedes meter threads y que lea si ya estan esas direcciones dentro del fichero

Si tienes alguna duda solo tienes que enviar mensaje estoy interesado en este proyecto