Esta parte del codigo se encargaria de extraer las urls de las paginas web de un fichero. En la carpeta del script tienes que tener un documento llamado url1.txt con almenos 1 url o sino haces un raw_input y que automaticamente se escriba en el fichero
Código
Luego, esta parte se encarga de leer un dominio de url1.txt y convertirlo en una ipv4, ahi tienes que tu anteriormente haber filtrado el http://www o https://www haces un .replace('http://www' or 'https//www', '') y ya estaria filtrado:
import urllib from bs4 import BeautifulSoup while 0: escritura=open("url1.txt","a") lectura=open("url1.txt","r") lines=archivo.readline() #Coge la siguiente url por defecto tienes que tener 1 url [font=Verdana]Numero_url[/font]=lines response=urllib.urlopen(Numero_url) link=urllib.urlopen(Numero_url).read() #Obtiene contenido html bs=BeautifulSoup(link,"lxml") for link in bs.find_all('a', href=True): #Busca etiquetas href que no sean de css o javascript urlsss=link['href'] if urlsss.startswith("http" or "www."): #Filtra css o javascript print urlsss escritura.write(urlsss) #Lo escribe en el fichero escritura.writelines("\n")
Código
import dns.resolver #La variable dominio la obtienes de el fichero de arriba conversor_ipv4 = dns.resolver.query(dominio, 'A') #Dominio tienes que haber obtenido antes for conversor_ipv4 in ans: print ans #Aqui te imprimiria las ipv4 creas un fichero aparte para que lo escriba y ya lo tendrias
Ademas puedes meter threads y que lea si ya estan esas direcciones dentro del fichero
Si tienes alguna duda solo tienes que enviar mensaje estoy interesado en este proyecto