elhacker.net cabecera Bienvenido(a), Visitante. Por favor Ingresar o Registrarse
¿Perdiste tu email de activación?.

 

 


Tema destacado: Security Series.XSS. [Cross Site Scripting]


+  Foro de elhacker.net
|-+  Programación
| |-+  Scripting
| | |-+  script para sacar emails de paginas webs [python] [v3.0]
0 Usuarios y 1 Visitante están viendo este tema.
Páginas: [1] 2 3 Ir Abajo Respuesta Imprimir
Autor Tema: script para sacar emails de paginas webs [python] [v3.0]  (Leído 17,231 veces)
Kase


Desconectado Desconectado

Mensajes: 1.288


programa bonito ¬¬


Ver Perfil WWW
script para sacar emails de paginas webs [python] [v3.0]
« en: 27 Abril 2013, 18:35 pm »

les comparto este script que realiza para sacar emails de una web usando una arañita que recorre enlaces internos...

lo comparto por si se les ocurre modificaciones poder mejorarlo

repo git > https://github.com/Boredsoft/email-spider

** acepta parametros
-url       obligatorio con formato  http://somthing.com/   (la / final es necesaria)
-max_links  maxima cantidad de links a analizar antes de cortar el programa y guardar
-max_emails  maxima cantidad de emails a obtener antes de finalizar el programa y guardar
-external    acepta links externos, pero si no se usa junto con max_links o max_emails el programa nunca se detendra :(

** si la conexion de internet se cae el programa espera 30 segundos para reanudarse
** no se traba con enlaces muertos
** uso de "sort" para revisar enlaces con mayor probabilidad de tener email despues de cierto tiempo

Citar
fix 3.0
soporte para mas sistemas operativos
mejor detección de emails mediante el regex
fix v 2.0
ahora detecta mas tipos de urls internas
ahora detecta si es windows o linux para usar el comando correcto de limpiar pantalla.


Código
  1. # -*- coding: utf-8 -*-
  2. ## by kase: kase@boredsoft.com   colaboraciones: EleKtro H@cker
  3. import requests,re,os,time,sys
  4. from argparse import ArgumentParser, RawTextHelpFormatter
  5.  
  6. parser = ArgumentParser(description="email spider", version="3.0", formatter_class=RawTextHelpFormatter)
  7. ## -url
  8. parser.add_argument("-url",  dest="url", help='url a analizar en formato http://web.com/')
  9. ## -max_links links
  10. parser.add_argument("-max_links",  dest="max_links", help='maximo de links internos a analizar')
  11. ## -max_emails emails
  12. parser.add_argument("-max_emails",  dest="max_emails", help='maximo de emails a analizar')
  13. ## -external  default False
  14. parser.add_argument("-external",  dest="external", help='investigar links externos [si|no]')
  15.  
  16. argumento = parser.parse_args()
  17.  
  18.  
  19.  
  20. url_web = argumento.url
  21. url_web_limpio = argumento.url.replace('http://','').replace('/','').replace('www.','')
  22. links_internos = ['/']
  23. links_visitados = []
  24. emails_capturados = []
  25. mailsrch = re.compile(r"[a-z0-9!#$%&'*+/=?^_`{|}~-]+(?:\.[a-z0-9!#$%&'*+/=?^_`{|}~-]+)*@(?:[a-z0-9](?:[a-z0-9-]*[a-z0-9])?\.)+(?:[A-Z]{2}|com|org|net|edu|gov|mil|biz|info|mobi|name|aero|asia|jobs|museum|mx|com\.mx|xxx|tv|tk)\b")
  26. #old mailsrch = re.compile(r'[\w\-][\w\-\.]+@[\w\-][\w\-\.]+[a-zA-Z]{2,6}')
  27. urlssrch = re.compile(r'href=[\'"]?([^\'" >]+)')
  28. contador = 0
  29. while links_internos:
  30. try:
  31. ## saca el ultimo link de la lista
  32. ##print links_internos
  33. link = links_internos.pop()
  34. ## añade ese link a visitados, para no volverlo a tener en cuenta
  35. links_visitados.append(link)
  36. if link[0] == '/' or link == '':
  37. r=requests.get(url_web+''+link)
  38. else:
  39. r=requests.get(link)
  40. links = urlssrch.findall( r.text)
  41. ##print 'xxxxxxxxxxxxx', links
  42. emails = mailsrch.findall(r.text)
  43. ## guarda todos los emails que se topa checando que no existan repeticiones
  44. for email in  emails:
  45. if email not in emails_capturados:
  46. emails_capturados.append(email)
  47. ## guarda todos los links internos que se tope checando que no existan en la cola o en vistados
  48. for link in links:
  49. if not argumento.external:  ## verifica si usar enlaces externos o no
  50. if link[0] == '/' or url_web_limpio in link:
  51. if link not in links_internos and link not in links_visitados:
  52. links_internos.append(link)
  53. elif  argumento.external == 'si':
  54. if link not in links_internos and link not in links_visitados:
  55. links_internos.append(link)
  56. contador +=1
  57. ## informacion en pantalla
  58. if contador % 50 == 0:
  59. if sys.platform.startswith('win'):
  60.    # Windows
  61.    os.system('cls')
  62. elif sys.platform.startswith('linux'):
  63.    # Linux
  64.    os.system('clear')
  65. elif sys.platform.startswith('cygwin'):
  66.    # Windows (Cygwin)
  67.    os.system('cmd /c cls')
  68. elif sys.platform.startswith('darwin'):
  69.    # MacOSX
  70.    os.system('clear')
  71. elif sys.platform.startswith('freebsd'):
  72.    # FreeBSD
  73.    os.system('clear')
  74. print 'web atacada:', url_web
  75. print 'total de emails obtenidos:', len(emails_capturados)
  76. print 'urls recorridas: ', len(links_visitados)
  77. print 'urls faltantes: ', len(links_internos)
  78. print '-----  (~._.)~ '
  79. ## pequeño arreglo para tener mas chanse de optener emails en web grandes
  80. ## primero analiza los enlaces internos mas cortos  y despues de un tiempo, analiza los mas largos primero
  81. ## en paginas tipo blog, los enlaces mas largos son los de las post con comentarios donde posiblemente existan emails
  82. if contador %10000 == 0:
  83. if contador <= 10000:
  84. links_internos.sort(reverse=True)
  85. else:
  86. links_internos.sort()
  87. ## si ahi un maximo de links internos  rompe el ciclo y termina
  88. if argumento.max_links:
  89. if contador >= int(argumento.max_links):
  90. break
  91. ## si ahi un maximo de emails capturados rompe el ciclo y termina
  92. if argumento.max_emails:
  93. if len(emails_capturados) >= int(argumento.max_emails):
  94. break
  95. ## si la conexion se cae duerme el proceso 20 segundos y reintenta
  96. except:
  97. r = os.system('ping -c 1 google.com') ## checa si hay conexion de internet
  98. if r == 0:  #si existe conexion elimina el enlace muerto
  99. link = links_internos.pop()
  100. else: ##sino espera 20 segundos a que se reanude la conexion de internet
  101. time.sleep(30)
  102. if sys.platform.startswith('win'):
  103.    # Windows
  104.    os.system('cls')
  105. elif sys.platform.startswith('linux'):
  106.    # Linux
  107.    os.system('clear')
  108. elif sys.platform.startswith('cygwin'):
  109.    # Windows (Cygwin)
  110.    os.system('cmd /c cls')
  111. elif sys.platform.startswith('darwin'):
  112.    # MacOSX
  113.    os.system('clear')
  114. elif sys.platform.startswith('freebsd'):
  115.    # FreeBSD
  116.    os.system('clear')
  117. print 'web atacada:', url_web
  118. print 'total de emails obtenidos:', len(emails_capturados)
  119. print 'urls recorridas: ', len(links_visitados)
  120. print 'urls faltantes: ', len(links_internos)
  121. print '-----  (~._.)~ CONEXION CAIDA, ESPERANDO 30 SEGUNDOS (X__X)'
  122.  
  123. f = open('%s.txt' % url_web.replace('http://','').replace('/','').replace('.','_'),'w+')
  124. f.write("\n".join(emails_capturados))
  125. f.close()
  126.  
mejoras en las que pueden ayudarme
 no soy muy bueno con expresiones regulares

estas me funcionan en el 90 de los casos, pero derrepente tienen errores (como cuando alguien usa el @ como a/o,   o no detecta urls internas si no comienzan con /)
  
mailsrch = re.compile(r'[\w\-][\w\-\.]+@[\w\-][\w\-\.]+[a-zA-Z]{1,4}')
urlssrch = re. compile(r'href=[\'"]?/([^\'" >]+)')



funciones que pienso agregar a futuro

** comandos para pausar las tarea y guardar donde se quedaron
** serializar cada cierto tiempo la tarea  para no perder el trabajo cuando se reinicie la computadora forzosamente


 ::)


« Última modificación: 15 Agosto 2013, 06:50 am por Kase » En línea

daryo


Desconectado Desconectado

Mensajes: 1.071



Ver Perfil WWW
Re: script para sacar emails de paginas webs [python]
« Respuesta #1 en: 28 Abril 2013, 14:40 pm »

yo le pondria que ademas de esto busque con dorks en google paginas que puedan tener mails


spamer  ;D

buen aporte jeje




En línea

buenas
Kase


Desconectado Desconectado

Mensajes: 1.288


programa bonito ¬¬


Ver Perfil WWW
Re: script para sacar emails de paginas webs [python]
« Respuesta #2 en: 29 Abril 2013, 06:01 am »

interesante....  explicame un poco mas la idea, y podria interesarme sacarla :D

estoy por comenzar una campaña de mailing de varias webs...  mas emails a disposicion no estaria mal...


para burlar los filtros antispam uso  send blaster.... auke e considerado hacer todo una aplicacion yo mismo para mandar los emails y sacarlos de webs y contruir listas e base a criterios
En línea

daryo


Desconectado Desconectado

Mensajes: 1.071



Ver Perfil WWW
Re: script para sacar emails de paginas webs [python]
« Respuesta #3 en: 29 Abril 2013, 21:43 pm »



pues me refiero a que ademas de poderle pasar de parametro la web a buscar mails usar tambien avanzadas en google como estas:
inurl:contact
inurl:nosotros.php
tambien se puede usar intitle:contactenos
 o cosas asi
en los que es bastante probable encontrar mails eso seguro aumentaria bastante la lista de mails a spamear :D
En línea

buenas
Kase


Desconectado Desconectado

Mensajes: 1.288


programa bonito ¬¬


Ver Perfil WWW
Re: script para sacar emails de paginas webs [python]
« Respuesta #4 en: 30 Abril 2013, 05:27 am »


pues me refiero a que ademas de poderle pasar de parametro la web a buscar mails usar tambien avanzadas en google como estas:
inurl:contact
inurl:nosotros.php
tambien se puede usar intitle:contactenos
 o cosas asi
en los que es bastante probable encontrar mails eso seguro aumentaria bastante la lista de mails a spamear :D


pues tienes razon en eso, pero por ejemplo yo uso la araña  para solarta en una web de tematica X   de ese modo se que sus usuarios estan interesados en el tema..

quisas pueda hacer una busqueda en google por palabras algo asi como:
"palabra" @hotmail
 y luego recorrer los enlaces
asi encontraria emails de tematicas que me interesen.
En línea

flacc


Desconectado Desconectado

Mensajes: 849



Ver Perfil WWW
Re: script para sacar emails de paginas webs [python]
« Respuesta #5 en: 30 Abril 2013, 19:16 pm »

interesante, con un poco de ingenio podrías recorrer miles de webs mientras dejas el script en un servidor mandando spam xD
En línea

Eleкtro
Ex-Staff
*
Desconectado Desconectado

Mensajes: 9.708



Ver Perfil
Re: script para sacar emails de paginas webs [python]
« Respuesta #6 en: 30 Abril 2013, 20:22 pm »

@Kase

He probado esto:
Código:
Kase.py -url http://elhacker.net/

Output:
Código:
carlos@cool

Solo me devuelve un "email", ¿Eso es normal? xD

Los parámetros de maxpages y maxmails son opcionales, ¿no? (también los he probado pero obtengo lo mismo).

PD: Lo has testeado en Windows?
PD2: Si esto funciona corréctamente le pongo una chincheta.

Muy bueno.
« Última modificación: 30 Abril 2013, 20:25 pm por EleKtro H@cker » En línea


Kase


Desconectado Desconectado

Mensajes: 1.288


programa bonito ¬¬


Ver Perfil WWW
Re: script para sacar emails de paginas webs [python]
« Respuesta #7 en: 30 Abril 2013, 20:59 pm »

@Kase

He probado esto:
Código:
Kase.py -url http://elhacker.net/

Output:
Código:
carlos@cool

Solo me devuelve un "email", ¿Eso es normal? xD

Muy bueno.

lo que pasa es que la pagina del hacker solo tiene links del tipo
<a href='www.elhacker.net/enlace_interno'>  
y la expresion regular que uso solo esta preparada para buscar
<a href='/encalce_interno/'>

como veras, ahi webs que  son  inmunes a esta expresion regular..  por ejemplo ah algunas que  solo tienes el dominio y todo lo interno se maneja mediante

<a href='www.elhacker.net?get=key' >


hacer una expresion regular que contemple todas las opciones no es imposible...
pero  mi conocimiento en expresiones regulares es limitado, por eso coloque aqui el script, para ver si me ayudan a mejorarlo...



Citar
Los parámetros de maxpages y maxmails son opcionales, ¿no? (también los he probado pero obtengo lo mismo).
los parametros max_linsk, y max_emails  si son  opcionales,  los coloque por que la primera web que ataque tenia mas de 80,000 enlaces internos y tras 24 horas solo abia recorrido 40,000  xD
 


Quiero hacer un sistema completo que pueda guardar los emails en una bd  con etiquetas para saber los intereses del email.  que este mismo pueda usar la araña  y que a su vez  puedan mandar los emails  con formato  html + txt_pano  y  mandar 1 cada x segundos (programado)  para burlar filtros anti spam

y de paso que pueda tambien aceptar importaciones csv y permita mandar los emails personalizados con nombre y otros datos...


con tiempo creo poder hacerlo en 1 semana, el problema es que ando muy cortito de dinero, y debo darle prioridad a un par de webs pendientes para las que me contrataron. aun asi, les informo  si me lanzo a hacerlo en 1 semana o dos




Citar
PD: Lo has testeado en Windows?
Código
  1. os.system('clear')

esta linea es para limpiar pantalla en linux, en windows creo que es diferente..  pero con poner la correcta deberia funcionar


Citar
PD2: Si esto funciona corréctamente le pongo una chincheta.
eso seria genial :D  ojala pronto quede la version que detecte mejor los enlaces internos.

por que el sistema que unifique la recoleccion  y el envio de emails ya no es scripting, en eso usaria  objetos y un framework como django para montar toda una buena interfaz de administracion.
« Última modificación: 30 Abril 2013, 21:06 pm por Kase » En línea

Eleкtro
Ex-Staff
*
Desconectado Desconectado

Mensajes: 9.708



Ver Perfil
Re: script para sacar emails de paginas webs [python]
« Respuesta #8 en: 30 Abril 2013, 21:44 pm »

Código
  1. os.system('clear')
ups, de haberlo visto estaba claro, no me fijé en el código la verdad xD solo le he dado un par de vueltas al regex.

Sobre la parte de mejorar la dinámica de los RegEx para aceptar el tipo de urls que has comentado no debería ser muy dificil, solo tienes que usar el operador "|" y añadir una expresión más a la derecha, así se dará por válida cualquiera de las dos expresiones (si se encuentra una de las dos).

Ejemplo:
Código:
(r'^href=expresión1$|^href=expresión2$')

Puedes usarlo las veces que quieras, aunque para usar las expresiones regulares extendidas primero se necesita que el regex que usa python séa el extendido... no lo he comprobado personálmente pero vamos, es python, me imagino que debe poder aceptar esos operadores.

En el regex del Mail usas {1,4}, pero yo lo cambiaria por {2,6} ya que existen dominios de 6 caracteres: http://en.wikipedia.org/wiki/List_of_Internet_top-level_domains y por lo que véo no existe ningúno de 1 solo caracter.
(Ya... quizás solo un 0,001% de la población mundial usa esos dominios... pero así es como se consigue la perfección xD.)

Espero que tu script vaya creciendo y mejorando poco a poco para que le podamos sacar todo el beneficio posible, ¡ESO SI, SIEMPRE SIN MALAS INTENCIONES! .

EDITO: Como innovación estaría bien que en una próxima versión añadas una opción para obtener sólamente los mails que acaben en ".net",".com" etc,  a elección del usuario.

Gracias por compartir.

Un saludo!
« Última modificación: 30 Abril 2013, 21:53 pm por EleKtro H@cker » En línea


Kase


Desconectado Desconectado

Mensajes: 1.288


programa bonito ¬¬


Ver Perfil WWW
Re: script para sacar emails de paginas webs [python] [v2.0]
« Respuesta #9 en: 30 Abril 2013, 22:53 pm »

ya arregle lo de detectar mas tipos de webs

al final no lo ise con una expresion regular, por que  ahi muchas variaciones
ahora detecto todos los  href en bruto,  y luego los filtro  
si tienen el nombre de la web en la url o si empiezan con un /    se incluye como enlace interno, en su defecto se descarta

de este modo tambien resuelvo el problema de recorrer subdominios :D

Código
  1. url_web_limpio = argumento.url.replace('http://','').replace('/','').replace('www.','')
  2.  
  3.  
  4. if not argumento.external:  ## verifica si usar enlaces externos o no
  5. if link[0] == '/' or url_web_limpio in link:
  6. if link not in links_internos and link not in links_visitados:
  7. links_internos.append(link)
  8. elif  argumento.external == 'si':
  9. if link not in links_internos and link not in links_visitados:
  10. links_internos.append(link)
  11.  


ahora si EleKtro H@cker  puedes  hacer un

Citar

pero si no usar un -max_emails 500 o -max_urls 10000  el programa nunca se detendra, el hacker es inmenso!



es en estos casos cuando la idea de daryo serviria

estaria padre poder lanzar el script con un

Citar
kase.py -google 'insite:elhacker.net  @hotmail'

de tal modo que aprobechemos el indice de google para que nos devuelva las urls indexeadas del hacker donde algun usuario dejo su correo electronico

PD: ahora si debo volver al trabajo!!!   no se cuando tenga la siguiente version D:
« Última modificación: 30 Abril 2013, 22:55 pm por Kase » En línea

Páginas: [1] 2 3 Ir Arriba Respuesta Imprimir 

Ir a:  

WAP2 - Aviso Legal - Powered by SMF 1.1.21 | SMF © 2006-2008, Simple Machines