Título: script para sacar emails de paginas webs [python] [v3.0] Publicado por: Kase en 27 Abril 2013, 18:35 pm les comparto este script que realiza para sacar emails de una web usando una arañita que recorre enlaces internos...
lo comparto por si se les ocurre modificaciones poder mejorarlo repo git > https://github.com/Boredsoft/email-spider (https://github.com/Boredsoft/email-spider) ** acepta parametros -url obligatorio con formato http://somthing.com/ (la / final es necesaria) -max_links maxima cantidad de links a analizar antes de cortar el programa y guardar -max_emails maxima cantidad de emails a obtener antes de finalizar el programa y guardar -external acepta links externos, pero si no se usa junto con max_links o max_emails el programa nunca se detendra :( ** si la conexion de internet se cae el programa espera 30 segundos para reanudarse ** no se traba con enlaces muertos ** uso de "sort" para revisar enlaces con mayor probabilidad de tener email despues de cierto tiempo Citar fix 3.0 soporte para mas sistemas operativos mejor detección de emails mediante el regex fix v 2.0 ahora detecta mas tipos de urls internas ahora detecta si es windows o linux para usar el comando correcto de limpiar pantalla. Código mejoras en las que pueden ayudarme no soy muy bueno con expresiones regulares estas me funcionan en el 90 de los casos, pero derrepente tienen errores (como cuando alguien usa el @ como a/o, o no detecta urls internas si no comienzan con /) mailsrch = re.compile(r'[\w\-][\w\-\.]+@[\w\-][\w\-\.]+[a-zA-Z]{1,4}') urlssrch = re. compile(r'href=[\'"]?/([^\'" >]+)') funciones que pienso agregar a futuro ** comandos para pausar las tarea y guardar donde se quedaron ** serializar cada cierto tiempo la tarea para no perder el trabajo cuando se reinicie la computadora forzosamente ::) Título: Re: script para sacar emails de paginas webs [python] Publicado por: daryo en 28 Abril 2013, 14:40 pm yo le pondria que ademas de esto busque con dorks en google paginas que puedan tener mails
spamer ;D buen aporte jeje Título: Re: script para sacar emails de paginas webs [python] Publicado por: Kase en 29 Abril 2013, 06:01 am interesante.... explicame un poco mas la idea, y podria interesarme sacarla :D
estoy por comenzar una campaña de mailing de varias webs... mas emails a disposicion no estaria mal... para burlar los filtros antispam uso send blaster.... auke e considerado hacer todo una aplicacion yo mismo para mandar los emails y sacarlos de webs y contruir listas e base a criterios Título: Re: script para sacar emails de paginas webs [python] Publicado por: daryo en 29 Abril 2013, 21:43 pm pues me refiero a que ademas de poderle pasar de parametro la web a buscar mails usar tambien avanzadas en google como estas: inurl:contact inurl:nosotros.php tambien se puede usar intitle:contactenos o cosas asi en los que es bastante probable encontrar mails eso seguro aumentaria bastante la lista de mails a spamear :D Título: Re: script para sacar emails de paginas webs [python] Publicado por: Kase en 30 Abril 2013, 05:27 am pues me refiero a que ademas de poderle pasar de parametro la web a buscar mails usar tambien avanzadas en google como estas: inurl:contact inurl:nosotros.php tambien se puede usar intitle:contactenos o cosas asi en los que es bastante probable encontrar mails eso seguro aumentaria bastante la lista de mails a spamear :D pues tienes razon en eso, pero por ejemplo yo uso la araña para solarta en una web de tematica X de ese modo se que sus usuarios estan interesados en el tema.. quisas pueda hacer una busqueda en google por palabras algo asi como: "palabra" @hotmail y luego recorrer los enlaces asi encontraria emails de tematicas que me interesen. Título: Re: script para sacar emails de paginas webs [python] Publicado por: flacc en 30 Abril 2013, 19:16 pm interesante, con un poco de ingenio podrías recorrer miles de webs mientras dejas el script en un servidor mandando spam xD
Título: Re: script para sacar emails de paginas webs [python] Publicado por: Eleкtro en 30 Abril 2013, 20:22 pm @Kase
He probado esto: Código: Kase.py -url http://elhacker.net/ Output: Código: carlos@cool Solo me devuelve un "email", ¿Eso es normal? xD Los parámetros de maxpages y maxmails son opcionales, ¿no? (también los he probado pero obtengo lo mismo). PD: Lo has testeado en Windows? PD2: Si esto funciona corréctamente le pongo una chincheta. Muy bueno. Título: Re: script para sacar emails de paginas webs [python] Publicado por: Kase en 30 Abril 2013, 20:59 pm @Kase He probado esto: Código: Kase.py -url http://elhacker.net/ Output: Código: carlos@cool Solo me devuelve un "email", ¿Eso es normal? xD Muy bueno. lo que pasa es que la pagina del hacker solo tiene links del tipo <a href='www.elhacker.net/enlace_interno'> y la expresion regular que uso solo esta preparada para buscar <a href='/encalce_interno/'> como veras, ahi webs que son inmunes a esta expresion regular.. por ejemplo ah algunas que solo tienes el dominio y todo lo interno se maneja mediante <a href='www.elhacker.net?get=key' > hacer una expresion regular que contemple todas las opciones no es imposible... pero mi conocimiento en expresiones regulares es limitado, por eso coloque aqui el script, para ver si me ayudan a mejorarlo... Citar Los parámetros de maxpages y maxmails son opcionales, ¿no? (también los he probado pero obtengo lo mismo). los parametros max_linsk, y max_emails si son opcionales, los coloque por que la primera web que ataque tenia mas de 80,000 enlaces internos y tras 24 horas solo abia recorrido 40,000 xDQuiero hacer un sistema completo que pueda guardar los emails en una bd con etiquetas para saber los intereses del email. que este mismo pueda usar la araña y que a su vez puedan mandar los emails con formato html + txt_pano y mandar 1 cada x segundos (programado) para burlar filtros anti spam y de paso que pueda tambien aceptar importaciones csv y permita mandar los emails personalizados con nombre y otros datos... con tiempo creo poder hacerlo en 1 semana, el problema es que ando muy cortito de dinero, y debo darle prioridad a un par de webs pendientes para las que me contrataron. aun asi, les informo si me lanzo a hacerlo en 1 semana o dos Citar PD: Lo has testeado en Windows? Código
esta linea es para limpiar pantalla en linux, en windows creo que es diferente.. pero con poner la correcta deberia funcionar Citar PD2: Si esto funciona corréctamente le pongo una chincheta. eso seria genial :D ojala pronto quede la version que detecte mejor los enlaces internos. por que el sistema que unifique la recoleccion y el envio de emails ya no es scripting, en eso usaria objetos y un framework como django para montar toda una buena interfaz de administracion. Título: Re: script para sacar emails de paginas webs [python] Publicado por: Eleкtro en 30 Abril 2013, 21:44 pm Código
Sobre la parte de mejorar la dinámica de los RegEx para aceptar el tipo de urls que has comentado no debería ser muy dificil, solo tienes que usar el operador "|" y añadir una expresión más a la derecha, así se dará por válida cualquiera de las dos expresiones (si se encuentra una de las dos). Ejemplo: Código: (r'^href=expresión1$|^href=expresión2$') Puedes usarlo las veces que quieras, aunque para usar las expresiones regulares extendidas primero se necesita que el regex que usa python séa el extendido... no lo he comprobado personálmente pero vamos, es python, me imagino que debe poder aceptar esos operadores. En el regex del Mail usas {1,4}, pero yo lo cambiaria por {2,6} ya que existen dominios de 6 caracteres: http://en.wikipedia.org/wiki/List_of_Internet_top-level_domains y por lo que véo no existe ningúno de 1 solo caracter. (Ya... quizás solo un 0,001% de la población mundial usa esos dominios... pero así es como se consigue la perfección xD.) Espero que tu script vaya creciendo y mejorando poco a poco para que le podamos sacar todo el beneficio posible, ¡ESO SI, SIEMPRE SIN MALAS INTENCIONES! . EDITO: Como innovación estaría bien que en una próxima versión añadas una opción para obtener sólamente los mails que acaben en ".net",".com" etc, a elección del usuario. Gracias por compartir. Un saludo! Título: Re: script para sacar emails de paginas webs [python] [v2.0] Publicado por: Kase en 30 Abril 2013, 22:53 pm ya arregle lo de detectar mas tipos de webs
al final no lo ise con una expresion regular, por que ahi muchas variaciones ahora detecto todos los href en bruto, y luego los filtro si tienen el nombre de la web en la url o si empiezan con un / se incluye como enlace interno, en su defecto se descarta de este modo tambien resuelvo el problema de recorrer subdominios :D Código
ahora si EleKtro H@cker puedes hacer un Citar Kase.py -url http://elhacker.net/ pero si no usar un -max_emails 500 o -max_urls 10000 el programa nunca se detendra, el hacker es inmenso! es en estos casos cuando la idea de daryo serviria estaria padre poder lanzar el script con un Citar kase.py -google 'insite:elhacker.net @hotmail' de tal modo que aprobechemos el indice de google para que nos devuelva las urls indexeadas del hacker donde algun usuario dejo su correo electronico PD: ahora si debo volver al trabajo!!! no se cuando tenga la siguiente version D: Título: Re: script para sacar emails de paginas webs [python] [v2.0] Publicado por: The_Mushrr00m en 1 Mayo 2013, 06:16 am Que buen aporte bro.
Se mira bien.... le daré una leida a ver si se me ocurre alguna idea para expandirlo Saludos..! :P Título: Re: script para sacar emails de paginas webs [python] [v2.0] Publicado por: Eleкtro en 1 Mayo 2013, 12:36 pm La condicional donde detectas si es Win o Linux da error de sintaxis (al menos en py 2.7), mira a ver si lo puedes arreglar...
De paso te la extiendo por si quieres añadir más OS: Código
PD: No estoy seguro si el comando de MACOS es el correcto, lo he googleado un poco. Saludos Título: Re: script para sacar emails de paginas webs [python] [v2.0] Publicado por: Eleкtro en 1 Mayo 2013, 18:01 pm Tal y como tienes ahora mismo el regex del email, no acepta este tipo de emails (debería):
Código: "elektro69#@maniac.com" Pero estos si los acepta (no debería): Código: "..elektro..@maniac.com" Lo mismo con el resto de caracteres especiales válidos para un email, no los acepta según el orden en el que estén. He optimizado bastante el regex del email, mira a ver si puedes usarlo en python: Código: "^(?=.{1,254}$)[^\.]([\w-\!\#\$\%\&\'\*\+\-\/\=\`\{\|\}\~\?\^]+)([\.]{0,1})([\w-\!\#\$\%\&\'\*\+\-\/\=\`\{\|\}\~\?\^]+)[^\.]@((\[[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.)|(([\w-]+\.)+))([a-zA-Z]{2,6}|[0-9]{1,3})(\]?)$" La parte local cumple todos estos requisitos: Citar The local-part of the e-mail address may use any of these ASCII characters: Uppercase and lowercase English letters (a-z, A-Z) Digits 0 to 9 Characters ! # $ % & ' * + - / = ? ^ _ ` { | } ~ Character . (dot, period, full stop) provided that it is not the first or last character, and provided also that it does not appear two or more times consecutively. PD: también la detección de 2 puntos en la parte local: "a.b.c@hotmail.com" Lo de sólo letras inglesas me lo he saltado porque juraría haber visto emails con la C trencada "Ç" y digo yo que los chinos, egipcios, etc... no usarán letras inglesas para sus emails. La parte del dominio no la he exprimido del todo, aún tengo que informarme sobre los detalles, pero acepta por ejemplo "user@blabla.com.edu" y "user@blabla.museum", así que por el momento funciona genial el regex. He actualizado el RegEx para que solo encuentre cadenas de menos de hasta 254 caracteres. Un saludo! Título: Re: script para sacar emails de paginas webs [python] [v2.0] Publicado por: Kase en 1 Mayo 2013, 20:29 pm sorprendente! me estas enctuciasmando a llebar esto mas alla del simple script y convertirlo en un sistema... en unas horas actualizo con calma :D
Título: Re: script para sacar emails de paginas webs [python] [v2.0] Publicado por: #!drvy en 2 Mayo 2013, 03:17 am Hola,
Sabiais que Código: asdasd@64.233.161.83 Es un correo valido ? xD Lo propongo como idea nada mas.. lo mismo pasa con las direcciones IPv6 pero esas no las admite ni gmail xD Saludos Título: Re: script para sacar emails de paginas webs [python] [v2.0] Publicado por: Eleкtro en 2 Mayo 2013, 06:35 am pues yo no lo sabia xD y para nada me parece trolleamiento que nos aclares esas cosas.
estaría bien que aportases más datos al tema si ves que nos hemos saltado algún otro detalle como el que has comentado, para hacer el regex perfecto. ..como por ejemplo saber el límite de "Second-level and lower level domains" de un email, si es que hubiera algún límite (sin tener en cuenta el límite de caracteres de un email). Bueno, un saludo! Título: Re: script para sacar emails de paginas webs [python] [v2.0] Publicado por: #!drvy en 2 Mayo 2013, 07:05 am Técnicamente puede haber hasta 127 sub niveles de dominio. Osease, w.w.w.w.w.w.w.w.w.w.w.w.w.w.w.w.w.w.w.w.w.w.w.w.w.w.w.w.w.........com xD
En ningún caso, el dominio (completo) puede exceder los 253 caracteres y los nombres de los "sub-dominios" no pueden exceder de los 63. Esto significa básicamente que en: parte3.parte2.com, parte3 o parte2 no pueden exceder de los 63 caracteres. Mas info aquí: 2.3.4. Size limits http://tools.ietf.org/html/rfc1035 PD: El dominio mas largo del mundo xD http://www.thelongestdomainnameintheworldandthensomeandthensomemoreandmore.com/ http://www.thelongestlistofthelongeststuffatthelongestdomainnameatlonglast.com Son iguales de longitud (63 caracteres) pasa que este tipo de fuente... no es monospace xD Básicamente (según mis cálculos) lo que quiere decir esto es que en un correo (nombre@dominio.com) el nombre no debería de exceder los 63~64 caracteres para que se adapte a cualquier dominio. Y si queréis una cuenta email con un dominio largo.. abcdefghijklmnopqrstuvwxyzabcdefghijklmnopqrstuvwxyzabcdefghijk.com ofrece cuentas gratuitas xD Saludos Título: Re: script para sacar emails de paginas webs [python] [v3.0] Publicado por: Kase en 2 Mayo 2013, 08:31 am Citar "^(?=.{1,254}$)[^\.]([\w-\!\#\$\%\&\'\*\+\-\/\=\`\{\|\}\~\?\^]+)([\.]{0,1})([\w-\!\#\$\%\&\'\*\+\-\/\=\`\{\|\}\~\?\^]+)[^\.]@((\[[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.)|(([\w-]+\.)+))([a-zA-Z]{2,6}|[0-9]{1,3})(\]?)$" no me a servido xD no se por que, pero marca error... y por mas que le busco y le busco, no lo logro.. pero esta otra si funciono Código
y en otras noticias, estuve trasteando el codigo html de google ala par que la api de custom search... la api es una basura diseñada para no explotarse conestos fines u__u pero el codigo html no... el chiste es desactiva el javascript, pero al pedir la web mediante python automaticamente la sirve preparada para no usar javascript entonces nos encontramos con que la url victima viene en formato Citar <a href="/url?q=http://www.elhacker.net/&sa=U&ei=JQeCUdz3DoK49QSYvoDAAQ&ved=0CCEQFjAA&usg=AFQjCNE8PCIInwOQ84p63ylCDShXtjtiAA"> quisas una expresion regular pueda identificar los links /url? y extraer de los parametros get la web a la que se quiera atacar... nuevamente mi conocimiento es bajo en expresiones regulares u__u aun asi espero hacer un script alterno al cual se le puedan pasar parametros de busqueda de google... asiendo este script, me lanzo a hacer el sistema mas completo xD Título: Re: script para sacar emails de paginas webs [python] [v3.0] Publicado por: Kase en 22 Julio 2013, 05:41 am porcierto aqui esta el que hace busquedas en google :3
no esta terminado, por que google te banea aveces.. xD pero igual a alguien le interesa. Código
Título: Re: script para sacar emails de paginas webs [python] [v3.0] Publicado por: binario010101 en 7 Agosto 2013, 20:18 pm hola amigo
estoy interesado en el tema pero no se como usar el codigo me puedes explicar? gracias Título: Re: script para sacar emails de paginas webs [python] [v3.0] Publicado por: zimmerman en 8 Octubre 2013, 13:55 pm Estaría más bueno todavía, si también se pudiera con paginas con dominio no http.. Algo asi como..
martasicaria.designweb.edu.ar <--- SÓLO UN EJEMPLO, ESA PAGINA NO EXISTE.. No se si han entendido a lo que me refería.. Vamos a seguir aportando a ver si logramos un SUPER-SYSTEM! Título: Re: script para sacar emails de paginas webs [python] [v3.0] Publicado por: Afterlife en 25 Febrero 2014, 14:54 pm Hola buenas, perdón por resucitar el hilo, pero necesito este script :P.
Estoy usándolo en Ubuntu 12.04 LTS y cuando uso el parámetro max_emails, y encuentra un email no lo muestra por pantalla. ¿Alguien sabe porqué? EDIT: Por ejemplo si pongo -url http://victima.net -max_emails 1 no me muestra nada por pantalla, cuando debería mostrarme el primer email que encuentre. ¿No?. Un saludo. |