elhacker.net cabecera Bienvenido(a), Visitante. Por favor Ingresar o Registrarse
¿Perdiste tu email de activación?.


 


Tema destacado: ¿Eres nuevo? ¿Tienes dudas acerca del funcionamiento de la comunidad? Lee las Reglas Generales


+  Foro de elhacker.net
|-+  Seguridad Informática
| |-+  Hacking Ético
| | |-+  Hacking Básico (Moderadores: zhyzura, toxeek)
| | | |-+  Ingreso masivo a muchas webs
0 Usuarios y 1 Visitante están viendo este tema.
Páginas: [1] Ir Abajo Respuesta Imprimir
Autor Tema: Ingreso masivo a muchas webs  (Leído 985 veces)
natko

Desconectado Desconectado

Mensajes: 6


Ver Perfil
Ingreso masivo a muchas webs
« en: 22 Octubre 2016, 19:43 »

Hola a todos, soy nuevo en el foro :D

Primeramente quiero aclarar que no se si este tema se debe incluir aquí.. ya que también puede tener que ver con la programación..

Mi problema es el siguiente, yo tengo documento de texto que guarda 90mil links. Todos los links son del mismo sitio web, pero de distintos sectores de ese sitio web. De estos 90mil solo un link es correcto, los otros restantes dan error 404 ya que esa dirección del sitio web no existe.
Busqué pero no encontré ningún programa.. no se como se llama tampoco este tipo de programas :p

Lo que hice fue hacer un programa con python utilizando la librería 'urllib2' en python 2.7. El problema de este programa es que tarda demasiado, y no es por una limitación de internet que tarde, sino por un limitación del algoritmo (la librería). Aproximadamente tardaba 24hs para las 90mil links.. aunque claro, esto como máximo, ya que si lo encontrase antes pararía.

Luego probé con otra librería (descargada) llamada 'concurrent', también en python 2.7.. Este si va mas rápido. Aunque tengo un problema que cada 500 links probados el internet se corta unos pocos minutos y se generan algunos timeouts (estos links que devolvieron de error timeout se guardan en otro documento de texto para probarlos luego).. finalmente contando ese retraso los 90mil links tardarían como máximo 12hs..

Ahora mi pregunta final es, alguien conoce otra librería en python o algún lenguaje que pueda hacerlo mas rápido, o aún mejor un programa ya hecho que haga todo esto?

Desde ya gracias por las respuestas!

Saludos!
En línea

engel lex
CoAdmin
***
Desconectado Desconectado

Mensajes: 15.347



Ver Perfil
Re: Ingreso masivo a muchas webs
« Respuesta #1 en: 22 Octubre 2016, 19:47 »

con urlib puedes hacerlo usando threads... eso si, si la pagina tiene la minima protección espera que te prohiba conectarte por un rato ya que te detectará como un intento de DoS (probablemente esas "casidas de conexión y timeouts que dices)

yo recomendaría usar threads y mantener 10 o 20 conexiones simultaneas... aunque igual 90k links va a tardar tiempo...
En línea

El problema con la sociedad actualmente radica en que todos creen que tienen el derecho de tener una opinión, y que esa opinión sea validada por todos, cuando lo correcto es que todos tengan derecho a una opinión, siempre y cuando esa opinión pueda ser ignorada, cuestionada, e incluso ser sujeta a burla, particularmente cuando no tiene sentido alguno.
Poyoncio

Desconectado Desconectado

Mensajes: 220



Ver Perfil WWW
Re: Ingreso masivo a muchas webs
« Respuesta #2 en: 22 Octubre 2016, 19:58 »

No entiendo como te puede tardar 24 h 90mil links, yo hice algo similar y en una hora indexaba 300.000, aunque claro depende bastante de la pagina... Como ya te han dicho, urrlib para eso te puede funcionar perfectamente, si quieres mejorar los tiempos que tienes ahora, te recomiendo que utilizes varios threads, pero no los estandar, sino otras librerias que hay en github, es question de buscar
En línea

Curso de ensamblador desde cero
natko

Desconectado Desconectado

Mensajes: 6


Ver Perfil
Re: Ingreso masivo a muchas webs
« Respuesta #3 en: 22 Octubre 2016, 22:51 »

Ya logre hacer que tarde 30 minutos!

Muchas gracias a ambosss

Saludos!
En línea

Páginas: [1] Ir Arriba Respuesta Imprimir 

Ir a:  

Mensajes similares
Asunto Iniciado por Respuestas Vistas Último mensaje
Cierre masivo de webs de enlaces a descargas en protesta contra la 'Ley Sinde'
Noticias
T0rete 2 2,035 Último mensaje 19 Diciembre 2010, 22:18
por do-while
Riesgos de muchas redes sociales y webs de citas y contactos
Noticias
wolfbcn 0 1,883 Último mensaje 19 Junio 2011, 02:26
por wolfbcn
Un ataque DNS masivo afecta a webs de importantes empresas
Noticias
wolfbcn 0 1,132 Último mensaje 5 Septiembre 2011, 20:59
por wolfbcn
ingreso en fc
Dudas Generales
Sevilla6 8 1,418 Último mensaje 7 Agosto 2015, 17:46
por cholo89
Aviso Legal - Powered by SMF 1.1.21 | SMF © 2006-2008, Simple Machines