Foro de elhacker.net

Programación => Scripting => Mensaje iniciado por: Ali Baba en 28 Junio 2018, 00:20 am



Título: Google y los web spiders navegando por internet?
Publicado por: Ali Baba en 28 Junio 2018, 00:20 am
Como es que los web spiders de google navegan por internet?


Título: Re: Google y los web spiders navegando por internet?
Publicado por: #!drvy en 28 Junio 2018, 00:34 am
El propio Google sabría responderte.

Todo se reduce a seguir enlaces. De un enlace a otro. Por eso, las paginas que no están enlazadas, o las metes tu manualmente (Google Webmasters por ejemplo) o no aparecen en Google. Por supuesto tambien hay otras tecnicas minoritarias, incluso podrías recorrer todo el rango de IPv4 (sigue siendo el más popular en servidores) buscando un servicio httpd en el 80 o el 443.

Saludos


Título: Re: Google y los web spiders navegando por internet?
Publicado por: Ali Baba en 28 Junio 2018, 01:22 am
El propio Google sabría responderte.

Todo se reduce a seguir enlaces. De un enlace a otro. Por eso, las paginas que no están enlazadas, o las metes tu manualmente (Google Webmasters por ejemplo) o no aparecen en Google. Por supuesto tambien hay otras tecnicas minoritarias, incluso podrías recorrer todo el rango de IPv4 (sigue siendo el más popular en servidores) buscando un servicio httpd en el 80 o el 443.

Saludos

Sinceramente eres un Dios, el del rango de IP se me facilita mucho, porque quiero crear un web spider para servidores ubicados en Cuba, y como hay muy pocas IP por alla pues conozco el rango de casi todas y va a ser facil ubicarlas, pero ahora me pregunto, se puede hacer con php? no estoy muy diestro con php.


Título: Re: Google y los web spiders navegando por internet?
Publicado por: engel lex en 28 Junio 2018, 01:26 am
Sinceramente eres un Dios, el del rango de IP se me facilita mucho, porque quiero crear un web spider para servidores ubicados en Cuba, y como hay muy pocas IP por alla pues conozco el rango de casi todas y va a ser facil ubicarlas, pero ahora me pregunto, se puede hacer con php? no estoy muy diestro con php.

las ip no siempre te darán paginas aunque hayan configuradas en ellas, el nombre de host en necesario muchas veces... por otro lado tambien hay posiblidad que muchas estén tras cluodflare, lo que haría el escaneo por ip inutil


Título: Re: Google y los web spiders navegando por internet?
Publicado por: Ali Baba en 28 Junio 2018, 01:34 am
las ip no siempre te darán paginas aunque hayan configuradas en ellas, el nombre de host en necesario muchas veces... por otro lado tambien hay posiblidad que muchas estén tras cluodflare, lo que haría el escaneo por ip inutil

Me salve por ese lado, Cuba no suele usar servicios como cloudflare. Pero si puedo conseguir el nombre de host de por ejemplo la pagina oficial de salud publica en Cuba http://www.sld.cu entonces puedo hacer un rastreo enlace por enlace, ya que casi todas las paginas de salud publica estan enlazadas ¿Voy bien?


Título: Re: Google y los web spiders navegando por internet?
Publicado por: #!drvy en 28 Junio 2018, 01:34 am
El problema de escanear las IP's directamente, aparte de lo que menciona @engel lex, es que un servidor podría alojar varios dominios.

Por otro lado, no estoy muy seguro de que Cuba use CloudFlare o algún CDN que no sea Cubano.. ya sabes, eso de la censura y tal xD

Citar
¿Voy bien?

Si, de hecho Google te podria hacer un flaco favor y que tengas una buena base para empezar a "crawlear"

https://www.google.es/search?q=site%3A.cu&oq=site%3A.cu&aqs=chrome..69i57j69i58.2471j0j7&sourceid=chrome&ie=UTF-8

Ahí tienes todos los dominios .cu que Google tiene indexeados.

Saludos


Título: Re: Google y los web spiders navegando por internet?
Publicado por: Ali Baba en 28 Junio 2018, 01:47 am
El problema de escanear las IP's directamente, aparte de lo que menciona @engel lex, es que un servidor podría alojar varios dominios.

Por otro lado, no estoy muy seguro de que Cuba use CloudFlare o algún CDN que no sea Cubano.. ya sabes, eso de la censura y tal xD

Si, de hecho Google te podria hacer un flaco favor y que tengas una buena base para empezar a "crawlear"

https://www.google.es/search?q=site%3A.cu&oq=site%3A.cu&aqs=chrome..69i57j69i58.2471j0j7&sourceid=chrome&ie=UTF-8

Ahí tienes todos los dominios .cu que Google tiene indexeados.

Saludos

Ahora que está la moda de que puedes alquilar un dominio y hosting en Cuba, quiero un buscador pero que solo muestre páginas cubanas. Y pues nada, espero poder hacerlo con php, para que sea un script el que indexe las páginas y no tener que hacerlo todo manualmente. Si tiene alguna sugerencia no dude en decirme.


Título: Re: Google y los web spiders navegando por internet?
Publicado por: engel lex en 28 Junio 2018, 01:50 am
has fuerza bruta a multiple dns buscando dominios .cu XD


Título: Re: Google y los web spiders navegando por internet?
Publicado por: Ali Baba en 28 Junio 2018, 02:34 am
has fuerza bruta a multiple dns buscando dominios .cu XD

Lo que no comprendo ahorita mismo es como esos webspider simulan una conexión HTTP. Porque para entender las web con conocimientos de html y js no es nada dificil, se extrae el contenido fácilmente, pero la conexión, con php? He buscado en google y no doy con la maraca, como tengo que buscar?