Autor
|
Tema: Google y los web spiders navegando por internet? (Leído 5,079 veces)
|
Ali Baba
|
Como es que los web spiders de google navegan por internet?
|
|
|
En línea
|
|
|
|
#!drvy
|
El propio Google sabría responderte.
Todo se reduce a seguir enlaces. De un enlace a otro. Por eso, las paginas que no están enlazadas, o las metes tu manualmente (Google Webmasters por ejemplo) o no aparecen en Google. Por supuesto tambien hay otras tecnicas minoritarias, incluso podrías recorrer todo el rango de IPv4 (sigue siendo el más popular en servidores) buscando un servicio httpd en el 80 o el 443.
Saludos
|
|
|
En línea
|
|
|
|
Ali Baba
|
El propio Google sabría responderte.
Todo se reduce a seguir enlaces. De un enlace a otro. Por eso, las paginas que no están enlazadas, o las metes tu manualmente (Google Webmasters por ejemplo) o no aparecen en Google. Por supuesto tambien hay otras tecnicas minoritarias, incluso podrías recorrer todo el rango de IPv4 (sigue siendo el más popular en servidores) buscando un servicio httpd en el 80 o el 443.
Saludos
Sinceramente eres un Dios, el del rango de IP se me facilita mucho, porque quiero crear un web spider para servidores ubicados en Cuba, y como hay muy pocas IP por alla pues conozco el rango de casi todas y va a ser facil ubicarlas, pero ahora me pregunto, se puede hacer con php? no estoy muy diestro con php.
|
|
|
En línea
|
|
|
|
engel lex
|
Sinceramente eres un Dios, el del rango de IP se me facilita mucho, porque quiero crear un web spider para servidores ubicados en Cuba, y como hay muy pocas IP por alla pues conozco el rango de casi todas y va a ser facil ubicarlas, pero ahora me pregunto, se puede hacer con php? no estoy muy diestro con php.
las ip no siempre te darán paginas aunque hayan configuradas en ellas, el nombre de host en necesario muchas veces... por otro lado tambien hay posiblidad que muchas estén tras cluodflare, lo que haría el escaneo por ip inutil
|
|
|
En línea
|
El problema con la sociedad actualmente radica en que todos creen que tienen el derecho de tener una opinión, y que esa opinión sea validada por todos, cuando lo correcto es que todos tengan derecho a una opinión, siempre y cuando esa opinión pueda ser ignorada, cuestionada, e incluso ser sujeta a burla, particularmente cuando no tiene sentido alguno.
|
|
|
Ali Baba
|
las ip no siempre te darán paginas aunque hayan configuradas en ellas, el nombre de host en necesario muchas veces... por otro lado tambien hay posiblidad que muchas estén tras cluodflare, lo que haría el escaneo por ip inutil
Me salve por ese lado, Cuba no suele usar servicios como cloudflare. Pero si puedo conseguir el nombre de host de por ejemplo la pagina oficial de salud publica en Cuba http://www.sld.cu entonces puedo hacer un rastreo enlace por enlace, ya que casi todas las paginas de salud publica estan enlazadas ¿Voy bien?
|
|
|
En línea
|
|
|
|
#!drvy
|
El problema de escanear las IP's directamente, aparte de lo que menciona @engel lex, es que un servidor podría alojar varios dominios. Por otro lado, no estoy muy seguro de que Cuba use CloudFlare o algún CDN que no sea Cubano.. ya sabes, eso de la censura y tal xD ¿Voy bien? Si, de hecho Google te podria hacer un flaco favor y que tengas una buena base para empezar a "crawlear" https://www.google.es/search?q=site%3A.cu&oq=site%3A.cu&aqs=chrome..69i57j69i58.2471j0j7&sourceid=chrome&ie=UTF-8Ahí tienes todos los dominios .cu que Google tiene indexeados. Saludos
|
|
« Última modificación: 28 Junio 2018, 01:36 am por #!drvy »
|
En línea
|
|
|
|
Ali Baba
|
Ahora que está la moda de que puedes alquilar un dominio y hosting en Cuba, quiero un buscador pero que solo muestre páginas cubanas. Y pues nada, espero poder hacerlo con php, para que sea un script el que indexe las páginas y no tener que hacerlo todo manualmente. Si tiene alguna sugerencia no dude en decirme.
|
|
|
En línea
|
|
|
|
engel lex
|
has fuerza bruta a multiple dns buscando dominios .cu XD
|
|
|
En línea
|
El problema con la sociedad actualmente radica en que todos creen que tienen el derecho de tener una opinión, y que esa opinión sea validada por todos, cuando lo correcto es que todos tengan derecho a una opinión, siempre y cuando esa opinión pueda ser ignorada, cuestionada, e incluso ser sujeta a burla, particularmente cuando no tiene sentido alguno.
|
|
|
Ali Baba
|
has fuerza bruta a multiple dns buscando dominios .cu XD
Lo que no comprendo ahorita mismo es como esos webspider simulan una conexión HTTP. Porque para entender las web con conocimientos de html y js no es nada dificil, se extrae el contenido fácilmente, pero la conexión, con php? He buscado en google y no doy con la maraca, como tengo que buscar?
|
|
|
En línea
|
|
|
|
|
|