Varias questiones acerca de crawling. No tengo idea del tema. Voy a intentar organizar bien las preguntas y contexto para no hacer sharing de mi cacao mental...
Cómo puedo detectar automáticamente si el sitio es crawling/scraping-friendly?
Se suele indicar en algún sitio de forma frecuente?
Me acuerdo de hace tiempo que iba a usar un crawler junto a un bot en este foro y leí por las normas del sitio que no estaba permitido. No sé ni en donde xD. No sabía ni que se solía prohibir esta actividad.
Básicamente como sé si se permite o no, o si voy a tener problemas xD? Me gustaría abrirle la puerta al crawler para que salga a pasear por ahí como quien suelta un perro y le trae trufas. Jejeje.
Básicamente quiero usar el crawler principalmente para descargar contenido del sitio y de links apuntados por el sitio mientras me hecho la siesta o salgo de casa, desde el android, por eso del límite de velocidad de los datos e ir generando caché para cargar más rápido los sitios o poder verlos offline o no, obtener data para analisis...
Quiero programarlo a mano solo con javascript con la idea en mente de ejecutarlo directamente en el navegador pero no quiero usar ninguna tecnología que use node.js porque no puedo usarlo en X dispositivos y no quiero usar hosting de ningún tipo.
Entonces como me salto la politica de origen de un sitio random?
No quiero instalar extensiones de terceros.
Podría hacer yo una extensión para el navegador (chrome, mozilla) para saltarme la política con javascript vanilla?
Nunca hice una y ni idea de como va el tema, si teneis info dpm.
O me recomendais algún navegador headless directamente y de fiar para Android que no use node.js Aunque no tengo claro que me sirva para hacer lo que necesito.
Porque también quiero usar el crawler conjuntamente con un modulo que se coloca en local para interceptar y modificar respuestas http a páginas http only con javascript para crawlear páginas de acceso al router y obtener la pass. (No pregunteis porque quiero crawlear la página del router a parte de sacar la pass xD)
Ahí también tengo problemas con la politica del mismo origen pero al estar en local y poder embeber la página con un iframe, tras interceptar la respuesta y eliminar la parte de la cabecera que hace Deny en X-frame antes de forward no tengo problema para crawlear en local no?
El iframe me sirve tambien para que el crawler obtenga todo el contenido de la web o al estar en un iframe o no se puede? (No tengo ni idea.)
Y sin poder interceptar las respuestas alguna alternativa para no tener que usar el script del server? Me crashea mucho, es una patata.
Estoy resumiendo todo mucho y estoy bastante perdido con algunas cosas más.