Hola, hago público un script que hice en php para barrer direcciones IP que hacen solicitudes http a un sitio web sin que este haga solicitudes a archivos estáticos como hojas de estilo.
Normalmente si una persona entra a un sitio con un navegador web este cargará el sitio mas las imagenes, etc, pero si tiene repetidos accesos sin acceder a las imagenes es porque es un bot... lo detecta y lo banea a través de un htaccess (se puede eliminar o modificar esta funcionalidad).
El script funciona dandole la ruta del log de acceso de un log común de apache, no importa el tamaño porque no carga todo en variables sino que procesa linea por linea liberando el buffer del puntero vía fopen.
https://gist.github.com/WHK102/8e147473622f30fddd52c7f1cd85806b
Saludos.