Tengo una colección de libros en pdf que contienen unas marcas de agua que consisten en ciertas líneas de texto que contienen el copyright, marca de la empresa donde fueron descargados, usuario y la hora en que fueron descargados. Al hacer cambios en el acrobat pro, desaparecen esas "marcas de agua" sin embargo cuando se revisa el código a nivel hexadecimal el texto ahí permanece. Por otro lado, al descomprimir el pdf, cambiarle la extensión a .txt reescribir el texto (aunque sea el mismo numero de carecteres), corrompe el pdf.
Experimentando un poco, noté que simplemente al reescribir la cadena hexadecimal con espacios (hex=20) de las marcas de agua es suficiente para que desaparezca del documento sin ningún rastro de lo que había escrito y sin corromper el pdf. Pero tengo las siguientes dudas:
Dado que tengo que repetir el proceso con +20.000 documentos y como es tedioso a mano,
¿Existe la manera de hacer un script ya sea bash, powershell o algun programa que reemplace una o unas cadenas en formato hexadecimal?
¿Sería posible que dado un valor inicial de caracteres se reemplace ese texto + 10 caracteres más para adelante (para borrar las marcas de agua que son variables como fecha/hora de descarga)?
Os comento que en los ficheros en cuestión, las marcas de agua se encuentran en direcciones diferentes (depende del pdf). Os adjunto este ejemplo de muestra de como se ven las marcas de agua y donde podrían ubicarse.
Los direcciones de los offsets de este pdf se encuentran (revisenlo con cualquier editor hex):
https://mega.nz/#!b0lQCZqa!BRa3GPTA8yX9t_0f_Ln1rNH8SdXFCo4t92lV4DRNTQI
Código:
1270
1460
1650
19F0
0F10
Ayuda chicos por favor!
Saludos