elhacker.net cabecera Bienvenido(a), Visitante. Por favor Ingresar o Registrarse
¿Perdiste tu email de activación?.

 

 


Tema destacado: Introducción a Git (Primera Parte)


+  Foro de elhacker.net
|-+  Programación
| |-+  Scripting
| | |-+  Python - Algoritmo de compresión
0 Usuarios y 1 Visitante están viendo este tema.
Páginas: [1] Ir Abajo Respuesta Imprimir
Autor Tema: Python - Algoritmo de compresión  (Leído 10,760 veces)
h0oke


Desconectado Desconectado

Mensajes: 2.059


Coder ~


Ver Perfil WWW
Python - Algoritmo de compresión
« en: 15 Noviembre 2009, 01:40 am »

Citar
El algoritmo de compresión lz77 pertenece a la familia de compresores sin pérdida, también llamados compresores de texto, a los cuales se les llama así porque no omiten información del archivo al comprimirlo, al contrario que los compresores que utilizan algoritmos del tipo lossy, que omiten algo de información pero que disminuyen considerablemente el tamaño del archivo original, el cual es el caso de los archivos MP3, MPG, jpeg, etc.
Los compresores basados en algoritmos sin pérdida se utilizan cuando la información a comprimir es crítica y no se puede perder información, por ejemplo en los archivos ejecutables, tablas de bases de datos, o cualquier tipo de información que no admita pérdida.

El modelo lz77 es muy usado porque es fácil de implementar y es bastante eficiente.

En 1977 Abraham Lempel y Jacob Ziv presentaron su modelo de compresión basado en diccionario, para compresión de texto –compresión de texto se refiere a compresión sin pérdida para cualquier tipo de datos–. Hasta la fecha todos los algoritmos de compresión desarrollados eran básicamente compresores estáticos. El nuevo modelo fue llamado lz77 (por razones obvias). La salida consistía siempre en desplazamientos o corrimientos y tamaños del texto visto anteriormente. También se incluía en la salida el siguiente byte después de una coincidencia, porque el contexto (últimos bytes vistos) de este byte es la frase, y si no era parte de la frase (la coincidencia), luego tal vez no se había comprimido, así que, ¿Para que desperdiciar tiempo tratando de encontrar una coincidencia (o espacio) para él?

En 1982 James Storer y Thomas Szymanski basados en el trabajo de Lempel y Ziv, presentaron su modelo, el lzss. La diferencia principal es en la salida, lz77 siempre daba un para desplazamiento/tamaño, aún si la coincidencia era de un solo byte (en cuyo caso usaban más de ocho bits para representar un byte) de manera que el LZSS usa otro truco para mejorarlo: usa banderas (flags), que ocupan un solo bit y nos informan de lo que viene luego: una literal o un par desplazamiento/tamaño y este algoritmo es el que actualmente usamos, pero el lzss es comúnmente llamado lz77, así que lo llamaremos lz77 de este punto en adelante, pero es importante recordar que también puede ser llamado LZSS. LZSS también puede usar árboles binarios o árboles de sufijos para hacer búsquedas más eficientes.

La teoría es muy simple e intuitiva. Cuando se haya una coincidencia (también llamada frase o conjunto de bytes que ya han sido vistos en el archivo de entrada) en lugar de escribir dichos bytes se escribe el desplazamiento o tamaño de la repetición: dónde está y su longitud.

Éste es un modelo basado en diccionario, porque se mantiene un diccionario (que en este caso se conoce como “Ventana Corrediza”) y se hace referencia a ella con pares desplazamiento/tamaño. Esta versión de lz77, usa una ventana corrediza, la cual tiene un tamaño máximo, de manera que la ventana no puede ser el archivo completo, en su lugar, la ventana corrediza mantiene los últimos bytes “vistos”.

Imaginemos que estamos comprimiendo el texto “ab ab”, leemos hasta “ab ” y lo escribimos sin comprimir, luego leemos “ab” y escribimos lo siguiente: con el “desplazamiento” de 0 se halló una coincidencia de dos bytes repetidos.

Bien, aqui la implementación en python:

Compresor :

Código
  1. #Autor: determx
  2. #Fecha: 14/11/2009
  3. #Version : 1.0.0
  4. import os
  5. import string
  6.  
  7. #Funcion que devuelve el archivo de texto en una lista
  8. def Leer_Fichero(Ruta):
  9.    if os.path.exists(Ruta):
  10.        archivo = open(Ruta)
  11.        datos = []
  12.        for linea in archivo:
  13.            datos.append(linea)
  14.        archivo.close()
  15.        return datos
  16.  
  17. #Funcion para escribir texto comprimido en archivo
  18. def Escribe_Fichero(Ruta,Texto,lInsp,lMem):
  19.    archivo = open(Ruta,"w")
  20.    archivo.write(str(lInsp) + '\n')
  21.    archivo.write(str(lMem) + '\n')
  22.    archivo.write(Texto)
  23.    archivo.close()
  24.  
  25. #Function para codificar
  26. def _encode(prim,cnt):
  27.    aux = '(' + str(hex(prim))[2:] + ',' + str(hex(cnt))[2:] + ')'
  28.    return aux
  29.  
  30. #Cadena con espacios
  31. def _blancos(Cad,Cantidad):
  32.    Cad = Cad + " " * Cantidad
  33.    return Cad
  34.  
  35. #Inserta blancos al frente
  36. def _fblancos(Cad,Cantidad):
  37.    Cad = " " * Cantidad + Cad
  38.    return Cad
  39.  
  40. #Mueve caracteres a la ventana de inspeccion
  41. def _toshift(Vdel,Vins,cantidad):
  42.    Vins = Vins[cantidad:] + Vdel[:cantidad]
  43.    Vdel = Vdel[cantidad:]
  44.    return Vdel,Vins
  45.  
  46. #Funcion para buscar coincidencias
  47. def _matches(mem,insp):
  48.    while insp != '':
  49.        pos = string.find(mem,insp)
  50.        if pos != -1:
  51.    break
  52. else:
  53.    insp = insp[:-1]
  54.    return pos,len(insp)
  55.  
  56. #Funcion que devuelve un texto comprimido
  57. def Comprimir(Texto,TamInsp,TamMem):
  58.    V_Mem = ''
  59.    V_Insp = ''
  60.    V_Mem = _blancos(V_Mem,TamMem)
  61.    V_Insp = _blancos(V_Insp,TamInsp)
  62.    Comprimido = [] #Array donde junto el texto a guardar
  63.    for L in Texto:
  64. cant = len(L)
  65. cont = 1
  66. shcant = cont
  67.        L_Comp = "" #Linea a comprimir
  68.        L, V_Insp = _toshift(L,V_Insp,szInsp)#Inicializo mi ventana insp  
  69. L = _blancos(L,szInsp)
  70.        while cont < cant:
  71.            inicio,fin = _matches(V_Mem,V_Insp)
  72.    #Unicamente se codificaran las coincidencias
  73.    #mayores a la codificacion
  74.    if (fin - inicio) < len(str(szMem)*2)+3:
  75. L_Comp = L_Comp[:] + V_Insp[0]
  76.                #Muevo un solo caracter del texto a inspeccion
  77.                shcant = 1
  78.                cont += shcant
  79.            else:
  80. L_Comp = L_Comp[:] + _encode(inicio,fin)
  81. shcant = fin
  82.                cont += shcant
  83.    V_Insp, V_Mem = _toshift(V_Insp,V_Mem,shcant)
  84.    V_Insp = _fblancos(V_Insp,shcant)
  85.            L, V_Insp = _toshift(L,V_Insp,shcant)
  86.    L = _blancos(L,szInsp)
  87. Comprimido.append(L_Comp)
  88.    return '\n'.join(Comprimido)                
  89.  
  90. #Main
  91. Ruta = raw_input('Ruta de archivo a comprimir>')
  92. Dest = raw_input('Ruta destino de compresion>')
  93. Documento = Leer_Fichero(Ruta);
  94. szInsp = int(raw_input('Tamaño ventana inspeccion>'))
  95. szMem = int(raw_input('Tamaño ventana memoria>'))
  96. if Documento != None:  
  97.    Txt_Comp = Comprimir(Documento,szInsp,szMem)
  98.    Escribe_Fichero(Dest,Txt_Comp,szInsp,szMem)
  99.    print ('GOOD!')
  100. else:
  101.    print "NO EXISTE EL ARCHIVO/ARCHIVO VACIO"

Descompresor:

Código
  1. #Autor: determx
  2. #Fecha: 14/11/2009
  3. #Version : 1.0.0
  4.  
  5. import os
  6. import string
  7.  
  8. #Funcion que devuelve el archivo de texto en una lista
  9. def Leer_Fichero(Ruta):
  10.    if os.path.exists(Ruta):
  11.        archivo = open(Ruta)
  12.        datos = []
  13.        for linea in archivo:
  14.            datos.append(linea)
  15.        archivo.close()
  16.        return datos
  17.  
  18. #Funcion para escribir texto comprimido en archivo
  19. def Escribe_Fichero(Ruta,Texto):
  20.    archivo = open(Ruta,"w")
  21.    archivo.write(Texto)
  22.    archivo.close()
  23.  
  24. #Funcion que devuelve inicio y fin en enteros
  25. def _decode(Coded):
  26.    poscoma = string.find(Coded,',')
  27.    if poscoma != -1:
  28.        try:
  29.            ini = int(Coded[1 : poscoma],16)
  30.        except:
  31.            return 0,0
  32.        try:
  33.            fin = int(Coded[poscoma + 1: len(Coded)-1],16)
  34.        except:
  35.            return 0,0
  36.        return ini,fin
  37.    else:
  38.        return 0,0
  39.  
  40. #Cadena con espacios
  41. def _blancos(Cad,Cantidad):
  42.    Cad = Cad + " " * Cantidad
  43.    return Cad
  44.  
  45. def Descomprime(Texto):
  46.    szInsp = int(Texto[0])
  47.    szMem = int(Texto[1])
  48.    Texto = Texto[2:]
  49.    l_Descomp = []
  50.    V_Mem =''
  51.    V_Mem = _blancos(V_Mem,szMem)  
  52.    for l in Texto:
  53.        s_Descomp = ''
  54.        while l != '\n' and l!= '':
  55.            if l[0] != '(':
  56.                V_Mem = V_Mem[1:] + l[0]
  57.                s_Descomp = s_Descomp + l[0]
  58.                l = l[1:]
  59.            else:
  60.                PosFin = string.find(l,')')
  61.                Encoded = l[0:PosFin+1]
  62.                i,f = _decode(Encoded)
  63.                if (i != 0 or f !=0):
  64.                    s_Descomp = s_Descomp + V_Mem[i:i+f]
  65.                    V_Mem = V_Mem[f:] + V_Mem[i:i+f]
  66.                    l = l[PosFin+1:]
  67.                else:
  68.                    V_Mem = V_Mem[1:] + l[0]
  69.                    s_Descomp = s_Descomp + l[0]
  70.                    l = l[1:]
  71.        l_Descomp.append(s_Descomp)
  72.    return '\n'.join(l_Descomp)
  73.  
  74. #MAIN
  75. Path = raw_input('Ingresa ruta archivo comprimido>')
  76. Dest = raw_input('Ruta destino de compresion>')
  77. Documento = Leer_Fichero(Path)
  78. toArchivo = Descomprime(Documento)
  79. Escribe_Fichero(Dest,toArchivo)
  80. print('GOOD!')

Por supuesto, hacen falta muchas mejoras, me gustaría su opinión.


« Última modificación: 15 Noviembre 2009, 01:42 am por determx » En línea

bosc

Desconectado Desconectado

Mensajes: 1


Ver Perfil
Re: Python - Algoritmo de compresión
« Respuesta #1 en: 12 Mayo 2010, 12:13 pm »

Hola Dr. muy bueno tu aporte,,, voy a ponerlo en practica ,, Gracias


En línea

Debci
Wiki

Desconectado Desconectado

Mensajes: 2.021


Actualizate o muere!


Ver Perfil WWW
Re: Python - Algoritmo de compresión
« Respuesta #2 en: 12 Mayo 2010, 22:37 pm »

Muy bueno, ya estoy analizandolo.

Gracias ^^

Saludos
En línea

luu_cuuesta

Desconectado Desconectado

Mensajes: 3


Ver Perfil
Re: Python - Algoritmo de compresión
« Respuesta #3 en: 28 Diciembre 2021, 17:33 pm »

Muchas gracias por tu aportación, me sirve de mucho.
Pero por cierto, ¿cómo quedaría dicho código utilizando bitarrays?
Gracias.  :D
En línea

Páginas: [1] Ir Arriba Respuesta Imprimir 

Ir a:  

Mensajes similares
Asunto Iniciado por Respuestas Vistas Último mensaje
Cracked SmartFTP - aPLib compresion (Algoritmo).
Ingeniería Inversa
Иōҳ 0 4,034 Último mensaje 9 Abril 2011, 19:27 pm
por Иōҳ
Algoritmo compresión sin perdida.
Programación General
m0rf 7 5,683 Último mensaje 26 Enero 2012, 00:36 am
por [Case]
WinRAR 4.20 Final disponible con mejoras en el algoritmo de compresión en CPUs..
Noticias
wolfbcn 0 1,384 Último mensaje 15 Junio 2012, 18:11 pm
por wolfbcn
[RETO] Algoritmo de compresión
Programación General
fary 7 3,878 Último mensaje 17 Febrero 2015, 23:19 pm
por fary
Microsoft Edge adopta el algoritmo de compresión Brotli
Noticias
wolfbcn 0 1,682 Último mensaje 21 Diciembre 2016, 02:17 am
por wolfbcn
WAP2 - Aviso Legal - Powered by SMF 1.1.21 | SMF © 2006-2008, Simple Machines