Foro de elhacker.net

Programación => Scripting => Mensaje iniciado por: emma93 en 1 Octubre 2010, 04:58 am



Título: [Python] Leer archivo HTML ?
Publicado por: emma93 en 1 Octubre 2010, 04:58 am
Que tal queridos amigos.
Me ha surgido una duda y que mejor que venir a preguntarle a la gente que realmente sabe :)

Me estoy iniciando en python, y tengo un mini proyecto en mente (esas ideas que se pasan por la cabeza y que siempre surge la curiosidad de realizarlas) y para cumplirlo necesito PODER SABER como leer un archivo html e imprimir sus lineas. (En realidad no es imprimir sus lineas sino modificarlas, pero un ejemplo de imprimir las lineas me vendría bárbaro).

He intentado de la siguiente manera:

Código
  1. archivo = open('archivo.html',"r")
  2.  
  3. for lineas in archivo.readlines() :
  4. print lineas
  5.  
  6. archivo.close()

Ejecuto y al momento de imprimir las lineas me sale lo siguiente :

(http://s2.subirimagenes.com/otros/previo/thump_5281921imagensubir.jpg)

Como que los carácteres no logran decodificarse, como si tuviesen un formato diferente, o algo por el estilo. Alguien me podría ayudar ?

Muchas gracias !


Título: Re: [Python] Leer archivo HTML ?
Publicado por: criskapunk en 1 Octubre 2010, 13:32 pm
Buenas,

Para imprimir las lineas, este codigo me funciono (Tambien estoy aprendiendo python ;D)

Código
  1. archivo = open("nombreDelArchivo.html")
  2. texto = archivo.read()
  3. print texto

Un saludo ;)


Título: Re: [Python] Leer archivo HTML ?
Publicado por: emma93 en 2 Octubre 2010, 05:08 am
Amigo el problema era que los archivos que intentaba abrir eran los historiales de conversación del messenger plus.

Pero resulta que estos tenían una codificación diferente llamada 'UTF-16LE' (algo así).

Resulta que la solución fue:
Código
  1. archivo = open('conversacion.html','r')
  2. print archivo.read().decode('utf-16le')
  3. archivo.close()

de esa era la unica manera que los lograba leer, un saludo amigo !