Foro de elhacker.net

Programación => Scripting => Mensaje iniciado por: flony en 1 Junio 2022, 00:57 am



Título: buscar una palabra en archivos html de varios directorios con python
Publicado por: flony en 1 Junio 2022, 00:57 am
Pues mi problema es este: tengo mi copia de Facebook, el cual vino en formato HTML y pesa 5 gb. y en las charlas quiero buscar una palabra concreta. El problema es que para cada charla hay una carpeta donde se aloja un archivo HTML. ¿Cómo elijo una carpeta, abro el HTML, busco la palabra, si no se encuentra la palabra, voy a la siguiente carpeta y realizo el mismo procedimiento, así hasta encontrar la charla donde esta esa palabra(sin darme cuenta acá me estaba dando solo el algoritmo) Respuesta: para mi mismo abajo te pongo el código, no es muy bonito y debería refinarlo un poco mas, pero funciona
Código:
# -*- coding: utf-8 -*-
"""
Created on Tue May 31 10:57:13 2022

@author: Administrador
"""

from pathlib import Path
import codecs

palabra_elegida = "Paula"

pathlist = Path(r"C:\Users\Administrador\Downloads\face\facebook-nor1").glob('**/*.html')


for path in pathlist:
    file = codecs.open(path, "r", "utf-8")
    for linea in file:
        for palabra in linea.split():
            if palabra==palabra_elegida:
                print(path)             
               


Título: Re: buscar una palabra en archivos html de varios directorios con python
Publicado por: el-brujo en 1 Junio 2022, 11:13 am
Buscar en un fichero HTML (fichero de texto) es fácil, con cualquier editor puedes hacerlo.

Puedes usar Dreamweaver, o NotePad++ (gratuito) y buscar por palabra clave en el contenido de carpetas (y dentro de subcarpetas).

Captura de pantalla buscar NotePad++

(https://i.imgur.com/rIDnX5m.jpg)


Título: Re: buscar una palabra en archivos html de varios directorios con python
Publicado por: flony en 1 Junio 2022, 23:05 pm
ni me voy a gastar  :rolleyes:
Cuando leas el problema en si veras la complicación que era