elhacker.net cabecera Bienvenido(a), Visitante. Por favor Ingresar o Registrarse
¿Perdiste tu email de activación?.

 

 


Tema destacado: ¿Eres nuevo? ¿Tienes dudas acerca del funcionamiento de la comunidad? Lee las Reglas Generales


+  Foro de elhacker.net
|-+  Programación
| |-+  Scripting
| | |-+  buscar una palabra en archivos html de varios directorios con python
0 Usuarios y 1 Visitante están viendo este tema.
Páginas: [1] Ir Abajo Respuesta Imprimir
Autor Tema: buscar una palabra en archivos html de varios directorios con python  (Leído 3,106 veces)
flony


Desconectado Desconectado

Mensajes: 584



Ver Perfil
buscar una palabra en archivos html de varios directorios con python
« en: 1 Junio 2022, 00:57 am »

Pues mi problema es este: tengo mi copia de Facebook, el cual vino en formato HTML y pesa 5 gb. y en las charlas quiero buscar una palabra concreta. El problema es que para cada charla hay una carpeta donde se aloja un archivo HTML. ¿Cómo elijo una carpeta, abro el HTML, busco la palabra, si no se encuentra la palabra, voy a la siguiente carpeta y realizo el mismo procedimiento, así hasta encontrar la charla donde esta esa palabra(sin darme cuenta acá me estaba dando solo el algoritmo) Respuesta: para mi mismo abajo te pongo el código, no es muy bonito y debería refinarlo un poco mas, pero funciona
Código:
# -*- coding: utf-8 -*-
"""
Created on Tue May 31 10:57:13 2022

@author: Administrador
"""

from pathlib import Path
import codecs

palabra_elegida = "Paula"

pathlist = Path(r"C:\Users\Administrador\Downloads\face\facebook-nor1").glob('**/*.html')


for path in pathlist:
    file = codecs.open(path, "r", "utf-8")
    for linea in file:
        for palabra in linea.split():
            if palabra==palabra_elegida:
                print(path)             
               


En línea

si un problema no tiene solucion entonces no es un problema...es algo inevitable
el-brujo
ehn
***
Desconectado Desconectado

Mensajes: 21.641


La libertad no se suplica, se conquista


Ver Perfil WWW
Re: buscar una palabra en archivos html de varios directorios con python
« Respuesta #1 en: 1 Junio 2022, 11:13 am »

Buscar en un fichero HTML (fichero de texto) es fácil, con cualquier editor puedes hacerlo.

Puedes usar Dreamweaver, o NotePad++ (gratuito) y buscar por palabra clave en el contenido de carpetas (y dentro de subcarpetas).

Captura de pantalla buscar NotePad++



En línea

flony


Desconectado Desconectado

Mensajes: 584



Ver Perfil
Re: buscar una palabra en archivos html de varios directorios con python
« Respuesta #2 en: 1 Junio 2022, 23:05 pm »

ni me voy a gastar  :rolleyes:
Cuando leas el problema en si veras la complicación que era
En línea

si un problema no tiene solucion entonces no es un problema...es algo inevitable
Páginas: [1] Ir Arriba Respuesta Imprimir 

Ir a:  

Mensajes similares
Asunto Iniciado por Respuestas Vistas Último mensaje
Buscar en varios archivos de texto vb 6.0 « 1 2 »
Programación Visual Basic
Bazzana 11 9,580 Último mensaje 3 Junio 2010, 02:03 am
por Bazzana
Buscar (texto) en varios archivos de texto
Dudas Generales
‭lipman 4 11,889 Último mensaje 10 Julio 2010, 18:44 pm
por ‭lipman
[Bash] ¿como podría buscar en varios archivos usando una lista?
Scripting
Cergath 1 4,076 Último mensaje 24 Febrero 2012, 00:03 am
por Cergath
Cambiar las rutas de varios directorios para congelar windows
Windows
gAb1 2 4,614 Último mensaje 30 Abril 2013, 18:12 pm
por Eleкtro
Buscar Palabra en una lista
Programación C/C++
Dato Vagabundo 5 3,260 Último mensaje 17 Enero 2017, 03:08 am
por francosmp
WAP2 - Aviso Legal - Powered by SMF 1.1.21 | SMF © 2006-2008, Simple Machines