Parsear HTML con PHP – Simple HTML DOM Parser

Bienvenido(a), Visitante. Por favor Ingresar o Registrarse
¿Perdiste tu email de activación?.

31 Marzo 2026, 05:10 am

Tema destacado: Rompecabezas de Bitcoin, Medio millón USD en premios

Foro de elhacker.net

Programación

Desarrollo Web

PHP (Moderador: #!drvy)

Parsear HTML con PHP – Simple HTML DOM Parser

0 Usuarios y 1 Visitante están viendo este tema.

Páginas: [1]

Ir Abajo

Respuesta

Imprimir

Autor

Tema: Parsear HTML con PHP – Simple HTML DOM Parser (Leído 16,395 veces)

madpitbull_99

Colaborador

Desconectado

Desconectado

Mensajes: 1.911

Ver Perfil

WWW

Parsear HTML con PHP – Simple HTML DOM Parser

« en: 22 Mayo 2011, 16:21 pm »

Navegando por SourceForge me encontré con una interesante aplicación para parsear código HTML. Su nombre es PHP Simple HTML DOM Parser y está orientada a parsear el DOM de HTML.

Primero vamos a descargarla e incluirla en nuestra aplicación de prueba. Un ejemplo básico de como utilizarla es:

Código

<?php
    //Basic HTML parsing with PHP
    include("simplehtmldom/simple_html_dom.php");
 
    //Pasamos todo el contenido de la pagina a texto plano
    //echo $htmlCode = file_get_html('http://madhacking.com')->plaintext;
 
    $htmlCode = file_get_html('http://madhacking.com');
 
    // Encontrar todas las imageness
    foreach($htmlCode->find('img') as $element)
       echo $element->src . '<br>';
 
    echo "<hr />";
 
    // Mostrar todos los links
    foreach($htmlCode->find('a') as $element)
       echo $element->href . '<br>';
 
?>

Vamos a hacer un ejemplo que muestre todos los artículos de mi blog:

Código

<?php
    $htmlCode = file_get_html('http://madhacking.com');
    $posts = $htmlCode->find('div[class=post]');
 
    foreach($htmlCode->find('div[class=post]') as $article) {
        $item['title']     = $article->find('h2', 0)->plaintext;
        $item['info']      = $article->find('div[class=post-info]',0);
        $item['body']      = $article->find('div[class=post-content]', 0)->plaintext;
        $item['category']  = $article->find('div[class=post-meta]', 0)->plaintext;
        $articles[] = $item;
    }
 
    echo "<pre>";
    print_r($articles);
    echo "</pre>";
 
?>

Como podéis ver el funcionamiento es muy sencillo y no requiere esfuerzo programar algo sencillo. Os dejo los enlaces del proyecto.

Página Oficial: PHP Simple HTML DOM Parser - Manual de Uso

Si buscáis en SourceForge encontraréis proyectos similares, como:

_HTML Parser for PHP 4

_PHP Simple HTML SAX Parser

En NetTuts+ también hablan de esta librería para parsear HTML: Parsing and Screen Scraping with the Simple HTML DOM Library.

En definitiva, se trata de una librería que no puede ahorrar mucho trabajo, si alguna vez has tenido que parsear HTML usando regex, lo entenderás.


	En línea

«Si quieres la paz prepárate para la guerra» Flavius Vegetius

[Taller]Instalación/Configuración y Teoría de Servicios en Red

Nakp

casi es
Ex-Staff

Desconectado

Desconectado

Mensajes: 6.336

he vuelto :)

Ver Perfil

WWW

Re: Parsear HTML con PHP – Simple HTML DOM Parser

« Respuesta #1 en: 22 Mayo 2011, 20:05 pm »

Data Mining


	En línea

Ojo por ojo, y el mundo acabará ciego.

madpitbull_99

Colaborador

Desconectado

Desconectado

Mensajes: 1.911

Ver Perfil

WWW

Re: Parsear HTML con PHP – Simple HTML DOM Parser

« Respuesta #2 en: 23 Mayo 2011, 21:27 pm »

He encontrado uno más que proporciona una sintaxis parecida a SQL para parsear: htmlSQL.

Sí, se podría decir que es Data Mining, pero no tienes que usar ningún algoritmo, ni redes neuronales.


	En línea

«Si quieres la paz prepárate para la guerra» Flavius Vegetius

[Taller]Instalación/Configuración y Teoría de Servicios en Red

BlackM4ster

Desconectado

Desconectado

Mensajes: 499

Error, el teclado no funciona. Pulse F1 para continuar

Ver Perfil

WWW

Re: Parsear HTML con PHP – Simple HTML DOM Parser

« Respuesta #3 en: 1 Abril 2014, 09:54 am »

Alguien sabe como puedo procesar todos los elementos del html usando este parser?
Estoy usando éste code para sacar todos los <a>, pero necesito que procese todos (img, link, script, etc etc)

Código

foreach($html->find('a') as $link) {
	Url_Absolutas_Cambio($link, $base_url);
}


	En línea

- Pásate por mi web -
https://codeisc.com

Páginas: [1]

Ir Arriba

Respuesta

Imprimir

Ir a:

Mensajes similares
		Asunto	Iniciado por	Respuestas	Vistas	Último mensaje
		Mostrar codigo fuente escondido por HTML Protector, HTML Guardian, Altrise, etc. Desarrollo Web	sirdarckcat	1	14,874	10 Enero 2012, 09:40 am por gm-vl
		Parsear html, ¿algo sencillo? Java	Ragnarok	3	9,760	5 Junio 2007, 18:20 pm por alvk4r
		Ayuda con caja de texto html(simple codigo?) PHP	Tengu	5	4,887	17 Julio 2007, 18:23 pm por Tengu
		HTML Parser [SRC] Programación Visual Basic	cobein	1	2,907	6 Diciembre 2009, 22:54 pm por BlackZeroX
		Parsear con PHP Simple HTML DOM PHP	multi-media asdfg	5	6,928	16 Julio 2011, 01:20 am por multi-media asdfg

WAP2 - Aviso Legal - Powered by SMF 1.1.21 | SMF © 2006-2008, Simple Machines