Título: Parsear HTML con PHP – Simple HTML DOM Parser Publicado por: madpitbull_99 en 22 Mayo 2011, 16:21 pm Navegando por SourceForge (http://sourceforge.net) me encontré con una interesante aplicación para parsear código HTML. Su nombre es PHP Simple HTML DOM Parser (http://sourceforge.net/projects/simplehtmldom/files/) y está orientada a parsear el DOM de HTML.
Primero vamos a descargarla e incluirla en nuestra aplicación de prueba. Un ejemplo básico de como utilizarla es: Código
Vamos a hacer un ejemplo que muestre todos los artículos de mi blog: Código
Como podéis ver el funcionamiento es muy sencillo y no requiere esfuerzo programar algo sencillo. Os dejo los enlaces del proyecto. Página Oficial: PHP Simple HTML DOM Parser (http://simplehtmldom.sourceforge.net/) - Manual de Uso (http://simplehtmldom.sourceforge.net/manual.htm) Si buscáis en SourceForge encontraréis proyectos similares, como: _HTML Parser for PHP 4 (http://sourceforge.net/projects/php-html/) _PHP Simple HTML SAX Parser (http://sourceforge.net/projects/simplehtmlsax/) En NetTuts+ también hablan de esta librería para parsear HTML: Parsing and Screen Scraping with the Simple HTML DOM Library (http://net.tutsplus.com/tutorials/php/html-parsing-and-screen-scraping-with-the-simple-html-dom-library/). En definitiva, se trata de una librería que no puede ahorrar mucho trabajo, si alguna vez has tenido que parsear HTML usando regex, lo entenderás. Título: Re: Parsear HTML con PHP – Simple HTML DOM Parser Publicado por: Nakp en 22 Mayo 2011, 20:05 pm Data Mining :D
Título: Re: Parsear HTML con PHP – Simple HTML DOM Parser Publicado por: madpitbull_99 en 23 Mayo 2011, 21:27 pm He encontrado uno más que proporciona una sintaxis parecida a SQL para parsear: htmlSQL (http://www.jonasjohn.de/lab/htmlsql.htm).
Sí, se podría decir que es Data Mining, pero no tienes que usar ningún algoritmo, ni redes neuronales. Título: Re: Parsear HTML con PHP – Simple HTML DOM Parser Publicado por: BlackM4ster en 1 Abril 2014, 09:54 am Alguien sabe como puedo procesar todos los elementos del html usando este parser?
Estoy usando éste code para sacar todos los <a>, pero necesito que procese todos (img, link, script, etc etc) Código
|