Imprimir Página - HTML parse [ayuda]

hola alguien podría ayudarme a idear un algoritmo elegante que permita leer el contenido de una etiqueta teniendo en cuenta que adentro pueden haber mas etiquetas del mismo tipo, osea recursion, he intentado con una cola y con una función recursiva pero no consigo resultados eficientes, agradecería cualquier ayuda en cualquier lenguaje conocido

Cita de: Grave en 31 Agosto 2015, 01:13 am

agradecería cualquier ayuda en cualquier lenguaje conocido

¿Realmente quieres desarrollar el algoritmo desde cero?, lo vengo a decir por que según que lenguaje entonces sería cómo reinventar la rueda, algo un poco innecesario al existir ya herramientas especializadas, pero igualmente te lo pregunto por saber si la razón es justificable (ej. ganas de aprender) o no lo es (ej. desconocimiento de librerías).

En .Net, mi opción favorita por su simplicidad y eficacia, tienes la librería de terceros HTML Agility Pack, la cual es un muy buen parser de documentos Html (para el web-scrapping), aunque también puedes parsear Html con la librería de classes de .Net, con las classes de documentos Html, vamos, que no tienes que reinvetar nada, pero se haría más tedioso que usando las facilidades de dicha librería.
➢ http://htmlagilitypack.codeplex.com/

En Python tienes el módulo HTMLParser, e imagino que existirán varias herramientas más de terceros.
➢ http://docs.python.org/2/library/htmlparser.html

En Ruby tienes la gema Nokogiri, la cual es la recomendación Top de las gemas para parsear html.
➢ http://www.nokogiri.org/tutorials/parsing_an_html_xml_document.html

Saludos

Foro de elhacker.net

Programación => Programación General => Mensaje iniciado por: Grave en 31 Agosto 2015, 01:13 am