Foro de elhacker.net

Programación => Programación General => Mensaje iniciado por: Grave en 31 Agosto 2015, 01:13 am



Título: HTML parse [ayuda]
Publicado por: Grave en 31 Agosto 2015, 01:13 am
hola alguien podría ayudarme a idear un algoritmo elegante que permita leer el contenido de una etiqueta teniendo en cuenta que adentro pueden haber mas etiquetas del mismo tipo, osea recursion, he intentado con una cola y con una función recursiva pero no consigo resultados eficientes, agradecería cualquier ayuda en cualquier lenguaje conocido


Título: Re: HTML parse [ayuda]
Publicado por: eLank0 en 2 Septiembre 2015, 14:44 pm
All you need is web scrapping. Búsca sobre ello...

Salu2


Título: Re: HTML parse [ayuda]
Publicado por: Eleкtro en 6 Septiembre 2015, 16:50 pm
agradecería cualquier ayuda en cualquier lenguaje conocido

¿Realmente quieres desarrollar el algoritmo desde cero?, lo vengo a decir por que según que lenguaje entonces sería cómo reinventar la rueda, algo un poco innecesario al existir ya herramientas especializadas, pero igualmente te lo pregunto por saber si la razón es justificable (ej. ganas de aprender) o no lo es (ej. desconocimiento de librerías).

En .Net, mi opción favorita por su simplicidad y eficacia, tienes la librería de terceros HTML Agility Pack, la cual es un muy buen parser de documentos Html (para el web-scrapping), aunque también puedes parsear Html con la librería de classes de .Net, con las classes de documentos Html, vamos, que no tienes que reinvetar nada, pero se haría más tedioso que usando las facilidades de dicha librería.
➢ http://htmlagilitypack.codeplex.com/

En Python tienes el módulo HTMLParser, e imagino que existirán varias herramientas más de terceros.
➢ http://docs.python.org/2/library/htmlparser.html

En Ruby tienes la gema Nokogiri, la cual es la recomendación Top de las gemas para parsear html.
➢ http://www.nokogiri.org/tutorials/parsing_an_html_xml_document.html

Saludos