agradecería cualquier ayuda en cualquier lenguaje conocido
¿Realmente quieres desarrollar el algoritmo desde cero?, lo vengo a decir por que según que lenguaje entonces sería cómo reinventar la rueda, algo un poco innecesario al existir ya herramientas especializadas, pero igualmente te lo pregunto por saber si la razón es justificable (ej. ganas de aprender) o no lo es (ej. desconocimiento de librerías).
En
.Net, mi opción favorita por su simplicidad y eficacia, tienes la librería de terceros
HTML Agility Pack, la cual es un muy buen parser de documentos Html (para el web-scrapping), aunque también puedes parsear Html con la librería de classes de .Net, con las classes de documentos Html, vamos, que no tienes que reinvetar nada, pero se haría más tedioso que usando las facilidades de dicha librería.
➢
http://htmlagilitypack.codeplex.com/En
Python tienes el módulo
HTMLParser, e imagino que existirán varias herramientas más de terceros.
➢
http://docs.python.org/2/library/htmlparser.htmlEn
Ruby tienes la gema
Nokogiri, la cual es la recomendación
Top de las gemas para parsear html.
➢
http://www.nokogiri.org/tutorials/parsing_an_html_xml_document.htmlSaludos