Foro de elhacker.net

Seguridad Informática => Nivel Web => Mensaje iniciado por: SCU en 1 Junio 2013, 19:44 pm



Título: Spider php o python
Publicado por: SCU en 1 Junio 2013, 19:44 pm
Saludos, estoy llevando a cabo un proyecto y necesito crear una aplicación web que consulte periódicamente archivos publicados en unas pocas páginas web, y los descargue al servidor, para ello me han dicho que existe una librería php que permite crear consultas como si fuesen consultas a bases de datos, pero no me han dicho más sobre el tema.

Me podéis echar una mano?

Muchas gracias!


Título: Re: Spider php o python
Publicado por: ~ Yoya ~ en 2 Junio 2013, 20:36 pm
Lo que intentas hacer, se llama Minería de datos (http://es.wikipedia.org/wiki/Miner%C3%ADa_de_datos)

Para parsear los datos en PHP, puedes utilizar la librería PHP Simple HTML Dom Parser (http://simplehtmldom.sourceforge.net/). Te recomiendo si tienes duda similares, lo publiques en la sección de PHP, así tendrás mas colaboración ya que estas en la sección equivocada. Tambien puedes utilizar Expresiones Regulares para parsear los datos pero si no la conoces sera un poco confuso entender y muchas veces obtendrás algunos bug, así que te lo recomiendo como ultima opción para parsear muchos datos de un documento HTML.

Saludos.


Título: Re: Spider php o python
Publicado por: #!drvy en 3 Junio 2013, 14:36 pm
Citar
para ello me han dicho que existe una librería php que permite crear consultas como si fuesen consultas a bases de datos

No es exactamente una libreria...  YQL. http://developer.yahoo.com/yql/
http://developer.yahoo.com/yql/guide/yql-code-examples.html

Saludos


Título: Re: Spider php o python
Publicado por: SCU en 3 Junio 2013, 17:37 pm
Wo! muchas gracias a los dos! tanto por corregirme a la hora de elegir sitio para la publicación como por los dos aportes! esto me ayuda a orientar un poco mi trabajo, que andaba bastante desorientado.

Gracias!


Título: Re: Spider php o python
Publicado por: SCU en 3 Junio 2013, 18:48 pm
Por cierto, estoy en fase de documentación pero el proyecto lo tengo que comenzar a implementar en septiembre, cuando lo tenga lo publicaré en el foro y nos vamos a reir bastante XD