elhacker.net cabecera Bienvenido(a), Visitante. Por favor Ingresar o Registrarse
¿Perdiste tu email de activación?.

 

 


Tema destacado: Usando Git para manipular el directorio de trabajo, el índice y commits (segunda parte)


+  Foro de elhacker.net
|-+  Programación
| |-+  Desarrollo Web (Moderador: #!drvy)
| | |-+  Scrapping pinterest
0 Usuarios y 1 Visitante están viendo este tema.
Páginas: [1] Ir Abajo Respuesta Imprimir
Autor Tema: Scrapping pinterest  (Leído 3,588 veces)
Stoya

Desconectado Desconectado

Mensajes: 112


Esperando respuestas


Ver Perfil
Scrapping pinterest
« en: 29 Agosto 2015, 00:56 am »

Objetivo: descargar todas las imágenes de un tablón de pinterest.

Problema: el tablón está paginado y sólo puedo acceder a las imágenes más recientes.

Métodos: tanto la API como accediendo con un bot. Ambos métodos presentan el mismo problema.

En el caso de la API: no da más de 50 resultados. No parece haber ninguna forma para indicar un desplazamiento u "offset" y recuperar los siguientes 50.

En el caso de acceder con un bot: hace falta hacer una petición javascript, con un parámetro "bookmarks" que está codificado de una forma muy extraña y misteriosa. No encuentro la forma de generarlo a partir de la información de la página.

¿Alguien tiene alguna idea de qué hacer?

El lenguaje de programación me da igual, no es relevante para la pregunta, la cuestión es poder hacerlo en cualquiera.

Gracias a todos por las respuestas, perdón si esto debería ir en otro tablón y gracias a los moderadores por moverlo en caso de que así sea.


En línea

str_null

Desconectado Desconectado

Mensajes: 16



Ver Perfil
Re: Scrapping pinterest
« Respuesta #1 en: 3 Septiembre 2015, 15:25 pm »

Hola, has probado HTTrack? No tengo ni idea de si tiene que ver con lo que buscas pero lo mismo te sirve  ;D ;D

O quiza te sirvan herramientas tipo Spider que se usan para SEO a la hora de obtener los links de las ímagenes luego ya sería descargarlas. Probablemente no te este aportando demasiado pero bue, ahi queda.


« Última modificación: 3 Septiembre 2015, 15:30 pm por str_null » En línea

Las aulas educan pero el tiempo enseña
Stoya

Desconectado Desconectado

Mensajes: 112


Esperando respuestas


Ver Perfil
Re: Scrapping pinterest
« Respuesta #2 en: 6 Septiembre 2015, 15:34 pm »

En lugar de HTTrack usaría wget, y en cuanto a herramientas "tipo Spider", ya tengo mi propio cliente de http para todo esto.

El problema es AJAX.

Es necesario bajar al final del tablón para que se cargue la siguiente sección de la página, para indicar el avance se usa un parámetro "bookmarks", que no sé cómo rellenar.
En línea

someRandomCode

Desconectado Desconectado

Mensajes: 250



Ver Perfil
Re: Scrapping pinterest
« Respuesta #3 en: 6 Septiembre 2015, 15:58 pm »

Lo mismo que se envia por AJAX, se puede enviar con wget, el tema es que la respuesta no sea JSON
En línea

Stoya

Desconectado Desconectado

Mensajes: 112


Esperando respuestas


Ver Perfil
Re: Scrapping pinterest
« Respuesta #4 en: 27 Septiembre 2015, 09:39 am »

A ver, estoy usando httpclient, pero podría usar cualquier otra cosa.

Que la respuesta sea JSON me da igual, porque uso la librería de JSON de Play.

El problema es poner un parámetro en la petición GET, que no sé de dónde sale.
En línea

patilanz


Desconectado Desconectado

Mensajes: 481

555-555-0199@example.com


Ver Perfil WWW
Re: Scrapping pinterest
« Respuesta #5 en: 29 Septiembre 2015, 15:18 pm »

Sabes la función js que se ejecuta al hacer scroll?
En línea

Stoya

Desconectado Desconectado

Mensajes: 112


Esperando respuestas


Ver Perfil
Re: Scrapping pinterest
« Respuesta #6 en: 11 Octubre 2015, 16:30 pm »

No, y tampoco sé cómo mirarlo con las herramientas de desarrollador de Chrome ni Firefox. ¿Sabes si hay alguna forma de extraer esa información?
En línea

patilanz


Desconectado Desconectado

Mensajes: 481

555-555-0199@example.com


Ver Perfil WWW
Re: Scrapping pinterest
« Respuesta #7 en: 13 Octubre 2015, 00:46 am »

No, y tampoco sé cómo mirarlo con las herramientas de desarrollador de Chrome ni Firefox. ¿Sabes si hay alguna forma de extraer esa información?

https://stackoverflow.com/questions/10213703/how-do-i-view-events-fired-on-an-element-in-chrome-web-developer

https://stackoverflow.com/questions/9951045/pinterest-api-documentation

Me estoy fijando también en el network para ver lo que envía y acepta.
Si consigo algo lo digo.

Un saludo
« Última modificación: 13 Octubre 2015, 00:53 am por patilanz » En línea

Stoya

Desconectado Desconectado

Mensajes: 112


Esperando respuestas


Ver Perfil
Re: Scrapping pinterest
« Respuesta #8 en: 15 Octubre 2015, 10:34 am »

Creo que es ésta:

Código:
function(){P.pubSub.instance.publish(P.CONST.PUBSUB_CHANNEL_SITE,P.CONST.PUBSUB_TOPIC_WINDOW_SCROLL_CHANGE),P.util.windowIsInFocus=!0}

Tengo cierta idea de javascript, pero la verdad es que esta sintaxis no la conozco, parece que separa sentencias con una coma en lugar de punto y coma.
En línea

Páginas: [1] Ir Arriba Respuesta Imprimir 

Ir a:  

Mensajes similares
Asunto Iniciado por Respuestas Vistas Último mensaje
El ataque de los clones... de Pinterest
Noticias
wolfbcn 0 2,480 Último mensaje 3 Febrero 2012, 21:30 pm
por wolfbcn
"Pinterest" no es de Pinterest: ¿deberán cambiar de nombre?
Noticias
wolfbcn 0 1,216 Último mensaje 3 Enero 2014, 14:09 pm
por wolfbcn
PHP web scrapping
PHP
facecc200 5 4,147 Último mensaje 18 Diciembre 2016, 18:38 pm
por ThinkByYourself
recomendación para scrapping
Desarrollo Web
OssoH 0 1,526 Último mensaje 11 Febrero 2017, 13:56 pm
por OssoH
Web Scrapping
.NET (C#, VB.NET, ASP)
TrashAmbishion 2 2,632 Último mensaje 13 Mayo 2022, 18:06 pm
por **Aincrad**
WAP2 - Aviso Legal - Powered by SMF 1.1.21 | SMF © 2006-2008, Simple Machines