Autor
|
Tema: Scrapping pinterest (Leído 3,967 veces)
|
Stoya
Desconectado
Mensajes: 112
Esperando respuestas
|
Objetivo: descargar todas las imágenes de un tablón de pinterest.
Problema: el tablón está paginado y sólo puedo acceder a las imágenes más recientes.
Métodos: tanto la API como accediendo con un bot. Ambos métodos presentan el mismo problema.
En el caso de la API: no da más de 50 resultados. No parece haber ninguna forma para indicar un desplazamiento u "offset" y recuperar los siguientes 50.
En el caso de acceder con un bot: hace falta hacer una petición javascript, con un parámetro "bookmarks" que está codificado de una forma muy extraña y misteriosa. No encuentro la forma de generarlo a partir de la información de la página.
¿Alguien tiene alguna idea de qué hacer?
El lenguaje de programación me da igual, no es relevante para la pregunta, la cuestión es poder hacerlo en cualquiera.
Gracias a todos por las respuestas, perdón si esto debería ir en otro tablón y gracias a los moderadores por moverlo en caso de que así sea.
|
|
|
En línea
|
|
|
|
str_null
Desconectado
Mensajes: 16
|
Hola, has probado HTTrack? No tengo ni idea de si tiene que ver con lo que buscas pero lo mismo te sirve O quiza te sirvan herramientas tipo Spider que se usan para SEO a la hora de obtener los links de las ímagenes luego ya sería descargarlas. Probablemente no te este aportando demasiado pero bue, ahi queda.
|
|
« Última modificación: 3 Septiembre 2015, 15:30 pm por str_null »
|
En línea
|
Las aulas educan pero el tiempo enseña
|
|
|
Stoya
Desconectado
Mensajes: 112
Esperando respuestas
|
En lugar de HTTrack usaría wget, y en cuanto a herramientas "tipo Spider", ya tengo mi propio cliente de http para todo esto.
El problema es AJAX.
Es necesario bajar al final del tablón para que se cargue la siguiente sección de la página, para indicar el avance se usa un parámetro "bookmarks", que no sé cómo rellenar.
|
|
|
En línea
|
|
|
|
someRandomCode
Desconectado
Mensajes: 250
|
Lo mismo que se envia por AJAX, se puede enviar con wget, el tema es que la respuesta no sea JSON
|
|
|
En línea
|
|
|
|
Stoya
Desconectado
Mensajes: 112
Esperando respuestas
|
A ver, estoy usando httpclient, pero podría usar cualquier otra cosa.
Que la respuesta sea JSON me da igual, porque uso la librería de JSON de Play.
El problema es poner un parámetro en la petición GET, que no sé de dónde sale.
|
|
|
En línea
|
|
|
|
patilanz
Desconectado
Mensajes: 481
555-555-0199@example.com
|
Sabes la función js que se ejecuta al hacer scroll?
|
|
|
En línea
|
|
|
|
Stoya
Desconectado
Mensajes: 112
Esperando respuestas
|
No, y tampoco sé cómo mirarlo con las herramientas de desarrollador de Chrome ni Firefox. ¿Sabes si hay alguna forma de extraer esa información?
|
|
|
En línea
|
|
|
|
|
Stoya
Desconectado
Mensajes: 112
Esperando respuestas
|
Creo que es ésta: function(){P.pubSub.instance.publish(P.CONST.PUBSUB_CHANNEL_SITE,P.CONST.PUBSUB_TOPIC_WINDOW_SCROLL_CHANGE),P.util.windowIsInFocus=!0} Tengo cierta idea de javascript, pero la verdad es que esta sintaxis no la conozco, parece que separa sentencias con una coma en lugar de punto y coma.
|
|
|
En línea
|
|
|
|
|
Mensajes similares |
|
Asunto |
Iniciado por |
Respuestas |
Vistas |
Último mensaje |
|
|
El ataque de los clones... de Pinterest
Noticias
|
wolfbcn
|
0
|
2,656
|
3 Febrero 2012, 21:30 pm
por wolfbcn
|
|
|
"Pinterest" no es de Pinterest: ¿deberán cambiar de nombre?
Noticias
|
wolfbcn
|
0
|
1,468
|
3 Enero 2014, 14:09 pm
por wolfbcn
|
|
|
PHP web scrapping
PHP
|
facecc200
|
5
|
4,444
|
18 Diciembre 2016, 18:38 pm
por ThinkByYourself
|
|
|
recomendación para scrapping
Desarrollo Web
|
OssoH
|
0
|
1,701
|
11 Febrero 2017, 13:56 pm
por OssoH
|
|
|
Web Scrapping
.NET (C#, VB.NET, ASP)
|
TrashAmbishion
|
2
|
2,931
|
13 Mayo 2022, 18:06 pm
por **Aincrad**
|
|