wzdig.pbc.gov.cn:8080/dig/ui/search.action?hl=zh-CN&sr=score+desc&q=铁&rp=&advepq=铁&advoq=&adveq=&ext=&advtime=2&advrange=text%26title
Esta utiliza javascript para mostrar el contenido, por lo tanto tenía pensado utilizar phantomjs para extraer el código y compararlo mas tarde con "watch". Pero primero quiero poder extraer el código html, por lo que por ahora tengo algo así:
Código:
$ phantomjs get.js http://wzdig.pbc.gov.cn:8080/dig/ui/advsearch.action > page.html
Siendo get.js:
Código:
var system = require('system');
var page = require('webpage').create();
var system = require('system');
var page = require('webpage').create();
// Imitate a real browser
page.viewportSize = { width: 1440, height: 900 };
page.settings.userAgent = "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.106 Safari/537.36";
// Called every time a page is loaded
page.onLoadFinished = function(){
// If the real page with search controls is loaded
// then get page.content and exit
var inputCount = page.evaluate(function(){
return document.querySelectorAll("h3").length;//encabezado noticia
});
if(inputCount > 0) {
console.log(page.content);
phantom.exit();
}
};
Gracias de antemano!
EDITO: parece que el problema está en enviar el html a page.html sin pasarlo funciona. De todas formas ahora el problema es que me reedirige a http://wzdig.pbc.gov.cn:8080/dig/ui/search.action en vez de a la web que me interesa. Es decir como si hiciera una búsqueda en blanco.